联合国平行语料库
前言
联合国平行语料库(1.0版)由已进入公有领域的联合国正式记录和其他会议文件组成。这些文件多数都有联合国六种语文的文本。本语料库当前版本包含1990至2014年编写并经人工翻译的文字内容,包括以语句为单位对齐的文本。
创立语料库既是表明联合国对多种语文并用的承诺,也是因为统计机器翻译在大会和会议管理部(大会部)各笔译处和联合国统计机器翻译系统罢补辫迟补4鲍狈中的作用越来越大。
语料库旨在提供多语种的语言资源,帮助在机器翻译等各种自然语言处理方面开展研究和取得进展。为了方便使用,本语料库还提供现成的特定语种双语文本和六语种平行语料子库。
用户在使用联合国语料库时,须表明联合国是信息来源方。在引用联合国平行语料库时,请注明如下出处:。
详细情况请洽询:unovgtextsupport@un.org。
语料库统计数据
双语种对齐文件统计数据:
阿文 | 英文 | 西文 | 法文 | 俄文 | 中文 | |
---|---|---|---|---|---|---|
阿文 | – | 111,241 18,539,207 |
113,065 18,578,118 |
112,605 18,281,635 |
111,896 18,863,363 |
91,345 15,595,948 |
英文 | 456,552,223 512,087,009 |
– | 123,844 21,911,121 |
149,741 25,805,088 |
133,089 23,239,280 |
91,028 15,886,041 |
西文 | 459,383,823 593,671,507 |
590,672,799 678,778,068 |
– | 125,098 21,915,504 |
115,921 19,993,922 |
91,704 15,428,381 |
法文 | 452,833,187 597,651,233 |
668,518,779 782,912,487 |
674,477,239 688,418,806 |
– | 133,510 22,381,416 |
91,613 15,206,689 |
俄文 | 462,021,954 491,166,055 |
601,002,317 569,888,234 |
623,230,646 513,100,827 |
691,062,370 557,143,420 |
– | 92,337 16,038,721 |
中文 | 387,968,412 387,931,939 |
425,562,909 381,371,583 |
493,338,256 382,052,741 |
498,007,502 377,884,885 |
417,366,738 392,372,764 |
– |
表格对角线右上方的单元格中是各语种对的文件数和行数。对角线左下方的单元格中是各语种对的词例数:上边的数字对应所在列标头中的语种;下边的数字对应所在行标头中的语种。由惭辞蝉别蝉切词器处理后进行词例计数。中文文本在用默认设置的惭辞蝉别蝉切词器处理前,先用“结巴”切词处理。
文件总数 | 对齐的文件对数目 |
---|---|
799,276 | 1,727,539 |
文件数 | 行数 | 英文词例数 |
---|---|---|
86,307 | 11,365,709 | 334,953,817 |
免责规定和使用条款
下列免责规定是联合国平行语料库(1.0版本)的组成部分,在使用语料库时须遵守这些规定(无其他限制):
- 我们不为联合国平行语料库提供任何明确或暗中的保证。具体而言,联合国对联合国语料库中的信息是否准确或完整不作任何保证或陈述。
- 对据说因使用联合国语料库而造成或遭受的损失、责任、伤害或损害,联合国概不负责。用户自行承担使用联合国语料库的风险。用户明确承认并同意联合国不对任何用户的行为负责。如果用户不满意联合国语料库提供的资料,唯一仅有的补救办法是停止使用联合国语料库。
- 用户在使用联合国语料库时,须承认联合国是信息来源方。引用时请使用本出版物。
- 本规定的任何内容不构成、也不得视为明确或暗中限制或放弃联合国具体保留的特权和豁免。
文件存储方式和格式
所有文件按语种、出版年份和出版文号分门别类,存放在文件夹中。相对应的文件保存在结构平行的文件夹中,每份文件的任何一种联合国正式语文的译文(如果有)可通过该语种子文件夹的相同文件路径找到。
文件采用闯搁颁-础肠辩耻颈蝉平行语料库的罢贰滨兼容格式。文件保留原始的段落结构,并自动添加切句标签。对于有多语种文本的文件,各语种对都有相应的关联文档,最多有15个语种对。
除了每个文件有一个关联文档的配给方式,还为每个语种对提供了所有文件的纯文本双语文件,这样更容易用于统计机器翻译训练流水线。
对于语料库准备工作的详细信息,请参见:。
测试包和开发包
取用了2015年印发的文件中的数据,为所有语种对制作了正式的开发包和测试包。从这些文件中随机选出100份文件,开发包和测试包各用50个。与全语种对齐语料子库的情况相同,开发包和测试包的每个语句都有联合国所有语种的文本,可对所有语种的互译进行评测。
对于机器翻译的基线结果,请参见:。
文件元数据
每份齿惭尝文件格式的文件都内置下列元数据信息:
- 文号
- 联合国每份文件都有一个唯一。每份文件的联合国所有语种文本共用同一个文号。文号包含字母和数字。文号的某些部分有含义,其余部分无含义。一般而言,文号并不表明文件议题。
- 翻译工号
- 系唯一的单语文件标识符。
- 出版日期
- 系文件的原始出版日期,按文号提供,每份文件的联合国所有语种文本共用同一个出版日期。出版日期并不对应具体语种文件的印发日期。
- 处理地点
- 可以是纽约,也可以是日内瓦或维也纳。
- 关键词
- 关键词包括文件所涉及的联合国正式文件系统专题词汇表界定的若干专题。专题词汇表是根据叙词表编制的。