Corpus parall¨¨le de l¡¯Organisation des Nations Unies
Introduction
Le corpus parall¨¨le de l¡¯ONU v1.0 se compose de documents destin¨¦s aux organes d¨¦lib¨¦rants, y compris des documents officiels, qui sont dans le domaine public et qui sont pour la plupart publi¨¦s dans les six langues officielles de l¡¯Organisation. Dans sa version actuelle, il regroupe des documents qui ont ¨¦t¨¦ produits et traduits manuellement entre 1990 et 2014 et qui ont ¨¦t¨¦ align¨¦s phrase par phrase.
Le corpus a ¨¦t¨¦ constitu¨¦ afin de donner suite ¨¤ l¡¯engagement que l¡¯ONU a pris en faveur du multilinguisme et t¨¦moigne de l¡¯importance croissante accord¨¦e ¨¤ la traduction automatique statistique et au syst¨¨me de traduction automatique de l¡¯ONU, Tapta4UN, par les services de traduction du D¨¦partement de l¡¯Assembl¨¦e g¨¦n¨¦rale et de la gestion des conf¨¦rences (DGACM).
Le corpus vise ¨¤ ouvrir l¡¯acc¨¨s ¨¤ des ressources multilingues et ¨¤ faciliter la recherche et les progr¨¨s relatifs ¨¤ diff¨¦rentes t?ches de traitement du langage naturel, y compris la traduction automatique. Pour des raisons de commodit¨¦, il est disponible sous forme de paires de langues (bitextes) et sous la forme d¡¯un ensemble parall¨¨le en six langues.
Les utilisateurs sont tenus de citer la source - l¡¯Organisation des Nations Unies - lorsqu¡¯ils font usage du corpus de documents de l¡¯ONU. Les r¨¦f¨¦rences au corpus parall¨¨le de l¡¯ONU doivent ¨ºtre exprim¨¦es comme suit:
Pour de plus amples informations, s¡¯adresser ¨¤ unovgtextsupport@un.org.
°Õ¨¦±ô¨¦³¦³ó²¹°ù²µ±ð°ù
Statistiques concernant le corpus
Statistiques relatives aux paires de documents:
ar | en | es | fr | ru | zh | |
---|---|---|---|---|---|---|
ar | ¨C | 111 241 18 539 207 |
113 065 18 578 118 |
112 605 18 281 635 |
111 896 18 863 363 |
91 345 15 595 948 |
en | 456 552 223 512 087 009 |
¨C | 123 844 21 911 121 |
149 741 25 805 088 |
133 089 23 239 280 |
91 028 15 886 041 |
es | 459 383 823 593 671 507 |
590 672 799 678 778 068 |
¨C | 125 098 21 915 504 |
115 921 19 993 922 |
91 704 15 428 381 |
fr | 452 833 187 597 651 233 |
668 518 779 782 912 487 |
674 477 239 688 418 806 |
¨C | 133 510 22 381 416 |
91 613 15 206 689 |
ru | 462 021 954 491 166 055 |
601 002 317 569 888 234 |
623 230 646 513 100 827 |
691 062 370 557 143 420 |
¨C | 92 337 16 038 721 |
zh | 387 968 412 387 931 939 |
425 562 909 381 371 583 |
493 338 256 382 052 741 |
498 007 502 377 884 885 |
417 366 738 392 372 764 |
¨C |
Les cellules situ¨¦es au-dessus de la diagonale font r¨¦f¨¦rence au nombre de documents et de lignes par paire de langues. Les cellules situ¨¦es en dessous de la diagonale font r¨¦f¨¦rence au nombre de tokens par paire de langues. Le premier nombre fait r¨¦f¨¦rence ¨¤ la langue indiqu¨¦e dans les en-t¨ºtes de colonne, tandis que le second renvoie ¨¤ celle indiqu¨¦e dans les en-t¨ºtes de rang¨¦e. Le nombre de tokens a ¨¦t¨¦ ¨¦tabli apr¨¨s traitement au moyen de l¡¯outil de tok¨¦nisation fourni avec Moses. Pour le chinois, Jieba a ¨¦t¨¦ utilis¨¦ avant traitement au moyen de l¡¯outil de tok¨¦nisation de Moses, les param¨¨tres par d¨¦faut ayant ¨¦t¨¦ conserv¨¦s.
Nombre total de documents | Paires de documents align¨¦s |
---|---|
799 276 | 1 727 539 |
Documents | Lignes | Tokens anglais |
---|---|---|
86 307 | 11 365 709 | 334 953 817 |
D¨¦ni de responsabilit¨¦ et conditions d¡¯utilisation
Le d¨¦ni de responsabilit¨¦ ci-apr¨¨s, qui fait partie int¨¦grante du corpus parall¨¨le de l¡¯ONU v1.0, s¡¯applique au corpus (aucune autre restriction ne s¡¯applique):
- Le corpus parall¨¨le de l¡¯ONU est mis ¨¤ la disposition des utilisateurs sans aucune garantie d¡¯aucune sorte, ni explicite ni implicite. En particulier, l¡¯Organisation ne garantit ni l¡¯exactitude ni le caract¨¨re exhaustif de l¡¯information figurant dans le corpus.
- L¡¯ONU ne saurait en aucun cas ¨ºtre tenue responsable de tout dommage, pr¨¦judice, perte ou obligation dont on ferait valoir qu¡¯ils sont cons¨¦cutifs ¨¤ l¡¯utilisation du corpus. L¡¯utilisateur utilise le corpus ¨¤ ses risques et p¨¦rils. L¡¯utilisateur reconna?t et convient que l¡¯ONU ne saurait ¨ºtre tenue responsable du comportement de tel ou tel utilisateur. L¡¯utilisateur que ne satisfait pas le contenu figurant dans le corpus n¡¯a d¡¯autre recours que de ne plus l¡¯utiliser.
- L¡¯utilisateur est tenu de citer la source - l¡¯Organisation des Nations Unies - lorsqu¡¯il fait usage du corpus de documents de l¡¯ONU. Les r¨¦f¨¦rences au corpus parall¨¨le de l¡¯ONU doivent ¨ºtre exprim¨¦es comme suit : Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The 51³Ô¹Ï Parallel Corpus, Language Resources and Evaluation (LREC¡¯16), Portoro?, Slov¨¦nie, mai 2016.
- Rien dans les pr¨¦sentes conditions d¡¯utilisation ne constitue ni ne saurait ¨ºtre consid¨¦r¨¦ comme une limitation des privil¨¨ges et immunit¨¦s des Nations Unies, ni comme une renonciation ¨¤ ces privil¨¨ges et immunit¨¦s, que l¡¯ONU se r¨¦serve express¨¦ment.
Organisation et format des fichiers
Les documents sont organis¨¦s en dossiers, class¨¦s par langue, ann¨¦e de publication et cote. Les documents ayant une correspondance sont class¨¦s selon une arborescence parall¨¨le et les versions traduites dans l¡¯une des langues officielles peuvent ¨ºtre localis¨¦es (si elles existent) en suivant la m¨ºme arborescence dans le sous-dossier de la langue pertinente.
En ce qui concerne les documents individuels, il a ¨¦t¨¦ d¨¦cid¨¦ d¡¯appliquer le format TEI utilis¨¦ dans le corpus parall¨¨le JRC-Acquis. La structure des paragraphes d¡¯origine a ¨¦t¨¦ conserv¨¦e et les phrases ont ¨¦t¨¦ d¨¦limit¨¦es automatiquement. Les documents pour lesquels il existe plus d¡¯une version par langue sont associ¨¦s ¨¤ autant de fichiers qu¡¯il y a de versions, sachant qu¡¯il n¡¯y en a pas plus de 15.
Il existe deux types de distributions : dans le premier, un fichier correspond ¨¤ un document ; dans le second, des bitextes au format texte brut englobent tous les documents correspondant ¨¤ une paire de langues et peuvent ¨ºtre utilis¨¦s plus ais¨¦ment par les algorithmes d¡¯entra?nement employ¨¦s dans le cadre de la traduction automatique statistique.
Pour plus de d¨¦tails sur les modalit¨¦s de pr¨¦paration du corpus, voir .
Ensembles de donn¨¦es (tests et d¨¦veloppement)
Les donn¨¦es provenant des documents publi¨¦s en 2015 ont ¨¦t¨¦ mises de c?t¨¦ et des ensembles de test et de d¨¦veloppement ont ¨¦t¨¦ constitu¨¦s ¨¤ partir d¡¯elles pour toutes les paires de langues : 100 documents ont ¨¦t¨¦ s¨¦lectionn¨¦s de fa?on al¨¦atoire - 50 pour l¡¯ensemble de d¨¦veloppement et 50 pour l¡¯ensemble de test. Ainsi que cela est le cas pour le sous-corpus qui a fait l¡¯objet d¡¯un alignement complet, toutes les phrases des ensembles de test et de d¨¦veloppement sont disponibles pour toutes les langues officielles de l¡¯ONU, et les directions de traduction, quelles qu¡¯elles soient, peuvent ¨ºtre ¨¦valu¨¦es.
Pour plus de d¨¦tails sur les r¨¦f¨¦rences de d¨¦part, voir .
M¨¦tadonn¨¦es associ¨¦es aux documents
Les m¨¦tadonn¨¦es ci-apr¨¨s accompagnent chaque document au format XML:
- Cote
- Chaque document de l¡¯ONU est associ¨¦ ¨¤ une qui lui est propre. Les versions linguistiques d¡¯un document portent la m¨ºme cote. Les cotes se composent de lettres et de chiffres. Certains ¨¦l¨¦ments de la cote ont une signification, d¡¯autres non. En g¨¦n¨¦ral, la cote n¡¯indique pas le sujet sur lequel porte un document.
- Num¨¦ro de travail
- Il s¡¯agit d¡¯un identificateur unique propre ¨¤ la version linguistique du document.
- Date de publication
- Il s¡¯agit de la date de publication du document, qui s¡¯applique ¨¤ toutes les versions linguistiques. La date de publication ne correspond pas n¨¦cessairement ¨¤ la date ¨¤ laquelle chaque version linguistique a ¨¦t¨¦ diffus¨¦e.
- Lieu de traitement
- Il peut s¡¯agir de New York, Gen¨¨ve ou Vienne.
- ²Ñ´Ç³Ù²õ-³¦±ô¨¦²õ
- Les mots-cl¨¦s renvoient aux domaines dont il est question dans le document, sur la base de la liste de sujets utilis¨¦s par le Syst¨¨me de diffusion ¨¦lectronique des documents (S¨¦doc), laquelle repose sur le