51³Ô¹Ï

Corpus parall¨¨le de l¡¯Organisation des Nations Unies

Introduction

Le corpus parall¨¨le de l¡¯ONU v1.0 se compose de documents destin¨¦s aux organes d¨¦lib¨¦rants, y compris des documents officiels, qui sont dans le domaine public et qui sont pour la plupart publi¨¦s dans les six langues officielles de l¡¯Organisation. Dans sa version actuelle, il regroupe des documents qui ont ¨¦t¨¦ produits et traduits manuellement entre 1990 et 2014 et qui ont ¨¦t¨¦ align¨¦s phrase par phrase.

Le corpus a ¨¦t¨¦ constitu¨¦ afin de donner suite ¨¤ l¡¯engagement que l¡¯ONU a pris en faveur du multilinguisme et t¨¦moigne de l¡¯importance croissante accord¨¦e ¨¤ la traduction automatique statistique et au syst¨¨me de traduction automatique de l¡¯ONU, Tapta4UN, par les services de traduction du D¨¦partement de l¡¯Assembl¨¦e g¨¦n¨¦rale et de la gestion des conf¨¦rences (DGACM).

Le corpus vise ¨¤ ouvrir l¡¯acc¨¨s ¨¤ des ressources multilingues et ¨¤ faciliter la recherche et les progr¨¨s relatifs ¨¤ diff¨¦rentes t?ches de traitement du langage naturel, y compris la traduction automatique. Pour des raisons de commodit¨¦, il est disponible sous forme de paires de langues (bitextes) et sous la forme d¡¯un ensemble parall¨¨le en six langues.

Les utilisateurs sont tenus de citer la source - l¡¯Organisation des Nations Unies - lorsqu¡¯ils font usage du corpus de documents de l¡¯ONU. Les r¨¦f¨¦rences au corpus parall¨¨le de l¡¯ONU doivent ¨ºtre exprim¨¦es comme suit: 

Pour de plus amples informations, s¡¯adresser ¨¤ unovgtextsupport@un.org.

°Õ¨¦±ô¨¦³¦³ó²¹°ù²µ±ð°ù

Statistiques concernant le corpus

Statistiques relatives aux paires de documents:

  ar en es fr ru zh
ar ¨C 111 241
18 539 207
113 065
18 578 118
112 605
18 281 635
111 896
18 863 363
91 345
15 595 948
en    456 552 223
512 087 009
¨C 123 844
21 911 121
149 741
25 805 088
133 089
23 239 280
91 028
15 886 041
es 459 383 823
593 671 507
590 672 799
678 778 068
¨C 125 098
21 915 504
115 921
19 993 922
91 704
15 428 381
fr 452 833 187
597 651 233
668 518 779
782 912 487
674 477 239
688 418 806
¨C 133 510
22 381 416
91 613
15 206 689
ru 462 021 954
491 166 055
601 002 317
569 888 234
623 230 646
513 100 827
691 062 370
557 143 420
¨C 92 337
16 038 721
zh 387 968 412    
387 931 939
425 562 909    
381 371 583
493 338 256    
382 052 741
498 007 502    
377 884 885
417 366 738    
392 372 764
¨C
             

Les cellules situ¨¦es au-dessus de la diagonale font r¨¦f¨¦rence au nombre de documents et de lignes par paire de langues. Les cellules situ¨¦es en dessous de la diagonale font r¨¦f¨¦rence au nombre de tokens par paire de langues. Le premier nombre fait r¨¦f¨¦rence ¨¤ la langue indiqu¨¦e dans les en-t¨ºtes de colonne, tandis que le second renvoie ¨¤ celle indiqu¨¦e dans les en-t¨ºtes de rang¨¦e. Le nombre de tokens a ¨¦t¨¦ ¨¦tabli apr¨¨s traitement au moyen de l¡¯outil de tok¨¦nisation fourni avec Moses. Pour le chinois, Jieba a ¨¦t¨¦ utilis¨¦ avant traitement au moyen de l¡¯outil de tok¨¦nisation de Moses, les param¨¨tres par d¨¦faut ayant ¨¦t¨¦ conserv¨¦s.

Statistiques concernant les documents:

Nombre total de documents     Paires de documents align¨¦s
799 276 1 727 539

Statistiques concernant le sous-corpus align¨¦:

Documents     Lignes Tokens anglais
86 307 11 365 709     334 953 817

D¨¦ni de responsabilit¨¦ et conditions d¡¯utilisation

Le d¨¦ni de responsabilit¨¦ ci-apr¨¨s, qui fait partie int¨¦grante du corpus parall¨¨le de l¡¯ONU v1.0, s¡¯applique au corpus (aucune autre restriction ne s¡¯applique):

  • Le corpus parall¨¨le de l¡¯ONU est mis ¨¤ la disposition des utilisateurs sans aucune garantie d¡¯aucune sorte, ni explicite ni implicite. En particulier, l¡¯Organisation ne garantit ni l¡¯exactitude ni le caract¨¨re exhaustif de l¡¯information figurant dans le corpus.
  • L¡¯ONU ne saurait en aucun cas ¨ºtre tenue responsable de tout dommage, pr¨¦judice, perte ou obligation dont on ferait valoir qu¡¯ils sont cons¨¦cutifs ¨¤ l¡¯utilisation du corpus. L¡¯utilisateur utilise le corpus ¨¤ ses risques et p¨¦rils. L¡¯utilisateur reconna?t et convient que l¡¯ONU ne saurait ¨ºtre tenue responsable du comportement de tel ou tel utilisateur. L¡¯utilisateur que ne satisfait pas le contenu figurant dans le corpus n¡¯a d¡¯autre recours que de ne plus l¡¯utiliser.
  • L¡¯utilisateur est tenu de citer la source - l¡¯Organisation des Nations Unies - lorsqu¡¯il fait usage du corpus de documents de l¡¯ONU. Les r¨¦f¨¦rences au corpus parall¨¨le de l¡¯ONU doivent ¨ºtre exprim¨¦es comme suit : Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The 51³Ô¹Ï Parallel Corpus, Language Resources and Evaluation (LREC¡¯16), Portoro?, Slov¨¦nie, mai 2016.
  • Rien dans les pr¨¦sentes conditions d¡¯utilisation ne constitue ni ne saurait ¨ºtre consid¨¦r¨¦ comme une limitation des privil¨¨ges et immunit¨¦s des Nations Unies, ni comme une renonciation ¨¤ ces privil¨¨ges et immunit¨¦s, que l¡¯ONU se r¨¦serve express¨¦ment.

Organisation et format des fichiers

Les documents sont organis¨¦s en dossiers, class¨¦s par langue, ann¨¦e de publication et cote. Les documents ayant une correspondance sont class¨¦s selon une arborescence parall¨¨le et les versions traduites dans l¡¯une des langues officielles peuvent ¨ºtre localis¨¦es (si elles existent) en suivant la m¨ºme arborescence dans le sous-dossier de la langue pertinente.

En ce qui concerne les documents individuels, il a ¨¦t¨¦ d¨¦cid¨¦ d¡¯appliquer le format TEI utilis¨¦ dans le corpus parall¨¨le JRC-Acquis. La structure des paragraphes d¡¯origine a ¨¦t¨¦ conserv¨¦e et les phrases ont ¨¦t¨¦ d¨¦limit¨¦es automatiquement. Les documents pour lesquels il existe plus d¡¯une version par langue sont associ¨¦s ¨¤ autant de fichiers qu¡¯il y a de versions, sachant qu¡¯il n¡¯y en a pas plus de 15.

Il existe deux types de distributions : dans le premier, un fichier correspond ¨¤ un document ; dans le second, des bitextes au format texte brut englobent tous les documents correspondant ¨¤ une paire de langues et peuvent ¨ºtre utilis¨¦s plus ais¨¦ment par les algorithmes d¡¯entra?nement employ¨¦s dans le cadre de la traduction automatique statistique.

Pour plus de d¨¦tails sur les modalit¨¦s de pr¨¦paration du corpus, voir .

Ensembles de donn¨¦es (tests et d¨¦veloppement)

Les donn¨¦es provenant des documents publi¨¦s en 2015 ont ¨¦t¨¦ mises de c?t¨¦ et des ensembles de test et de d¨¦veloppement ont ¨¦t¨¦ constitu¨¦s ¨¤ partir d¡¯elles pour toutes les paires de langues : 100 documents ont ¨¦t¨¦ s¨¦lectionn¨¦s de fa?on al¨¦atoire - 50 pour l¡¯ensemble de d¨¦veloppement et 50 pour l¡¯ensemble de test. Ainsi que cela est le cas pour le sous-corpus qui a fait l¡¯objet d¡¯un alignement complet, toutes les phrases des ensembles de test et de d¨¦veloppement sont disponibles pour toutes les langues officielles de l¡¯ONU, et les directions de traduction, quelles qu¡¯elles soient, peuvent ¨ºtre ¨¦valu¨¦es.

Pour plus de d¨¦tails sur les r¨¦f¨¦rences de d¨¦part, voir .

M¨¦tadonn¨¦es associ¨¦es aux documents

Les m¨¦tadonn¨¦es ci-apr¨¨s accompagnent chaque document au format XML:

Cote
Chaque document de l¡¯ONU est associ¨¦ ¨¤ une qui lui est propre. Les versions linguistiques d¡¯un document portent la m¨ºme cote. Les cotes se composent de lettres et de chiffres. Certains ¨¦l¨¦ments de la cote ont une signification, d¡¯autres non. En g¨¦n¨¦ral, la cote n¡¯indique pas le sujet sur lequel porte un document.
Num¨¦ro de travail
Il s¡¯agit d¡¯un identificateur unique propre ¨¤ la version linguistique du document.
Date de publication
Il s¡¯agit de la date de publication du document, qui s¡¯applique ¨¤ toutes les versions linguistiques. La date de publication ne correspond pas n¨¦cessairement ¨¤ la date ¨¤ laquelle chaque version linguistique a ¨¦t¨¦ diffus¨¦e.
Lieu de traitement
Il peut s¡¯agir de New York, Gen¨¨ve ou Vienne.
²Ñ´Ç³Ù²õ-³¦±ô¨¦²õ
Les mots-cl¨¦s renvoient aux domaines dont il est question dans le document, sur la base de la liste de sujets utilis¨¦s par le Syst¨¨me de diffusion ¨¦lectronique des documents (S¨¦doc), laquelle repose sur le