51³Ô¹Ï

Corpus paralelo de las Naciones Unidas

±õ²Ô³Ù°ù´Ç»å³Ü³¦³¦¾±¨®²Ô

El corpus paralelo de las Naciones Unidas (versi¨®n 1.0) se compone de los documentos oficiales y otros textos parlamentarios del dominio p¨²blico de las Naciones Unidas. La mayor¨ªa de los documentos est¨¢n disponibles en los seis idiomas oficiales de las Naciones Unidas. La presente versi¨®n del corpus contiene los textos redactados y traducidos manualmente desde 1990 hasta 2014, alineados por frases.

La creaci¨®n del corpus obedece al compromiso de las Naciones Unidas con el multiling¨¹ismo, y a la importancia creciente de la traducci¨®n autom¨¢tica estad¨ªstica en los servicios de traducci¨®n del Departamento de la Asamblea General y de Gesti¨®n de Conferencias (DAGGC), as¨ª como del sistema de traducci¨®n autom¨¢tica de las Naciones Unidas, denominado Tapta4UN.

La finalidad del corpus consiste en fomentar el acceso a un recurso ling¨¹¨ªstico multiling¨¹e y facilitar la investigaci¨®n y el desarrollo en diversas labores de procesamiento del lenguaje natural, entre las cuales est¨¢ la traducci¨®n autom¨¢tica. Para mayor flexibilidad, se distribuye no solo como corpus paralelo en seis idiomas sino tambi¨¦n en paquetes de bitextos por pares de idiomas espec¨ªficos.

Los usuarios del corpus de las Naciones Unidas deben acreditar que las Naciones Unidas son la fuente de los datos. Al citar el corpus paralelo de las Naciones Unidas se debe utilizar la siguiente referencia bibliogr¨¢fica: 

Puede remitir sus consultas a la direcci¨®n siguiente: unovgtextsupport@un.org.

Estad¨ªsticas del corpus

Estad¨ªsticas para documentos alineados por pares:

  ar en es fr ru zh
ar ¨C 111.241
18.539.207
113.065
18.578.118
112.605
18.281.635
111.896
18.863.363
91.345
15.595.948
en    456.552.223
512.087.009
¨C 123.844
21.911.121
149.741
25.805.088
133.089
23.239.280
91.028
15.886.041
es 459.383.823
593.671.507
590.672.799
678.778.068
¨C 125.098
21.915.504
115.921
19.993.922
91.704
15.428.381
fr 452.833.187
597.651.233
668.518.779
782.912.487
674.477.239
688.418.806
¨C 133.510
22.381.416
91.613
15.206.689
ru 462.021.954
491.166.055
601.002.317
569.888.234
623.230.646
513.100.827
691.062.370
557.143.420
¨C 92.337
16.038.721
zh 387.968.412    
387.931.939
425.562.909    
381.371.583
493.338.256    
382.052.741
498.007.502    
377.884.885
417.366.738    
392.372.764
¨C
             

Las celdas situadas por encima de la diagonal indican el n¨²mero de documentos y de l¨ªneas para cada par de idiomas. Las celdas situadas por debajo de la diagonal indican el n¨²mero de tokens (unidades indivisibles de significado) para cada par de idiomas. La cifra superior se refiere al idioma indicado en la columna y la cifra inferior al idioma indicado en la fila. Los tokens se contabilizaron despu¨¦s de haber procesado el texto con el segmentador de tokens de Moses. Para los textos en chino se utiliz¨® Jieba antes de aplicar el segmentador de Moses con los par¨¢metros por defecto.

Estad¨ªsticas de documentos:

N¨²mero total de documentos     Pares de documentos alineados
799.276 1.727.539

Estad¨ªsticas del subcorpus completo alineado:

Documentos     ³¢¨ª²Ô±ð²¹²õ Tokens en ingl¨¦s
86.307 11.365.709     334.953.817

Cl¨¢usula de exenci¨®n de responsabilidad y condiciones de uso

La presente cl¨¢usula de exenci¨®n de responsabilidad forma parte integrante del corpus paralelo de las Naciones Unidas (versi¨®n 1.0) y es de obligado cumplimiento para el uso del corpus (no se impone ninguna otra restricci¨®n):

  • El corpus paralelo de las Naciones Unidas se distribuye sin garant¨ªa expl¨ªcita o impl¨ªcita de ning¨²n tipo. En particular, las Naciones Unidas no dan garant¨ªas de ninguna clase ni responden de que la informaci¨®n que contiene el corpus de las Naciones Unidas sea exacta o completa.
  • Las Naciones Unidas no asumir¨¢n responsabilidad alguna, en ninguna circunstancia, respecto de los da?os, perjuicios, p¨¦rdidas o responsabilidades causados o recibidos que puedan derivarse del uso del corpus de las Naciones Unidas. Se entiende que el usuario utiliza el corpus de las Naciones Unidas por su cuenta y riesgo. El usuario reconoce y acepta espec¨ªficamente que las Naciones Unidas no son responsables de los actos de ning¨²n usuario. Si el usuario no estuviera conforme con alguno de los materiales que contiene el corpus de las Naciones Unidas, el remedio ¨²nico y exclusivo al que podr¨¢ recurrir ser¨¢ dejar de utilizarlo.
  • Al utilizar el corpus de las Naciones Unidas, el usuario debe acreditar que las Naciones Unidas son la fuente de esa informaci¨®n. En la presente publicaci¨®n se indica c¨®mo citar y referenciar el corpus.
  • Nada de lo dispuesto en las presentes cl¨¢usulas se considerar¨¢ una limitaci¨®n o una renuncia a las prerrogativas e inmunidades de las Naciones Unidas, que est¨¢n reservadas espec¨ªficamente.

Organizaci¨®n y formato de los archivos

Todos los documentos est¨¢n organizados en carpetas por idioma, a?o de publicaci¨®n y signatura. Las traducciones de cada documento a los dem¨¢s idiomas se pueden encontrar siguiendo la estructura paralela de carpetas, es decir, para encontrar la traducci¨®n de un documento dado a cualquiera de los dem¨¢s idiomas oficiales (si existe), basta con abrir la misma direcci¨®n de archivo (path) en la subcarpeta del idioma buscado.

Para los archivos de cada documento, se decidi¨® utilizar el formato del corpus paralelo JRC-Acquis, basado en el formato TEI. Los documentos conservan la estructura de p¨¢rrafos original y se han a?adido autom¨¢ticamente las marcas de segmentaci¨®n de frases. Los documentos que est¨¢n disponibles en varios idiomas contienen los hiperv¨ªnculos para cada uno de los pares de idiomas, de los cuales el m¨¢ximo posible es 15.

Adem¨¢s de esta distribuci¨®n con un archivo por documento, tambi¨¦n ponemos a disposici¨®n de los usuarios bitextos en formato de texto simple que contienen todos los documentos existentes para un par de idiomas dado. Estos archivos son m¨¢s pr¨¢cticos para entrenar sistemas de traducci¨®n autom¨¢tica estad¨ªstica.

Si desea obtener m¨¢s informaci¨®n sobre el proceso de preparaci¨®n del corpus, s¨ªrvase consultar la publicaci¨®n siguiente: .

Sets de pruebas y de desarrollo

Con los datos de los documentos publicados en 2015 se crearon sets oficiales de desarrollo y de pruebas para todos los idiomas oficiales. De ese conjunto de documentos se hizo una selecci¨®n aleatoria de 100 (50 para el set de desarrollo y 50 para el set de pruebas de cada par de idiomas). Al igual que en el subcorpus completo alineado, todas las frases que contienen los sets de desarrollo y de pruebas est¨¢n disponibles en los seis idiomas oficiales, por lo que es posible evaluar cualquier traducci¨®n en ambas direcciones.

Los par¨¢metros de referencia para traducci¨®n autom¨¢tica figuran en .

Metadatos de los documentos

Cada uno de los archivos en formato XML contiene los metadatos siguientes:

Signatura
Cada documento de las Naciones Unidas tiene una  ¨²nica. Todas las traducciones de ese documento tienen la misma signatura. Las signaturas se componen de letras y n¨²meros. Ciertos elementos de las signaturas tienen un significado concreto y otros no. En general, la signatura no indica necesariamente el tema del documento.
N¨²mero de trabajo de traducci¨®n
Es un identificador ¨²nico para cada documento en un idioma concreto.
Fecha de publicaci¨®n
Es la fecha de publicaci¨®n original del documento con su signatura, y es igual para todos los idiomas. Esta fecha no coincide necesariamente con la fecha efectiva de publicaci¨®n de cada una de las traducciones del documento.
Lugar de procesamiento
Puede ser Nueva York, Ginebra o Viena.
Palabras clave
Pueden referirse a un n¨²mero indeterminado de temas con los que est¨¢ relacionado el documento, y siguen la notaci¨®n de temas del Sistema de Archivo de Documentos (ODS), que a su vez se basa en el