Corpus paralelo de las Naciones Unidas
±õ²Ô³Ù°ù´Ç»å³Ü³¦³¦¾±¨®²Ô
El corpus paralelo de las Naciones Unidas (versi¨®n 1.0) se compone de los documentos oficiales y otros textos parlamentarios del dominio p¨²blico de las Naciones Unidas. La mayor¨ªa de los documentos est¨¢n disponibles en los seis idiomas oficiales de las Naciones Unidas. La presente versi¨®n del corpus contiene los textos redactados y traducidos manualmente desde 1990 hasta 2014, alineados por frases.
La creaci¨®n del corpus obedece al compromiso de las Naciones Unidas con el multiling¨¹ismo, y a la importancia creciente de la traducci¨®n autom¨¢tica estad¨ªstica en los servicios de traducci¨®n del Departamento de la Asamblea General y de Gesti¨®n de Conferencias (DAGGC), as¨ª como del sistema de traducci¨®n autom¨¢tica de las Naciones Unidas, denominado Tapta4UN.
La finalidad del corpus consiste en fomentar el acceso a un recurso ling¨¹¨ªstico multiling¨¹e y facilitar la investigaci¨®n y el desarrollo en diversas labores de procesamiento del lenguaje natural, entre las cuales est¨¢ la traducci¨®n autom¨¢tica. Para mayor flexibilidad, se distribuye no solo como corpus paralelo en seis idiomas sino tambi¨¦n en paquetes de bitextos por pares de idiomas espec¨ªficos.
Los usuarios del corpus de las Naciones Unidas deben acreditar que las Naciones Unidas son la fuente de los datos. Al citar el corpus paralelo de las Naciones Unidas se debe utilizar la siguiente referencia bibliogr¨¢fica:
Puede remitir sus consultas a la direcci¨®n siguiente: unovgtextsupport@un.org.
Estad¨ªsticas del corpus
Estad¨ªsticas para documentos alineados por pares:
ar | en | es | fr | ru | zh | |
---|---|---|---|---|---|---|
ar | ¨C | 111.241 18.539.207 |
113.065 18.578.118 |
112.605 18.281.635 |
111.896 18.863.363 |
91.345 15.595.948 |
en | 456.552.223 512.087.009 |
¨C | 123.844 21.911.121 |
149.741 25.805.088 |
133.089 23.239.280 |
91.028 15.886.041 |
es | 459.383.823 593.671.507 |
590.672.799 678.778.068 |
¨C | 125.098 21.915.504 |
115.921 19.993.922 |
91.704 15.428.381 |
fr | 452.833.187 597.651.233 |
668.518.779 782.912.487 |
674.477.239 688.418.806 |
¨C | 133.510 22.381.416 |
91.613 15.206.689 |
ru | 462.021.954 491.166.055 |
601.002.317 569.888.234 |
623.230.646 513.100.827 |
691.062.370 557.143.420 |
¨C | 92.337 16.038.721 |
zh | 387.968.412 387.931.939 |
425.562.909 381.371.583 |
493.338.256 382.052.741 |
498.007.502 377.884.885 |
417.366.738 392.372.764 |
¨C |
Las celdas situadas por encima de la diagonal indican el n¨²mero de documentos y de l¨ªneas para cada par de idiomas. Las celdas situadas por debajo de la diagonal indican el n¨²mero de tokens (unidades indivisibles de significado) para cada par de idiomas. La cifra superior se refiere al idioma indicado en la columna y la cifra inferior al idioma indicado en la fila. Los tokens se contabilizaron despu¨¦s de haber procesado el texto con el segmentador de tokens de Moses. Para los textos en chino se utiliz¨® Jieba antes de aplicar el segmentador de Moses con los par¨¢metros por defecto.
N¨²mero total de documentos | Pares de documentos alineados |
---|---|
799.276 | 1.727.539 |
Documentos | ³¢¨ª²Ô±ð²¹²õ | Tokens en ingl¨¦s |
---|---|---|
86.307 | 11.365.709 | 334.953.817 |
Cl¨¢usula de exenci¨®n de responsabilidad y condiciones de uso
La presente cl¨¢usula de exenci¨®n de responsabilidad forma parte integrante del corpus paralelo de las Naciones Unidas (versi¨®n 1.0) y es de obligado cumplimiento para el uso del corpus (no se impone ninguna otra restricci¨®n):
- El corpus paralelo de las Naciones Unidas se distribuye sin garant¨ªa expl¨ªcita o impl¨ªcita de ning¨²n tipo. En particular, las Naciones Unidas no dan garant¨ªas de ninguna clase ni responden de que la informaci¨®n que contiene el corpus de las Naciones Unidas sea exacta o completa.
- Las Naciones Unidas no asumir¨¢n responsabilidad alguna, en ninguna circunstancia, respecto de los da?os, perjuicios, p¨¦rdidas o responsabilidades causados o recibidos que puedan derivarse del uso del corpus de las Naciones Unidas. Se entiende que el usuario utiliza el corpus de las Naciones Unidas por su cuenta y riesgo. El usuario reconoce y acepta espec¨ªficamente que las Naciones Unidas no son responsables de los actos de ning¨²n usuario. Si el usuario no estuviera conforme con alguno de los materiales que contiene el corpus de las Naciones Unidas, el remedio ¨²nico y exclusivo al que podr¨¢ recurrir ser¨¢ dejar de utilizarlo.
- Al utilizar el corpus de las Naciones Unidas, el usuario debe acreditar que las Naciones Unidas son la fuente de esa informaci¨®n. En la presente publicaci¨®n se indica c¨®mo citar y referenciar el corpus.
- Nada de lo dispuesto en las presentes cl¨¢usulas se considerar¨¢ una limitaci¨®n o una renuncia a las prerrogativas e inmunidades de las Naciones Unidas, que est¨¢n reservadas espec¨ªficamente.
Organizaci¨®n y formato de los archivos
Todos los documentos est¨¢n organizados en carpetas por idioma, a?o de publicaci¨®n y signatura. Las traducciones de cada documento a los dem¨¢s idiomas se pueden encontrar siguiendo la estructura paralela de carpetas, es decir, para encontrar la traducci¨®n de un documento dado a cualquiera de los dem¨¢s idiomas oficiales (si existe), basta con abrir la misma direcci¨®n de archivo (path) en la subcarpeta del idioma buscado.
Para los archivos de cada documento, se decidi¨® utilizar el formato del corpus paralelo JRC-Acquis, basado en el formato TEI. Los documentos conservan la estructura de p¨¢rrafos original y se han a?adido autom¨¢ticamente las marcas de segmentaci¨®n de frases. Los documentos que est¨¢n disponibles en varios idiomas contienen los hiperv¨ªnculos para cada uno de los pares de idiomas, de los cuales el m¨¢ximo posible es 15.
Adem¨¢s de esta distribuci¨®n con un archivo por documento, tambi¨¦n ponemos a disposici¨®n de los usuarios bitextos en formato de texto simple que contienen todos los documentos existentes para un par de idiomas dado. Estos archivos son m¨¢s pr¨¢cticos para entrenar sistemas de traducci¨®n autom¨¢tica estad¨ªstica.
Si desea obtener m¨¢s informaci¨®n sobre el proceso de preparaci¨®n del corpus, s¨ªrvase consultar la publicaci¨®n siguiente: .
Sets de pruebas y de desarrollo
Con los datos de los documentos publicados en 2015 se crearon sets oficiales de desarrollo y de pruebas para todos los idiomas oficiales. De ese conjunto de documentos se hizo una selecci¨®n aleatoria de 100 (50 para el set de desarrollo y 50 para el set de pruebas de cada par de idiomas). Al igual que en el subcorpus completo alineado, todas las frases que contienen los sets de desarrollo y de pruebas est¨¢n disponibles en los seis idiomas oficiales, por lo que es posible evaluar cualquier traducci¨®n en ambas direcciones.
Los par¨¢metros de referencia para traducci¨®n autom¨¢tica figuran en .
Metadatos de los documentos
Cada uno de los archivos en formato XML contiene los metadatos siguientes:
- Signatura
- Cada documento de las Naciones Unidas tiene una ¨²nica. Todas las traducciones de ese documento tienen la misma signatura. Las signaturas se componen de letras y n¨²meros. Ciertos elementos de las signaturas tienen un significado concreto y otros no. En general, la signatura no indica necesariamente el tema del documento.
- N¨²mero de trabajo de traducci¨®n
- Es un identificador ¨²nico para cada documento en un idioma concreto.
- Fecha de publicaci¨®n
- Es la fecha de publicaci¨®n original del documento con su signatura, y es igual para todos los idiomas. Esta fecha no coincide necesariamente con la fecha efectiva de publicaci¨®n de cada una de las traducciones del documento.
- Lugar de procesamiento
- Puede ser Nueva York, Ginebra o Viena.
- Palabras clave
- Pueden referirse a un n¨²mero indeterminado de temas con los que est¨¢ relacionado el documento, y siguen la notaci¨®n de temas del Sistema de Archivo de Documentos (ODS), que a su vez se basa en el