0

La última incorporación a la iniciativa de tecnología lingüística de TWB


Salta la barrera del idioma con la traducción automática al árabe levantino

Cuando aparece un idioma que no comprende en su fuente de noticias de Facebook, puede hacer clic en un botón y traducirlo. Este tipo de tecnología lingüística ofrece una forma de comunicarse no solo con los millones de personas que hablan su idioma, sino con millones de otras personas que hablan algo más.

O al menos, casi.

Al igual que muchos otros sistemas de traducción automática en línea, viene con una advertencia: solo está disponible en los principales idiomas.

TWB está trabajando para eliminar esta advertencia bastante importante con nuestra iniciativa de tecnología del lenguaje, Gamayun. Lo nombramos en honor a una figura mítica de aves del folclore eslavo: es una criatura mágica que da palabras de sabiduría a unos pocos que pueden entenderla. Creemos que es una perfecta defensora de la tecnología del lenguaje para aumentar la igualdad digital y mejorar la comunicación bidireccional en los idiomas marginados.

Hemos dado un paso importante en Gamayun al cruzar la barrera del idioma con un motor de traducción automática en árabe levantino. Así es como llegamos aquí, lo que aprendimos y más.

Esta es la palabra árabe para "seguridad".
Esta es la palabra árabe para "seguridad".

¿Qué hay detrás del desarrollo de un motor de traducción automática en árabe levantino?

En noviembre de 2019, unimos fuerzas con un grupo de innovadores e ingenieros lingüísticos de PNGK y Prompsit para enfrentar el desafío de la acción humanitaria del PMA. Nuestro objetivo era utilizar la traducción automática para mejorar la forma en que las organizaciones humanitarias comprenden las necesidades y preocupaciones de los refugiados sirios, a fin de mejorar los programas de seguridad alimentaria.

Por lo tanto, hemos desarrollado un motor de traducción automática de texto a texto (MT) para el árabe levantino adaptado a las especificidades de las experiencias de los refugiados. Para hacer esto, colaboramos con el equipo Khabrona.Info de Mercy Corps. El equipo mantiene una página de Facebook para los refugiados árabes sirios para brindarles información y respuestas confiables, incluido el acceso a alimentos y otros apoyos. Tomamos contenido compartido en el Página de Facebook de Khabrona.Info y traducido manualmente al inglés para adaptar el motor. Los datos de entrenamiento y una versión demo de nuestro TM están disponibles en nuestro Portal Gamayun.

¿Qué tan bien funciona este motor de traducción automática?

Para responder a esta pregunta, realizamos una evaluación basada en pruebas ampliamente utilizadas por los investigadores de MT. Descubrimos que nuestro motor MT producía mejores traducciones para el árabe levantino que uno de los sistemas de traducción automática en línea más utilizados.

Primero pedimos a traductores experimentados que calificaran las traducciones en términos de precisión y fluidez. Les proporcionamos diez textos fuente y traducciones seleccionados al azar, generados por humanos, el Google MT y nuestro MT. Todas las traducciones fueron bastante buenas, con puntajes que van desde cero para ningún error hasta tres para errores críticos. Nuestro motor MT funcionó ligeramente mejor que el MT de Google porque se adaptó a los detalles del árabe levantino y sus expresiones en línea sobre seguridad alimentaria y otros temas relevantes para las experiencias de los refugiados. . Las traducciones humanas tuvieron un rendimiento ligeramente mejor que nuestro MT, pero no fueron perfectas.

También pedimos a traductores experimentados que clasificaran las mejores, las segundas mejores y las peores traducciones en función de cada texto fuente. Si bien las traducciones humanas se clasificaron constantemente más altas que los dos motores de traducción automática, nuestro MT fue preferido el 70% del tiempo sobre el MT de Google.

Luego, utilizamos la métrica estándar para las pruebas automatizadas de calidad de MV denominadas AZUL. el subestudio de evaluación bilingüe observa una traducción MT basada en su correspondencia con una referencia de traducción humana. Las puntuaciones varían de cero para ninguna coincidencia a 1.0 para una coincidencia perfecta, pero pocas traducciones obtienen 1.0 porque todos los traductores producirán textos ligeramente diferentes. Nuestro motor genérico MT formado en un texto paralelo inglés-árabe accesible al público obtuvo una puntuación de 0.195 en un conjunto de pruebas de 200 publicaciones en redes sociales. Con una educación continua con un conjunto pequeño pero específico para el árabe levantino y sus expresiones coloquiales en línea, alcanzó un puntaje de 0.248. En cambio, las traducciones de Google MT obtuvieron 0.212 en el mismo conjunto de pruebas.

Toma la oración corta أسعار المواد الغائية مرتفعة como ejemplo: los humanos lo tradujeron como "la comida es cara" y nuestro TM respondió "los precios de la comida son altos". Google MT, en cambio, lo tradujo como "los precios de los materiales son altos". Todos son resultados gramaticalmente correctos, pero el MT tendió a comprender mejor los matices del discurso informal que el MT de Google. Puede sonar trivial, pero es esencial que MT se use para comprender rápidamente las solicitudes de ayuda a medida que llegan o para vigilar las preocupaciones y quejas de las personas para ajustar el programación.

¿Qué hace posible estos resultados?

Hemos diseñado específicamente nuestro motor MT para proporcionar traducciones confiables y precisas de datos no estructurados, como el lenguaje utilizado en las publicaciones en las redes sociales. Hemos involucrado a lingüistas y expertos en la materia en la recopilación y modificación del conjunto de datos para formar el motor. Esto permitió centrarse tanto en el lenguaje del campo humanitario como en las expresiones coloquiales en árabe levantino.

La agilidad de este enfoque significa que el motor puede usarse para una variedad de propósitos, desde la realización de evaluaciones de necesidades hasta el análisis de comentarios. El enfoque también cumple con los requisitos para la gestión responsable de datos en el sector humanitario.

Que hemos aprendido

Hemos demostrado que es posible construir un motor de traducción de calidad razonable para un idioma marginado como el árabe levantino y hacerlo con un conjunto de datos relativamente pequeño. Nuestro enfoque implicaba interactuar con la comunidad de lengua materna y centrarnos en el texto tomado de las redes sociales. Esto tiene un gran potencial para crear herramientas tecnológicas de lenguaje que pueden entrar en acción en tiempos de crisis y adaptarse a un campo en particular.

También hemos aprendido que incluso las traducciones humanas del árabe levantino no son perfectas. Esto muestra la importancia de crear redes de traductores para idiomas marginados que puedan ayudar a desarrollar y mantener la tecnología del lenguaje. Cuando no hay suficientes traductores profesionales, si los hay, un primer paso clave es capacitar a personas bilingües con las habilidades adecuadas y asesorarlos sobre la terminología de la intervención. humanitario. Este tipo de desarrollo de capacidades no solo puede hacer que la tecnología funcione para los hablantes de idiomas marginados a largo plazo, sino que también les garantiza acceso a corto plazo a información crítica en su idioma.

¿Y después?

Estamos perfeccionando nuestro enfoque, complementado con soporte externo, para alcanzar todo el potencial de la tecnología del lenguaje. Actualmente estamos trabajando con la Iniciativa Humanitaria de Harvard y las iniciativas IMPACT utilizando el procesamiento del lenguaje natural y el aprendizaje automático para transcribir, traducir y analizar grandes conjuntos de respuestas cualitativas en los esfuerzos de recopilación de datos multilingües para informar la toma de decisiones. decisión humanitaria También nos unimos al Iniciativa de traducción para COVID-19 (TICO-19), junto con investigadores de Carnegie Mellon y grandes compañías tecnológicas como Amazon, Facebook, Google y Microsoft para desarrollar y capacitar modelos de traducción automática de vanguardia en 37 idiomas diferentes en COVID-19.

Estén atentos para saber cómo avanzamos con estos proyectos. Continuaremos desarrollando soluciones de tecnología lingüística para mejorar la comunicación bidireccional en crisis humanitarias y amplificar las voces de millones de hablantes de idiomas marginados.

Escrito por Mia Marzotto, Oficial Principal de Defensa para Traductores sin Fronteras.


admin

Deja un comentario