0

Transferencia de enfoques de aprendizaje para la traducción automática


La construcción de un sistema MT se basa en la disponibilidad de datos paralelos. Cuanto más presente numéricamente un lenguaje, mayor es la probabilidad de recopilar grandes corpus paralelos necesarios para la formación de este tipo de sistemas. Sin embargo, la mayoría de los idiomas no tienen la cantidad de recursos escritos disponibles para inglés, alemán, francés y algunos otros idiomas que se hablan en países altamente desarrollados. La falta de recursos escritos en otros idiomas aumenta en gran medida la dificultad de proporcionar servicios de MT a hablantes de estos idiomas.

Escenario de MV de bajo recurso

La Figura 2, modificada de Koehn y Knowles (2017), muestra la relación entre la puntuación AZUL y el tamaño del corpus para los tres enfoques MT.

Un modelo MT basado en oraciones clásicas supera al NMT para tamaños de conjuntos de entrenamiento más pequeños. Es solo después de un umbral de tamaño de corpus de 15 millones de palabras, aproximadamente equivalente a 1 millón de pares de oraciones, que el NMT clásico muestra su superioridad.

Low resource TM, por otro lado, trata con tamaños de corpus que son alrededor de unos pocos miles de oraciones. Aunque esta figura muestra a primera vista que no hay forma de obtener nada útil para los idiomas de bajos recursos, hay formas de incluso explotar pequeños conjuntos de datos. Una de ellas es una técnica de aprendizaje profundo llamada transferencia de aprendizaje, que utiliza el conocimiento adquirido al resolver un problema para aplicarlo a un problema diferente pero relacionado.

Aprendizaje multilingüe de transferencia

La Figura 3 ilustra su idea del aprendizaje de transferencia multilingüe.

Los investigadores primero entrenaron un modelo NMT en un gran corpus paralelo – francés – inglés – para crear lo que llaman el modelo padre. En un segundo paso, continuaron formando este modelo, pero lo alimentaron con un corpus paralelo de lenguaje de bajos recursos considerablemente más pequeño. El resultado modelo infantil hereda el conocimiento del modelo padre reutilizando sus parámetros. En comparación con un enfoque clásico de capacitación solo en el lenguaje de bajos recursos, registran una mejora promedio de 5.6% AZUL en comparación con los cuatro idiomas que están experimentando. También muestran que el modelo secundario no solo reutiliza el conocimiento de la estructura del idioma de destino de altos recursos, sino que también proceso de traducción a sí mismo.

El lenguaje de alto recurso que se elegirá como idioma de origen primario es un parámetro clave de este enfoque. Esta decisión generalmente se toma heurísticamente a juzgar por la proximidad del idioma de destino en términos de distancia en el árbol genealógico de idiomas o propiedades lingüísticas compartidas. Un análisis más profundo del mejor idioma para un idioma dado se realiza en Lin et al. (2019).

Entrenamiento multilingue

El resultado es un modelo único que se traduce de cuatro idiomas (francés, español, portugués e italiano) al inglés.

El NMT multilingüe ofrece tres ventajas principales. Primero, reduce el número de procesos de capacitación individuales requeridos para uno, pero el modelo resultante puede traducir varios idiomas a la vez. En segundo lugar, la transferencia de aprendizaje permite que todos los idiomas se beneficien unos de otros a través de la transferencia de conocimiento. Y finalmente, el modelo sirve como un punto de partida más sólido para un posible lenguaje de bajos recursos.

Por ejemplo, si estuviéramos interesados ​​en entrenar MT para el gallego, una lengua románica de bajos recursos, el modelo ilustrado en la Figura 4 sería perfectamente adecuado porque ya sabe cómo traducir bien a otras cuatro lenguas romances de altos recursos.

Neubig y Hu (2018) presentan un informe sólido sobre el uso de modelos multilingües. Usan un "Masivamente multilingüe" corpus de 58 idiomas para aprovechar la TM de cuatro idiomas de bajos recursos: azerbaiyano, bielorruso, gallego y eslovaco. Con un corpus paralelo de solo 4.500 oraciones para el gallego, lograron un puntaje AZUL de hasta el 29.1%, en comparación con el 22.3% y el 16.2% obtenidos con un entrenamiento clásico en un idioma con traducción estadística automática (SMT) y NMT respectivamente.

El aprendizaje de transferencia también permite lo que se llama traducción cero hit, cuando no hay datos de capacitación disponibles para el idioma de interés. Para el gallego, los autores informan una puntuación AZUL del 15,5% en su conjunto de pruebas sin que el modelo haya visto oraciones gallegas antes.

Caso Tigrinya NMT

Tigrinya ya no se encuentra en la categoría de recursos muy bajos gracias al conjunto de datos JW300 publicado recientemente por Agic y Vulic. No obstante, queríamos ver si un lenguaje de recursos superiores podría ayudar a construir un modelo de traducción automática del tigrinya al inglés. Utilizamos Amharic como idioma principal, que está escrito con el mismo guión Ge’ez que Tigrinya y tiene datos públicos más importantes.

Los conjuntos de datos disponibles para nosotros al momento de escribir se enumeran a continuación. Después del conjunto de datos JW300, el mayor recurso para encontrar es Corpus paralelo para lenguas etíopes.

Nuestro proceso de capacitación basado en el aprendizaje de transferencia incluye cuatro fases. Primero, entrenamos en un conjunto de datos que es una mezcla aleatoria de todos los conjuntos que suman un total de 1.45 millones de oraciones. Segundo, refinamos el modelo en Tigrinya usando solo la parte Tigrinya de la mezcla. En una tercera fase, refinamos la partición de entrenamiento de nuestros datos internos. Finalmente, 200 muestras previamente asignadas fuera de este corpus se utilizan con fines de prueba.

Como referencia, omitimos el primer paso del entrenamiento multilingüe y solo usamos los datos de Tigrinya para entrenar.

Vemos un ligero aumento en la precisión del modelo en nuestro conjunto de pruebas internas cuando utilizamos el enfoque de aprendizaje de transferencia. Los resultados en varias medidas de evaluación automática son los siguientes:

conclusión

admin

Deja un comentario