La implementación del modelado de lenguaje de cambio de código utilizando el aprendizaje de tareas múltiple con sintaxis (tercer taller en enfoques computacionales en el documento lingüístico de código de código, ACL 2018). El código está escrito en Python usando Pytorch.
Aquí se pueden encontrar materiales suplementarios (incluida la distribución de trenes, desarrollo y prueba).
Si usa algún código fuente o conjunto de datos incluidos en este conjunto de herramientas en su trabajo, cite el siguiente documento. El bibtex se enumera a continuación:
@InProcedings {W18-3207,
Autor = "Winata, Genta Indra
y Madotto, Andrea
y Wu, Chien-sheng
y Fung, Pascale ",
Title = "Modelado de lenguaje de cambio de código utilizando el aprendizaje multitarea de sintaxis",
booktitle = "Actas del tercer taller sobre enfoques computacionales para el cambio de código lingüístico",
año = "2018",
Publisher = "Asociación de Lingüística Computacional",
páginas = "62-67",
ubicación = "Melbourne, Australia",
url = "http://aclweb.org/anthology/w18-3207"
}
La falta de datos de texto ha sido el principal problema sobre el modelado de lenguaje de cambio de código. En este documento, presentamos un modelo de idioma basado en el aprendizaje de varias tareas que comparte la representación de la sintaxis de los idiomas para aprovechar la información lingüística y abordar el problema de datos de recursos bajos. Nuestro modelo aprende conjuntamente tanto el modelado de idiomas como el etiquetado de parte de voz en expresiones conmutadas por código. De esta manera, el modelo puede identificar la ubicación de los puntos de cambio de código y mejora la predicción de la siguiente palabra. Nuestro enfoque supera al modelo de lenguaje basado en LSTM estándar, con una mejora de 9.7% y 7.4% en perplejidad en el conjunto de datos de fase I y fase II de costura, respectivamente.

Corpus Seame de LDC: Mandarin-English Code-Switching en el sudeste asiático
Multitarea
❱❱❱ python main_multi_task.py --tied --clip=0.25 --dropout=0.4 --postagdropout=0.4 --p=0.25 --nhid=500 --postagnhid=500 --emsize=500 --postagemsize=500 --cuda --data=../data/seame_phase2