A implementação da modelagem de idiomas de troca de código usando aprendizado multitarefa com reconhecimento de sintaxe (3ª oficina em abordagens computacionais no artigo de troca de código lingüístico, ACL 2018). O código é escrito em Python usando Pytorch.
Materiais suplementares (incluindo a distribuição de trem, dev e teste) podem ser encontrados aqui.
Se você usar qualquer código de origem ou conjuntos de dados incluído neste kit de ferramentas em seu trabalho, cite o documento a seguir. O Bibtex está listado abaixo:
@InProedings {W18-3207,
autor = "Winata, Genta Indra
e Madotto, Andrea
e Wu, Chien-Sheng
e fung, Pascale ",
title = "Modelagem de idiomas com troca de código usando a aprendizagem de várias tarefas da sintaxe",
booktitle = "Anais do terceiro workshop sobre abordagens computacionais para a troca de código linguística",
ano = "2018",
publisher = "Association for Computational Linguistics",
páginas = "62--67",
Localização = "Melbourne, Austrália",
url = "http://aclweb.org/anthology/w18-3207"
}
A falta de dados de texto tem sido o principal problema na modelagem de idiomas de troca de código. Neste artigo, introduzimos o modelo de linguagem baseado em aprendizado de várias tarefas, que compartilha a representação da sintaxe dos idiomas para alavancar informações linguísticas e abordar a questão dos dados de baixo recurso. Nosso modelo aprende em conjunto a modelagem de idiomas e a marcação de parte de fala em enunciados com comutação de código. Dessa forma, o modelo é capaz de identificar a localização dos pontos de troca de código e melhora a previsão da próxima palavra. Nossa abordagem supera o modelo de linguagem baseado em LSTM padrão, com uma melhoria de 9,7% e 7,4% em perplexidade no conjunto de dados de Fase I e Fase II de Seame, respectivamente.

Corpus de marinheiro da LDC: switching de código-inglês no sudeste da Ásia
Multitarefa
❱❱❱ python main_multi_task.py --tied --clip=0.25 --dropout=0.4 --postagdropout=0.4 --p=0.25 --nhid=500 --postagnhid=500 --emsize=500 --postagemsize=500 --cuda --data=../data/seame_phase2