Código e dados para o papel vinculando idiomas emergentes e naturais via transferência de Cospus no ICLR 2022 (holofotes).
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}O Google Drive inclui
image_features : Recursos de imagem dos conjuntos de dados Coco-2014 ( coco.pt ) e conceitual ( cc.pt ) de uma resnet pré-treinada, a serem usados no pré-treinamento da CE.
lm_corpora : Corpora usada para experimentos de transferência de modelagem de idiomas.
| Nome | Uso | Comentário |
|---|---|---|
| cc.pt | pré-treino | Linguagem emergente |
| Paren-zipf.pt | pré-treino | Idioma regular dos parênteses de nidificação |
| wiki-es.pt | pré-treino | Wikipedia espanhola (ou seja, romance) |
| Wiki-da.pt | afinar | Wikipedia dinamarquesa (IE-Germanic) |
| wiki-euu.pt | afinar | Wikipedia basca (basca) |
| wiki-ja.pt | afinar | Wikipedia japonesa (japonesa) |
| wiki-ro.pt | afinar | Wikipedia romena (ou seja, romance) |
| wiki-fi.pt | afinar | Wikipedia finlandesa (urral) |
| wiki-id.pt | afinar | Wikipedia indonésia (austronésia) |
| wiki-kk.pt | afinar | Kazakh (Turkic) Wikipedia |
| wiki-he.pt | afinar | Wikipedia (afro-asiática) hebraica (afro-asiática) |
| Wiki-ur.pt | afinar | Urdu (IE-Indic) Wikipedia |
| Wiki-fa.pt | afinar | Wikipedia persa (isto é-iraniana) |
Esta parte visa gerar corpus Langauge emergente para tarefas a jusante. Baixe image_features do Google Drive para ./ec-pretrain/data . Para executar o treinamento emergente de comunicação,
cd ec-game
python train.pyAlgumas opções principais:
--dataset : use o conjunto de dados conceitual ( cc ) ou MS-COCO ( coco_2014 ).--vocab_size : tamanho do vocabulário (padrão 4035 ).--seq_len : limite de comprimento da sequência (padrão 15 ). Esse treinamento de jogos armazena automaticamente os agentes da CE (por exemplo ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt CC_VOCAB_4035_SEQ_15_RESET_-1_NLAYERS_1/RUN77926/MODEL_90.6_1000_4035.pt) e corporta emergente (GO ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , que podem ser usados no lugar de lm_corpora/cc.pt do Google do Google) da unidade) da drive de treinamento. No exemplo, 90.6_1000_4035 representa a precisão do jogo, etapas de treinamento de jogo e tamanho do vocabulário do jogo, respectivamente.
Esta parte tem como objetivo reproduzir a Figura 2 do papel. Faça o download lm_corpora do Google Drive para ./ec-pretrain/data .
Para executar o pré-treinamento,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shPara executar o tunking fino,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shSignificado de variáveis acima:
size : Tamanho do token (milhões) de corpus pré-treinamento ( [2, 5, 10, 15, 30] ).pt_name : nome do corpus pré-treinamento ( ["wiki-es", "paren-zipf", "cc"] ).ft_name : nome do corpus de ajuste fino ( ["wiki-ro", "wiki-da.pt] ).ckpt : Qual ponto de verificação pré-treinamento a ser usado para ajuste fino (padrão 3000 ). A parte da CE do código é baseada no ECNMT, que foi parcialmente baseada em Translagent.
A parte LM do código é baseada no huggingface run_clm.py.
Os conjuntos de dados para nossos experimentos na CE incluem o MS Coco e as legendas conceituais.
Os conjuntos de dados para nossos experimentos de LM derivam de transferência de inclinação.
Cite esses recursos de acordo. Para qualquer pergunta, entre em contato com Shunyu.