Código y datos para el papel que vincula los idiomas emergentes y naturales a través de la transferencia de corpus en ICLR 2022 (Spotlight).
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive incluye
image_features : características de imagen de conjuntos de datos de Coco-2014 ( coco.pt ) y Conceptuales Conceptuales ( cc.pt ) de un resnet previamente capacitado, que se utilizará en la pre-entrenamiento de la CE.
lm_corpora : Corpana utilizadas para los experimentos de transferencia de modelado de idiomas.
| Nombre | Uso | Comentario |
|---|---|---|
| cc.pt | pre-entrante | Lenguaje emergente |
| paren-zipf.pt | pre-entrante | Lenguaje regular de paréntesis de anidación |
| wiki-es.pt | pre-entrante | Español (es decir, romance) wikipedia |
| wiki-da.pt | afinar | Wikipedia danés (es decir, germánico) |
| wiki-eu.pt | afinar | Wikipedia vasco (vasco) |
| wiki-ja.pt | afinar | Wikipedia japonesa (japonesa) |
| wiki-ro.pt | afinar | Wikipedia rumano (es decir, romance) |
| wiki-fi.pt | afinar | Wikipedia finlandesa (urálica) |
| wiki-id.pt | afinar | Wikipedia indonesia (austronesia) |
| wiki-kk.pt | afinar | Kazajh (turco) Wikipedia |
| wiki-he.pt | afinar | Wikipedia hebreo (afroasiatic) |
| wiki-ur.pt | afinar | Urdu (es decir, indic) wikipedia |
| wiki-fa.pt | afinar | Wikipedia persa (es decir, iraní) |
Esta parte tiene como objetivo generar corpus de Langauge emergente para tareas aguas abajo. Descargue image_features de Google Drive a ./ec-pretrain/data . Para ejecutar el entrenamiento de comunicación emergente,
cd ec-game
python train.pyAlgunas opciones importantes:
--dataset : Use el conjunto de datos conceptuales ( cc ) o MS-Coco ( coco_2014 ).--vocab_size : tamaño de vocabulario (predeterminado 4035 ).--seq_len : límite de longitud de secuencia (predeterminado 15 ). Tal entrenamiento de juego almacena automáticamente agentes de la CE (por ejemplo ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt) y corporaciones de idiomas emergentes (EG ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , que puede usarse en lugar de lm_corpora/cc.pt desde Google Drive) de diferentes pasos de entrenamiento. En el ejemplo, 90.6_1000_4035 representa la precisión del juego, los pasos de entrenamiento del juego y el tamaño del vocabulario del juego, respectivamente.
Esta parte tiene como objetivo reproducir la Figura 2 del papel. Descargue lm_corpora de Google Drive a ./ec-pretrain/data .
Para ejecutar el pre-entrenamiento,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shPara ejecutar el ajuste,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shSignificado de las variables anteriores:
size : Tamaño del token (millones) del corpus previo al entrenamiento ( [2, 5, 10, 15, 30] ).pt_name : nombre del corpus previo al entrenamiento ( ["wiki-es", "paren-zipf", "cc"] ).ft_name : nombre del cuerpo de ajuste fino ( ["wiki-ro", "wiki-da.pt] ).ckpt : qué punto de control previo al entrenamiento se utilizará para el ajuste fino ( 3000 predeterminado). La parte de la CE del código se basa en ECNMT, que se basó en parte en translagente.
La parte LM del código se basa en Huggingface run_clm.py.
Los conjuntos de datos para nuestros experimentos EC incluyen MS Coco y subtítulos conceptuales.
Los conjuntos de datos para nuestros experimentos LM se derivan de la transferencia de inclinación.
Cite estos recursos en consecuencia. Para cualquier pregunta, comuníquese con Shunyu.