ec nl
1.0.0
通过ICLR 2022(聚光灯),通过COSPUS转移链接新兴和自然语言的纸张和数据。
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive包括
image_features :可可2014年的图像特征( coco.pt )和概念字幕( cc.pt )数据集,可用于EC预训练。
lm_corpora :用于语言建模传输实验的Corpora。
| 姓名 | 用法 | 评论 |
|---|---|---|
| cc.pt | 预训练 | 新兴语言 |
| Paren-Zipf.pt | 预训练 | 嵌套括号的常规语言 |
| wiki-es.pt | 预训练 | 西班牙语(IE-ROMANCE)Wikipedia |
| wiki-da.pt | 微调 | 丹麦语(IE-Germanic)Wikipedia |
| wiki-eu.pt | 微调 | 巴斯克(巴斯克)维基百科 |
| wiki-ja.pt | 微调 | 日本(日本)维基百科 |
| Wiki-ro.pt | 微调 | 罗马尼亚人(IE-ROMANCE)Wikipedia |
| wiki-fi.pt | 微调 | 芬兰(乌拉利)维基百科 |
| wiki-id.pt | 微调 | 印度尼西亚(南方)维基百科 |
| wiki-kk.pt | 微调 | 哈萨克(土耳其语)维基百科 |
| Wiki-He.pt | 微调 | 希伯来语(非洲亚洲)维基百科 |
| wiki-ur.pt | 微调 | 乌尔都语(IE-Indic)Wikipedia |
| wiki-fa.pt | 微调 | 波斯人(IE-Iranian)维基百科 |
该部分旨在为下游任务生成新兴的Langauge语料库。从Google驱动器下载image_features到./ec-pretrain/data 。为了进行紧急沟通培训,
cd ec-game
python train.py一些主要选择:
--dataset :使用概念标题( cc )或MS-Coco( coco_2014 )数据集。--vocab_size :词汇大小(默认4035 )。--seq_len :序列长度限制(默认值15 )。这样的游戏训练会自动存储EC代理(例如./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ) ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt ,可以从不同的培训步骤中使用lm_corpora/cc.pt )。在示例中, 90.6_1000_4035分别代表游戏的准确性,游戏训练步骤和游戏词汇量。
该部分旨在再现本文的图2。从Google Drive下载lm_corpora到./ec-pretrain/data 。
为了进行预训练,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.sh为了进行微调,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.sh上述变量的含义:
size :前训练前的象征大小(百万)( [2, 5, 10, 15, 30] )。pt_name :预训练库的名称( ["wiki-es", "paren-zipf", "cc"] )。ft_name :微调语料库的名称( ["wiki-ro", "wiki-da.pt] )。ckpt :用于微调的预培训检查点(默认为3000 )。 该代码的EC部分基于ECNMT,该部分部分基于翻译。
代码的LM部分基于huggingface run_clm.py。
我们的EC实验的数据集包括MS可可和概念标题。
我们的LM实验的数据集源自倾斜转移。
请相应地引用这些资源。对于任何问题,请联系Shunyu。