ec nl
1.0.0
通過ICLR 2022(聚光燈),通過COSPUS轉移鏈接新興和自然語言的紙張和數據。
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive包括
image_features :可可2014年的圖像特徵( coco.pt )和概念字幕( cc.pt )數據集,可用於EC預訓練。
lm_corpora :用於語言建模傳輸實驗的Corpora。
| 姓名 | 用法 | 評論 |
|---|---|---|
| cc.pt | 預訓練 | 新興語言 |
| Paren-Zipf.pt | 預訓練 | 嵌套括號的常規語言 |
| wiki-es.pt | 預訓練 | 西班牙語(IE-ROMANCE)Wikipedia |
| wiki-da.pt | 微調 | 丹麥語(IE-Germanic)Wikipedia |
| wiki-eu.pt | 微調 | 巴斯克(巴斯克)維基百科 |
| wiki-ja.pt | 微調 | 日本(日本)維基百科 |
| Wiki-ro.pt | 微調 | 羅馬尼亞人(IE-ROMANCE)Wikipedia |
| wiki-fi.pt | 微調 | 芬蘭(烏拉利)維基百科 |
| wiki-id.pt | 微調 | 印度尼西亞(南方)維基百科 |
| wiki-kk.pt | 微調 | 哈薩克(土耳其語)維基百科 |
| Wiki-He.pt | 微調 | 希伯來語(非洲亞洲)維基百科 |
| wiki-ur.pt | 微調 | 烏爾都語(IE-Indic)Wikipedia |
| wiki-fa.pt | 微調 | 波斯人(IE-Iranian)維基百科 |
該部分旨在為下游任務生成新興的Langauge語料庫。從Google驅動器下載image_features到./ec-pretrain/data 。為了進行緊急溝通培訓,
cd ec-game
python train.py一些主要選擇:
--dataset :使用概念標題( cc )或MS-Coco( coco_2014 )數據集。--vocab_size :詞彙大小(默認4035 )。--seq_len :序列長度限制(默認值15 )。這樣的遊戲訓練會自動存儲EC代理(例如./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ) ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt ,可以從不同的培訓步驟中使用lm_corpora/cc.pt )。在示例中, 90.6_1000_4035分別代表遊戲的準確性,遊戲訓練步驟和遊戲詞彙量。
該部分旨在再現本文的圖2。從Google Drive下載lm_corpora到./ec-pretrain/data 。
為了進行預訓練,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.sh為了進行微調,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.sh上述變量的含義:
size :前訓練前的象徵大小(百萬)( [2, 5, 10, 15, 30] )。pt_name :預訓練庫的名稱( ["wiki-es", "paren-zipf", "cc"] )。ft_name :微調語料庫的名稱( ["wiki-ro", "wiki-da.pt] )。ckpt :用於微調的預培訓檢查點(默認為3000 )。 該代碼的EC部分基於ECNMT,該部分部分基於翻譯。
代碼的LM部分基於huggingface run_clm.py。
我們的EC實驗的數據集包括MS可可和概念標題。
我們的LM實驗的數據集源自傾斜轉移。
請相應地引用這些資源。對於任何問題,請聯繫Shunyu。