Kode dan data untuk kertas yang menghubungkan bahasa yang muncul dan alami melalui transfer cospus di ICLR 2022 (Spotlight).
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive Termasuk
image_features : Fitur gambar dari dataset COCO-2014 ( coco.pt ) dan Conceptual Captions ( cc.pt ) dari resnet pra-terlatih, untuk digunakan dalam pra-pelatihan EC.
lm_corpora : Korpora digunakan untuk percobaan transfer pemodelan bahasa.
| Nama | Penggunaan | Komentar |
|---|---|---|
| CC.PT | pra-pelatihan | Bahasa yang muncul |
| Paren-Zipf.pt | pra-pelatihan | Bahasa reguler dari tanda kurung bersarang |
| wiki-es.pt | pra-pelatihan | Wikipedia Spanyol (IE-Romance) |
| Wiki-da.pt | fine-tune | Wikipedia Denmark (IE-Germanic) |
| wiki-eu.pt | fine-tune | Wikipedia Basque (Basque) |
| wiki-ja.pt | fine-tune | Wikipedia Jepang (Jepang) |
| wiki-ro.pt | fine-tune | Wikipedia Rumania (IE-Romance) |
| wiki-fi.pt | fine-tune | Wikipedia Finlandia (Uralic) |
| wiki-id.pt | fine-tune | Wikipedia Indonesia (Austronesia) |
| wiki-kk.pt | fine-tune | Kazakh (Turki) Wikipedia |
| wiki-he.pt | fine-tune | Wikipedia Ibrani (Afro-Asiatic) |
| Wiki-UR.PT | fine-tune | Wikipedia Urdu (IE-Indic) |
| wiki-fa.pt | fine-tune | Wikipedia Persia (IE-Iran) |
Bagian ini bertujuan untuk menghasilkan Langauge Corpus yang muncul untuk tugas -tugas hilir. Unduh image_features dari Google Drive ke ./ec-pretrain/data . Untuk menjalankan pelatihan komunikasi yang muncul,
cd ec-game
python train.pyBeberapa opsi utama:
--dataset : Gunakan Captions ( cc ) atau Dataset MS-COCO ( coco_2014 ).--vocab_size : ukuran kosa kata (default 4035 ).--seq_len : batas panjang urutan (default 15 ). Pelatihan game seperti itu secara otomatis menyimpan agen EC (mis ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , yang dapat digunakan sebagai pengganti lm_corpora/cc.pt dari Google Drive) dari langkah pelatihan yang berbeda. Dalam contohnya, 90.6_1000_4035 mewakili akurasi permainan, langkah pelatihan game, dan ukuran kosakata game masing -masing.
Bagian ini bertujuan untuk mereproduksi Gambar 2 dari makalah ini. Unduh lm_corpora dari Google Drive ke ./ec-pretrain/data .
Untuk menjalankan pra-pelatihan,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shUntuk menjalankan fine-tuning,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shArti variabel di atas:
size : Ukuran token (juta) dari korpus pra-pelatihan ( [2, 5, 10, 15, 30] ).pt_name : Nama pra-pelatihan corpus ( ["wiki-es", "paren-zipf", "cc"] ).ft_name : Nama fine-tuning corpus ( ["wiki-ro", "wiki-da.pt] ).ckpt : Pos pemeriksaan pra-pelatihan mana yang akan digunakan untuk fine-tuning (default 3000 ). Bagian EC dari kode didasarkan pada ECNMT, yang sebagian didasarkan pada translagent.
Bagian LM dari kode ini didasarkan pada HuggingFace Run_ClM.Py.
Dataset untuk eksperimen EC kami termasuk MS Coco dan keterangan konseptual.
Dataset untuk eksperimen LM kami berasal dari tilt-transfer.
Harap mengutip sumber daya ini sesuai. Untuk pertanyaan apa pun, hubungi Shunyu.