ICLR 2022(スポットライト)でのコスポス転送を介して、緊急言語と自然言語をリンクする紙のコードとデータ。
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Googleドライブが含まれています
image_features :事前に訓練されたResNetからのCOCO-2014( coco.pt )および概念キャプション( cc.pt )データセットの画像機能。
lm_corpora :言語モデリング転送実験に使用されるコーパス。
| 名前 | 使用法 | コメント |
|---|---|---|
| cc.pt | トレイン前 | 緊急言語 |
| Paren-Zipf.pt | トレイン前 | ネストの括弧の通常の言語 |
| wiki-es.pt | トレイン前 | スペイン語(すなわち、ロマンス)ウィキペディア |
| wiki-da.pt | 微調整 | デンマーク語(すなわち、ドイツ)ウィキペディア |
| wiki-eu.pt | 微調整 | バスク(バスク)ウィキペディア |
| wiki-ja.pt | 微調整 | 日本(日本)ウィキペディア |
| wiki-ro.pt | 微調整 | ルーマニア語(すなわち、ロマンス)ウィキペディア |
| wiki-fi.pt | 微調整 | フィンランド(ウラリック)ウィキペディア |
| wiki-id.pt | 微調整 | インドネシア(オーストロネア)ウィキペディア |
| wiki-kk.pt | 微調整 | Kazakh(Turkic)Wikipedia |
| wiki-he.pt | 微調整 | ヘブライ語(アフロアジア)ウィキペディア |
| wiki-ur.pt | 微調整 | ウルドゥー語(IE-Indic)ウィキペディア |
| wiki-fa.pt | 微調整 | ペルシャ語(すなわちイラン)ウィキペディア |
この部分の目的は、下流タスクのために緊急のランゲージコーパスを生成することを目的としています。 Google Driveから./ec-pretrain/dataにimage_featuresをダウンロードします。新たなコミュニケーショントレーニングを実行するには、
cd ec-game
python train.pyいくつかの主要なオプション:
--dataset :概念キャプション( cc )またはMS-COCO( coco_2014 )データセットを使用します。--vocab_size :語彙サイズ(デフォルト4035 )。--seq_len :シーケンス長い制限(デフォルト15 )。このようなゲームトレーニングは、ECエージェントを自動的に保存します(例./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt) ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt lm_corpora/cc.ptこの例では、 90.6_1000_4035 、それぞれゲームの正確性、ゲームトレーニングの手順、ゲームの語彙サイズを表します。
この部分は、論文の図2を再現することを目的としています。 Google Driveから./ec-pretrain/dataにlm_corporaダウンロードします。
トレーニング前を実行するには、
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.sh微調整を実行するには、
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.sh上記の変数の意味:
size :トレーニング前コーパスのトークンサイズ(百万)( [2, 5, 10, 15, 30] )。pt_name :トレーニング前のコーパスの名前( ["wiki-es", "paren-zipf", "cc"] )。ft_name :微調整コーパスの名前( ["wiki-ro", "wiki-da.pt] )。ckpt :微調整に使用するトレーニング前のチェックポイント(デフォルト3000 )。 コードのEC部分はECNMTに基づいており、一部は翻訳剤に基づいています。
コードのLM部分は、Huggingface run_clm.pyに基づいています。
EC実験のデータセットには、MS COCOと概念キャプションが含まれます。
LM実験のデータセットは、チルト移動に由来します。
それに応じてこれらのリソースを引用してください。どんな質問でも、shunyuに連絡してください。