رمز وبيانات لربط الورق التي تربط اللغات الطبيعية والطبيعية عبر نقل COSPUS في ICLR 2022 (دائرة الضوء).
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}يتضمن محرك Google
image_features : ميزات صور COCO-2014 ( coco.pt ) ومجموعات بيانات التسميات التوضيحية المفاهيمية ( cc.pt ) من RESNET تم تدريبها مسبقًا ، لاستخدامها في التدريب قبل EC.
lm_corpora : Corpora المستخدمة في تجارب نقل نمذجة اللغة.
| اسم | الاستخدام | تعليق |
|---|---|---|
| cc.pt | قبل التدريب | لغة ناشئة |
| Paren-zipf.pt | قبل التدريب | لغة منتظمة من أقواس التعشيش |
| wiki-es.pt | قبل التدريب | الإسبانية (أي رومس) ويكيبيديا |
| ويكي da.pt | ضبط دقيق | الدنماركية (أي الألمانية) ويكيبيديا |
| wiki-eu.pt | ضبط دقيق | الباسك (الباسك) ويكيبيديا |
| ويكي-جا | ضبط دقيق | اليابانية (اليابانية) ويكيبيديا |
| wiki-ro.pt | ضبط دقيق | الرومانية (أي الرومس) ويكيبيديا |
| wiki-fi.pt | ضبط دقيق | الفنلندية (أوراليك) ويكيبيديا |
| wiki-id.pt | ضبط دقيق | الإندونيسي (الأسترونيان) ويكيبيديا |
| wiki-kk.pt | ضبط دقيق | كازاخاخية (تركي) ويكيبيديا |
| wiki-he.pt | ضبط دقيق | العبرية (الأفرو الآسيوية) ويكيبيديا |
| ويكي- ur.pt | ضبط دقيق | الأردية (IE-INDIC) ويكيبيديا |
| wiki-fa.pt | ضبط دقيق | الفارسية (أي الإيرانية) ويكيبيديا |
يهدف هذا الجزء إلى توليد مجموعة Langauge الناشئة لمهام المصب. قم بتنزيل image_features من Google Drive إلى ./ec-pretrain/data . لتشغيل تدريب الاتصالات الناشئة ،
cd ec-game
python train.pyبعض الخيارات الرئيسية:
--dataset : استخدم التسميات التوضيحية المفاهيمية ( cc ) أو MS-COCO ( coco_2014 ) مجموعة بيانات.--vocab_size : حجم المفردات (افتراضي 4035 ).--seq_len : حد طول التسلسل (الافتراضي 15 ). هذا التدريب على اللعبة يخزن تلقائيًا وكلاء EC (على سبيل ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt lm_corpora/cc.pt في المثال ، يمثل 90.6_1000_4035 دقة اللعبة ، وخطوات تدريب اللعبة ، وحجم المفردات على التوالي.
يهدف هذا الجزء إلى إعادة إنتاج الشكل 2 من الورقة. قم بتنزيل lm_corpora من Google Drive إلى ./ec-pretrain/data .
لتشغيل ما قبل التدريب ،
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shلتشغيل الصقل ،
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shمعنى المتغيرات أعلاه:
size : حجم الرمز المميز (مليون) من مجموعة ما قبل التدريب ( [2, 5, 10, 15, 30] ).pt_name : اسم مجموعة ما قبل التدريب ( ["wiki-es", "paren-zipf", "cc"] ).ft_name : اسم مجموعة النقل ( ["wiki-ro", "wiki-da.pt] ).ckpt : أي نقطة تفتيش قبل التدريب لاستخدامها في الضبط (الافتراضي 3000 ). يعتمد الجزء EC من الرمز على ECNMT ، والذي كان يعتمد جزئيًا على Translagent.
يعتمد جزء LM من الرمز على HuggingFace Run_clm.py.
تشمل مجموعات البيانات الخاصة بتجارب EC الخاصة بنا MS COCO والتسميات التوضيحية المفاهيمية.
مجموعات البيانات لتجارب LM لدينا مستمدة من نقل الميل.
يرجى الاستشهاد بهذه الموارد وفقًا لذلك. لأي سؤال ، اتصل بـ Shunyu.