รหัสและข้อมูลสำหรับการเชื่อมโยงภาษากระดาษและภาษาธรรมชาติผ่านการถ่ายโอน COSPUS ที่ ICLR 2022 (สปอตไลท์)
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive รวมถึง
image_features : คุณสมบัติของภาพของชุดข้อมูล COCO-2014 ( coco.pt ) และชุดคำอธิบายแนวคิด ( cc.pt ) จาก RESNET ที่ผ่านการฝึกอบรมมาแล้วเพื่อใช้ในการฝึกอบรมก่อน EC
lm_corpora : CORPORA ใช้สำหรับการทดลองการถ่ายโอนแบบจำลองภาษา
| ชื่อ | การใช้งาน | การแสดงความคิดเห็น |
|---|---|---|
| CC.PT | การฝึกอบรมล่วงหน้า | ภาษาฉุกเฉิน |
| Paren-zipf.pt | การฝึกอบรมล่วงหน้า | ภาษาปกติของการทำรังนก |
| wiki-es.pt | การฝึกอบรมล่วงหน้า | วิกิพีเดียสเปน (เช่นความโรแมนติก) |
| wiki-da.pt | ปรับแต่ง | Wikipedia เดนมาร์ก (IE-Germanic) |
| wiki-eu.pt | ปรับแต่ง | บาสก์ (บาสก์) วิกิพีเดีย |
| wiki-ja.pt | ปรับแต่ง | วิกิพีเดียญี่ปุ่น (ญี่ปุ่น) |
| wiki-ro.pt | ปรับแต่ง | Wikipedia โรมาเนีย (เช่นความโรแมนติก) |
| wiki-fi.pt | ปรับแต่ง | วิกิพีเดียฟินแลนด์ (uralic) |
| wiki-id.pt | ปรับแต่ง | วิกิพีเดียอินโดนีเซีย (ออสเตรเลีย) |
| wiki-kk.pt | ปรับแต่ง | คาซัค (Turkic) Wikipedia |
| wiki-he.pt | ปรับแต่ง | ฮีบรู (Afro-Asiatic) Wikipedia |
| wiki-ur.pt | ปรับแต่ง | Wikipedia ภาษาอูรดู (เช่น indic) |
| wiki-fa.pt | ปรับแต่ง | เปอร์เซีย (เช่นอิหร่าน) วิกิพีเดีย |
ส่วนนี้มีวัตถุประสงค์เพื่อสร้างคลังข้อมูล Langauge ที่เกิดขึ้นใหม่สำหรับงานดาวน์สตรีม ดาวน์โหลด image_features จาก Google Drive ถึง ./ec-pretrain/data /data เพื่อดำเนินการฝึกอบรมการสื่อสารที่เกิดขึ้นใหม่
cd ec-game
python train.pyตัวเลือกสำคัญบางประการ:
--dataset : ใช้คำอธิบายภาพแนวคิด ( cc ) หรือชุดข้อมูล MS-COCO ( coco_2014 )--vocab_size : ขนาดคำศัพท์ (ค่าเริ่มต้น 4035 )--seq_len : ขีดจำกัดความยาวลำดับ (ค่าเริ่มต้น 15 ) การฝึกอบรมเกมดังกล่าวจะจัดเก็บตัวแทน EC โดยอัตโนมัติ (เช่น ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ) ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt ซึ่งสามารถใช้แทน lm_corpora/cc.pt จาก Google Drive) จากขั้นตอนการฝึกอบรมที่แตกต่างกัน ในตัวอย่าง 90.6_1000_4035 แสดงถึงความแม่นยำของเกมขั้นตอนการฝึกอบรมเกมและขนาดคำศัพท์ของเกมตามลำดับ
ส่วนนี้มีวัตถุประสงค์เพื่อทำซ้ำรูปที่ 2 ของกระดาษ ดาวน์โหลด lm_corpora จาก Google Drive ไปที่ ./ec-pretrain/data pretrain/data
เพื่อเรียกใช้การฝึกอบรมก่อน
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shเพื่อเรียกใช้การปรับแต่ง
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shความหมายของตัวแปรด้านบน:
size : ขนาดโทเค็น (ล้าน) ของคลังการฝึกอบรมก่อน ( [2, 5, 10, 15, 30] )pt_name : ชื่อของคลังการฝึกอบรมก่อน ( ["wiki-es", "paren-zipf", "cc"] )ft_name : ชื่อของคลังข้อมูลปรับแต่ง ( ["wiki-ro", "wiki-da.pt] )ckpt : จุดตรวจสอบการฝึกอบรมล่วงหน้าที่จะใช้สำหรับการปรับแต่ง (ค่าเริ่มต้น 3000 ) ส่วน EC ของรหัสขึ้นอยู่กับ ECNMT ซึ่งส่วนหนึ่งขึ้นอยู่กับการแปล
ส่วน LM ของรหัสขึ้นอยู่กับ HuggingFace run_clm.py
ชุดข้อมูลสำหรับการทดลอง EC ของเรารวมถึง MS Coco และคำบรรยายใต้ภาพ
ชุดข้อมูลสำหรับการทดลอง LM ของเราได้มาจากการถ่ายโอนแบบเอียง
โปรดอ้างอิงทรัพยากรเหล่านี้ตามนั้น สำหรับคำถามใด ๆ ติดต่อ Shunyu