Code und Daten für Papier, die aufstrebende und natürliche Sprachen über den COSPUS -Transfer bei ICLR 2022 (Spotlight) verknüpfen.
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive beinhaltet
image_features : Bildfunktionen von CoCO-2014 ( coco.pt ) und konzeptionellen Bildunterschriften ( cc.pt ) aus einem vorgebreiteten Resnet, die in der EC-Vorausbildung verwendet werden sollen.
lm_corpora : Korpora, die für Sprachmodellierungsexperimente verwendet werden.
| Name | Verwendung | Kommentar |
|---|---|---|
| cc.pt | vor dem Training | Aufkommende Sprache |
| Paren-Zipf.Pt | vor dem Training | Regelmäßige Sprache des Nistens in Klammern |
| wiki-es.pt | vor dem Training | Spanisch (dh romance) wikipedia |
| Wiki-da.pt | Feinabstimmung | Dänisch (dh-ähmanische) Wikipedia |
| Wiki-EU.PT | Feinabstimmung | Basken (Baske) Wikipedia |
| Wiki-ja.pt | Feinabstimmung | Japanische (japanische) Wikipedia |
| Wiki-Ro.pt | Feinabstimmung | Rumänische (dh romance) Wikipedia |
| Wiki-Fi.pt | Feinabstimmung | Finnisch (uralische) Wikipedia |
| Wiki-id.pt | Feinabstimmung | Indonesische (austroonesische) Wikipedia |
| wiki-kk.pt | Feinabstimmung | Kasachische (türkische) Wikipedia |
| Wiki-He.pt | Feinabstimmung | Hebräisch (afro-asiatische) Wikipedia |
| Wiki-ur.pt | Feinabstimmung | Urdu (dh-indische) Wikipedia |
| Wiki-fa.pt | Feinabstimmung | Persischer (dh-iranischer) Wikipedia |
Dieser Teil zielt darauf ab, das Emergent Langauge Corpus für nachgeschaltete Aufgaben zu erzeugen. Laden Sie image_features von Google Drive auf ./ec-pretrain/data herunter. Das aufkommende Kommunikationstraining durchführen,
cd ec-game
python train.pyEinige wichtige Optionen:
--dataset : Verwenden Sie konzeptionelle Bildunterschriften ( cc ) oder MS-CoCO ( coco_2014 ).--vocab_size : Vokabulargröße (Standard 4035 ).--seq_len : Sequenzlängengrenze (Standard 15 ). Ein solches Spieltraining speichert automatisch EC-Agenten (z ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt B./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.Pt) und Emergent Language Corpora (z. B. z. ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , der anstelle von lm_corpora/cc.pt aus Google Drive verwendet werden kann) aus verschiedenen Trainingsschritten. Im Beispiel repräsentiert 90.6_1000_4035 Spielgenauigkeit, Spiele -Trainingsschritte bzw. Game -Vokabular.
Dieser Teil zielt darauf ab, Abbildung 2 des Papiers zu reproduzieren. Laden Sie lm_corpora von Google Drive auf ./ec-pretrain/data herunter.
Die Vorausbildung durchführen,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shDie Feinabstimmung laufen,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shBedeutung von Variablen oben:
size : Tokengröße (Millionen) des Vorauslaufkorpus ( [2, 5, 10, 15, 30] ).pt_name : Name des Corpus vor dem Training ( ["wiki-es", "paren-zipf", "cc"] ).ft_name : Name des Feinabstimmungskorpus ( ["wiki-ro", "wiki-da.pt] ).ckpt : Welcher Checkpoint vor dem Training für die Feinabstimmung verwendet (Standard 3000 ). Der EC -Teil des Codes basiert auf ECNMT, der teilweise auf Translagent basiert.
Der LM -Teil des Codes basiert auf Huggingface run_clm.py.
Die Datensätze für unsere EC -Experimente umfassen MS Coco und konzeptionelle Bildunterschriften.
Die Datensätze für unsere LM-Experimente stammen aus Tilt-Transfer.
Bitte zitieren Sie diese Ressourcen entsprechend. Für jede Frage wenden Sie sich Shunyu an.