Код и данные для бумаги, связывающих возникающие и естественные языки с помощью переноса копса в ICLR 2022 (Spotlight).
@inproceedings { yao2022linking ,
title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
booktitle = { International Conference on Learning Representations (ICLR) } ,
year = { 2022 } ,
html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}Google Drive включает в себя
image_features : функции изображения наборов данных Coco-2014 ( coco.pt ) и концептуальных подписей ( cc.pt ) из предварительно обученного Resnet, которые будут использоваться при предварительном обучении EC.
lm_corpora : Корпорации, используемые для экспериментов по передаче языкового моделирования.
| Имя | Использование | Комментарий |
|---|---|---|
| CC.pt | предварительный тренировки | Возникающий язык |
| Paren-Zipf.pt | предварительный тренировки | Регулярный язык гнездования скобок |
| Wiki-Es.pt | предварительный тренировки | Испанский (IE-Romance) Википедия |
| Wiki-Da.pt | тонкая настройка | Датский (IE-германский) Википедия |
| Wiki-Eu.pt | тонкая настройка | Басская (баскская) Википедия |
| Wiki-Ja.pt | тонкая настройка | Японская (японская) Википедия |
| Wiki-ro.pt | тонкая настройка | Румынская (IE-романс) Википедия |
| Wiki-Fi.pt | тонкая настройка | Финская (уральская) Википедия |
| Wiki-Id.pt | тонкая настройка | Индонезийская (австронезийская) Википедия |
| Wiki-kk.pt | тонкая настройка | Казах (тюрк) Википедия |
| Wiki-He.pt | тонкая настройка | Еврейский (афро-азиатский) Википедия |
| Wiki-ur.pt | тонкая настройка | Урду (IE-Indic) Википедия |
| Wiki-Fa.pt | тонкая настройка | Персидская (IE-иранская) Википедия |
Эта часть направлена на создание возникающего Langauge Corpus для последующих задач. Скачать image_features с Google Drive до ./ec-pretrain/data . Для проведения возникающего обучения в общении,
cd ec-game
python train.pyНекоторые основные варианты:
--dataset : используйте концептуальные подписи ( cc ) или MS-Coco ( coco_2014 ).--vocab_size : размер словарного запаса (по умолчанию 4035 ).--seq_len : предел длины последовательности (по умолчанию 15 ). Такое игровое обучение автоматически хранит агенты EC (например ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ) и Emerge Corpora (eg ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , который может использоваться на месте lm_corpora/cc.pt из Google Drive) из разных стадий обучения. В примере 90.6_1000_4035 представляет точность игры, шаги обучения игровой подготовке и размер словарного запаса соответственно.
Эта часть направлена на воспроизведение рисунка 2 бумаги. Скачать lm_corpora с Google Drive до ./ec-pretrain/data .
Запустить предварительное обучение,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.shЗапустить точную настройку,
export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.shЗначение переменных выше:
size : размер токена (миллион) до тренировок ( [2, 5, 10, 15, 30] ).pt_name : имя до тренировок ( ["wiki-es", "paren-zipf", "cc"] ).ft_name : Имя Корпус с тонкой настройкой ( ["wiki-ro", "wiki-da.pt] ).ckpt : какую контрольную точку предварительно тренирует для точной настройки (по умолчанию 3000 ). ЭК часть кода основана на ECNMT, которая была частично основана на транспландере.
LM часть кода основана на Huggingface Run_clm.py.
Наборы данных для наших экспериментов EC включают MS Coco и концептуальные подписи.
Наборы данных для наших экспериментов LM вытекают из переноса наклона.
Пожалуйста, цитируйте эти ресурсы соответственно. По любому вопросу, свяжитесь с Shunyu.