ec nl Скачать - ec nl Скачать исходный код

ec nl

AI Исходный код

1.0.0

Скачать

Ec-nl

Код и данные для бумаги, связывающих возникающие и естественные языки с помощью переноса копса в ICLR 2022 (Spotlight).

 @inproceedings { yao2022linking ,
  title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
  author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
  booktitle = { International Conference on Learning Representations (ICLR) } ,
  year = { 2022 } ,
  html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}

Зависимости

Pytorch 1.8
Scipy 1.4
Трансформеры 4.4.2
(Необязательно) Wandb

Данные

Google Drive включает в себя

image_features : функции изображения наборов данных Coco-2014 ( coco.pt ) и концептуальных подписей ( cc.pt ) из предварительно обученного Resnet, которые будут использоваться при предварительном обучении EC.
lm_corpora : Корпорации, используемые для экспериментов по передаче языкового моделирования.

Имя	Использование	Комментарий
CC.pt	предварительный тренировки	Возникающий язык
Paren-Zipf.pt	предварительный тренировки	Регулярный язык гнездования скобок
Wiki-Es.pt	предварительный тренировки	Испанский (IE-Romance) Википедия
Wiki-Da.pt	тонкая настройка	Датский (IE-германский) Википедия
Wiki-Eu.pt	тонкая настройка	Басская (баскская) Википедия
Wiki-Ja.pt	тонкая настройка	Японская (японская) Википедия
Wiki-ro.pt	тонкая настройка	Румынская (IE-романс) Википедия
Wiki-Fi.pt	тонкая настройка	Финская (уральская) Википедия
Wiki-Id.pt	тонкая настройка	Индонезийская (австронезийская) Википедия
Wiki-kk.pt	тонкая настройка	Казах (тюрк) Википедия
Wiki-He.pt	тонкая настройка	Еврейский (афро-азиатский) Википедия
Wiki-ur.pt	тонкая настройка	Урду (IE-Indic) Википедия
Wiki-Fa.pt	тонкая настройка	Персидская (IE-иранская) Википедия

Эксперименты

Emergent Communication (EC) игра

Эта часть направлена на создание возникающего Langauge Corpus для последующих задач. Скачать image_features с Google Drive до ./ec-pretrain/data . Для проведения возникающего обучения в общении,

 cd ec-game
python train.py

Некоторые основные варианты:

--dataset : используйте концептуальные подписи ( cc ) или MS-Coco ( coco_2014 ).
--vocab_size : размер словарного запаса (по умолчанию 4035 ).
--seq_len : предел длины последовательности (по умолчанию 15 ).

Такое игровое обучение автоматически хранит агенты EC (например ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt ) и Emerge Corpora (eg ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , который может использоваться на месте lm_corpora/cc.pt из Google Drive) из разных стадий обучения. В примере 90.6_1000_4035 представляет точность игры, шаги обучения игровой подготовке и размер словарного запаса соответственно.

Перевод на языковом моделировании

Эта часть направлена на воспроизведение рисунка 2 бумаги. Скачать lm_corpora с Google Drive до ./ec-pretrain/data .

Запустить предварительное обучение,

 export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.sh

Запустить точную настройку,

 export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.sh

Значение переменных выше:

size : размер токена (миллион) до тренировок ( [2, 5, 10, 15, 30] ).
pt_name : имя до тренировок ( ["wiki-es", "paren-zipf", "cc"] ).
ft_name : Имя Корпус с тонкой настройкой ( ["wiki-ro", "wiki-da.pt] ).
ckpt : какую контрольную точку предварительно тренирует для точной настройки (по умолчанию 3000 ).