Download ec nl ec nl

ec nl

Código-Fonte de IA

1.0.0

Baixar

EC-NL

Código e dados para o papel vinculando idiomas emergentes e naturais via transferência de Cospus no ICLR 2022 (holofotes).

 @inproceedings { yao2022linking ,
  title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
  author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
  booktitle = { International Conference on Learning Representations (ICLR) } ,
  year = { 2022 } ,
  html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}

Dependências

Pytorch 1.8
Scipy 1.4
Transformers 4.4.2
(Opcional) wandb

Dados

O Google Drive inclui

image_features : Recursos de imagem dos conjuntos de dados Coco-2014 ( coco.pt ) e conceitual ( cc.pt ) de uma resnet pré-treinada, a serem usados no pré-treinamento da CE.
lm_corpora : Corpora usada para experimentos de transferência de modelagem de idiomas.

Nome	Uso	Comentário
cc.pt	pré-treino	Linguagem emergente
Paren-zipf.pt	pré-treino	Idioma regular dos parênteses de nidificação
wiki-es.pt	pré-treino	Wikipedia espanhola (ou seja, romance)
Wiki-da.pt	afinar	Wikipedia dinamarquesa (IE-Germanic)
wiki-euu.pt	afinar	Wikipedia basca (basca)
wiki-ja.pt	afinar	Wikipedia japonesa (japonesa)
wiki-ro.pt	afinar	Wikipedia romena (ou seja, romance)
wiki-fi.pt	afinar	Wikipedia finlandesa (urral)
wiki-id.pt	afinar	Wikipedia indonésia (austronésia)
wiki-kk.pt	afinar	Kazakh (Turkic) Wikipedia
wiki-he.pt	afinar	Wikipedia (afro-asiática) hebraica (afro-asiática)
Wiki-ur.pt	afinar	Urdu (IE-Indic) Wikipedia
Wiki-fa.pt	afinar	Wikipedia persa (isto é-iraniana)

Experimentos

Jogo de comunicação emergente (CE)

Esta parte visa gerar corpus Langauge emergente para tarefas a jusante. Baixe image_features do Google Drive para ./ec-pretrain/data . Para executar o treinamento emergente de comunicação,

 cd ec-game
python train.py

Algumas opções principais:

--dataset : use o conjunto de dados conceitual ( cc ) ou MS-COCO ( coco_2014 ).
--vocab_size : tamanho do vocabulário (padrão 4035 ).
--seq_len : limite de comprimento da sequência (padrão 15 ).

Esse treinamento de jogos armazena automaticamente os agentes da CE (por exemplo ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt CC_VOCAB_4035_SEQ_15_RESET_-1_NLAYERS_1/RUN77926/MODEL_90.6_1000_4035.pt) e corporta emergente (GO ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , que podem ser usados no lugar de lm_corpora/cc.pt do Google do Google) da unidade) da drive de treinamento. No exemplo, 90.6_1000_4035 representa a precisão do jogo, etapas de treinamento de jogo e tamanho do vocabulário do jogo, respectivamente.

Transferência de modelagem de idiomas

Esta parte tem como objetivo reproduzir a Figura 2 do papel. Faça o download lm_corpora do Google Drive para ./ec-pretrain/data .

Para executar o pré-treinamento,

 export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.sh

Para executar o tunking fino,

 export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.sh

Significado de variáveis acima:

size : Tamanho do token (milhões) de corpus pré-treinamento ( [2, 5, 10, 15, 30] ).
pt_name : nome do corpus pré-treinamento ( ["wiki-es", "paren-zipf", "cc"] ).
ft_name : nome do corpus de ajuste fino ( ["wiki-ro", "wiki-da.pt] ).
ckpt : Qual ponto de verificação pré-treinamento a ser usado para ajuste fino (padrão 3000 ).

Agradecimentos

A parte da CE do código é baseada no ECNMT, que foi parcialmente baseada em Translagent.

A parte LM do código é baseada no huggingface run_clm.py.

Os conjuntos de dados para nossos experimentos na CE incluem o MS Coco e as legendas conceituais.

Os conjuntos de dados para nossos experimentos de LM derivam de transferência de inclinação.

Cite esses recursos de acordo. Para qualquer pergunta, entre em contato com Shunyu.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-09
tamanho 23.16KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Sistema de comércio eletrônico Cloud EC v1.2.4

2022-06-04

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos