Descargar ec nl - Descargar código fuente de ec nl

ec nl

Código Fuente de IA

1.0.0

Descargar

EC-NL

Código y datos para el papel que vincula los idiomas emergentes y naturales a través de la transferencia de corpus en ICLR 2022 (Spotlight).

 @inproceedings { yao2022linking ,
  title = { Linking Emergent and Natural Languages via Corpus Transfer } ,
  author = { Yao, Shunyu and Yu, Mo and Zhang, Yang and Narasimhan, Karthik and Tenenbaum, Joshua and Gan, Chuang } ,
  booktitle = { International Conference on Learning Representations (ICLR) } ,
  year = { 2022 } ,
  html = { https://openreview.net/pdf?id=49A1Y6tRhaq } ,
}

Dependencias

Pytorch 1.8
Scipy 1.4
Transformers 4.4.2
(Opcional) wandb

Datos

Google Drive incluye

image_features : características de imagen de conjuntos de datos de Coco-2014 ( coco.pt ) y Conceptuales Conceptuales ( cc.pt ) de un resnet previamente capacitado, que se utilizará en la pre-entrenamiento de la CE.
lm_corpora : Corpana utilizadas para los experimentos de transferencia de modelado de idiomas.

Nombre	Uso	Comentario
cc.pt	pre-entrante	Lenguaje emergente
paren-zipf.pt	pre-entrante	Lenguaje regular de paréntesis de anidación
wiki-es.pt	pre-entrante	Español (es decir, romance) wikipedia
wiki-da.pt	afinar	Wikipedia danés (es decir, germánico)
wiki-eu.pt	afinar	Wikipedia vasco (vasco)
wiki-ja.pt	afinar	Wikipedia japonesa (japonesa)
wiki-ro.pt	afinar	Wikipedia rumano (es decir, romance)
wiki-fi.pt	afinar	Wikipedia finlandesa (urálica)
wiki-id.pt	afinar	Wikipedia indonesia (austronesia)
wiki-kk.pt	afinar	Kazajh (turco) Wikipedia
wiki-he.pt	afinar	Wikipedia hebreo (afroasiatic)
wiki-ur.pt	afinar	Urdu (es decir, indic) wikipedia
wiki-fa.pt	afinar	Wikipedia persa (es decir, iraní)

Experimentos

Juego de comunicación emergente (EC)

Esta parte tiene como objetivo generar corpus de Langauge emergente para tareas aguas abajo. Descargue image_features de Google Drive a ./ec-pretrain/data . Para ejecutar el entrenamiento de comunicación emergente,

 cd ec-game
python train.py

Algunas opciones importantes:

--dataset : Use el conjunto de datos conceptuales ( cc ) o MS-Coco ( coco_2014 ).
--vocab_size : tamaño de vocabulario (predeterminado 4035 ).
--seq_len : límite de longitud de secuencia (predeterminado 15 ).

Tal entrenamiento de juego almacena automáticamente agentes de la CE (por ejemplo ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt) y corporaciones de idiomas emergentes (EG ./ckpt/cc_vocab_4035_seq_15_reset_-1_nlayers_1/run77926/model_90.6_1000_4035.pt-cc.pt , que puede usarse en lugar de lm_corpora/cc.pt desde Google Drive) de diferentes pasos de entrenamiento. En el ejemplo, 90.6_1000_4035 representa la precisión del juego, los pasos de entrenamiento del juego y el tamaño del vocabulario del juego, respectivamente.

Transferencia de modelado de idiomas

Esta parte tiene como objetivo reproducir la Figura 2 del papel. Descargue lm_corpora de Google Drive a ./ec-pretrain/data .

Para ejecutar el pre-entrenamiento,

 export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
. pretrain.sh

Para ejecutar el ajuste,

 export size=2 # 2,5,10,15,30
export pt_name= " wiki-es " # "paren-zipf", "cc"
export ft_name= " wiki-ro "
export ckpt=3000
. finetune.sh

Significado de las variables anteriores:

size : Tamaño del token (millones) del corpus previo al entrenamiento ( [2, 5, 10, 15, 30] ).
pt_name : nombre del corpus previo al entrenamiento ( ["wiki-es", "paren-zipf", "cc"] ).
ft_name : nombre del cuerpo de ajuste fino ( ["wiki-ro", "wiki-da.pt] ).
ckpt : qué punto de control previo al entrenamiento se utilizará para el ajuste fino ( 3000 predeterminado).

Expresiones de gratitud

La parte de la CE del código se basa en ECNMT, que se basó en parte en translagente.

La parte LM del código se basa en Huggingface run_clm.py.

Los conjuntos de datos para nuestros experimentos EC incluyen MS Coco y subtítulos conceptuales.

Los conjuntos de datos para nuestros experimentos LM se derivan de la transferencia de inclinación.

Cite estos recursos en consecuencia. Para cualquier pregunta, comuníquese con Shunyu.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 23.16KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Sistema de comercio electrónico Cloud EC v1.2.4

2022-06-04

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo