Descargar VGLM - Descargar código fuente VGLM

VGLM

Código Fuente de IA

1.0.0

Descargar

Modelo de lenguaje generativo versátil

Esta es la implementación del documento:

Explorando el modelo de lenguaje generativo versátil a través del aprendizaje de transferencia de parámetros y eficientes . Zhaojiang Lin , Andrea Madotto , Pascale Fung Hallazgos de EMNLP 2020 [PDF]

Si usa algún código fuente o conjunto de datos incluidos en este conjunto de herramientas en su trabajo, cite el siguiente documento. El bibtex se enumera a continuación:

 @article {Lin20202Sploring,
  Title = {Explorando el modelo de lenguaje generativo versátil a través de un aprendizaje de transferencia de parámetros-eficiente},
  Autor = {Lin, Zhaojiang y Madotto, Andrea y Fung, Pascale},
  Journal = {arxiv preprint arxiv: 2004.03829},
  año = {2020}
}

Abstracto

Los modelos de lenguaje generativo previamente capacitado para ajustar a las tareas de generación de lenguaje descendente han mostrado resultados prometedores. Sin embargo, viene con el costo de tener un modelo único y grande para cada tarea, que no es ideal en escenarios de baja memoria/potencia (por ejemplo, móvil). En este trabajo, proponemos una forma efectiva para ajustar múltiples tareas de generación de transmisión descendente simultáneamente utilizando un solo modelo previamente priorizado. Los experimentos en cinco tareas diversas de generación de idiomas muestran que simplemente utilizando un 2-3% de parámetros adicionales para cada tarea, nuestro modelo puede mantener o incluso mejorar el rendimiento de ajustar todo el modelo.

Modelo de lenguaje generativo versátil (VLM):

El modelo de lenguaje versátil (VLM) está compuesto por tres componentes: un modelo de lenguaje previamente capacitado en hueso (p. Ej., GPT-2) y dos tipos de parámetros especializados para cada tarea de generación, como adaptadores residuales de bajo rango e incrustaciones de tareas.

Dependencia

Verifique los paquetes necesarios o simplemente ejecute el comando

 ❱❱❱ pip install -r requirements.txt

Experimentos

Conjunto de datos

Descargue los conjuntos de datos preprocesados

Reproducibilidad

Proporcionamos el punto de control capacitado de nuestro VLM.

Modelo de prueba: elija una tarea de (MT, resumen, diálogo, QA, NLG].

 ❱❱❱ python ./evaluate_vlm.py --task mt --no_sample --model_checkpoint $model_path

FINE TUNE GPT-2

Traducción del tren de tren:

 ❱❱❱ python ./train.py --gradient_accumulation_steps=4 --max_history=2 --train_batch_size=8 --valid_batch_size=8 --n_epochs 8 --task mt --dataset_path data/NMT/data_en_ge.json

Traducción a máquina de prueba:

 ❱❱❱ python ./evaluate.py --task mt --no_sample --max_history=2 --model_checkpoint runs/$model_checkpoint

Cheque run.sh para ejecutar otras tareas

Adaptadores de trenes VLM e incrustaciones de tareas

Traducción automática de tren sin destilación de conocimiento

 ❱❱❱ python ./train.py --gradient_accumulation_steps=4 --max_history=2 --train_batch_size=8 --valid_batch_size=8 --n_epochs 8 --task mt --dataset_path data/NMT/data_en_ge.json --adapter_bottleneck 300 --lr 0.0005

Traducción automática de trenes utilizando la destilación de conocimiento del nivel de oración:

 ❱❱❱ python ./sentence_distiller.py --task mt --max_history=2 --model_checkpoint runs/$fully_finetuned_gpt2_checkpoint --no_sample

 ❱❱❱ python ./train.py --gradient_accumulation_steps=4 --max_history=2 --train_batch_size=8 --valid_batch_size=8 --n_epochs 8 --task mt --dataset_path data/NMT/data_en_ge.json --adapter_bottleneck 300 --lr 0.0005 --distillation

Traslación de la máquina de prueba:

 ❱❱❱ python ./evaluate.py --task mt --no_sample --adapter_bottleneck 300 --model_checkpoint runs/$model_checkpoint

Cheque run.sh para ejecutar otras tareas

Combine todos los adaptadores y la incrustación de tareas en un modelo único

Línea 68 de combine_all.py para proporcionar la lista de punto de control

 ❱❱❱ python combine_all.py

Prueba para ver si el resultado es el mismo

 ❱❱❱ python ./evaluate_vlm.py --task mt --no_sample --model_checkpoint $model_path

Los scripts anteriores ilustran cómo entrenar VLM continuamente cuando las tareas llegan secuencialmente.

Entrenamiento multitarea VLM

Cuando todas las tareas disponibles al mismo tiempo.

 ❱❱❱ python ./train_vlm.py --gradient_accumulation_steps=16 --train_batch_size=1 --valid_batch_size=1 --n_epochs 3

Reconocimiento

Este repositorio se implementa base en Huggingface

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-08
tamaño 425.49KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo