Descargar Bitune - Descargar el código fuente Bitune

Bitune

Código Fuente de IA

1.0.0

Descargar

Bitune: ajuste de instrucciones bidireccionales

[ Paper ] [ Website ]

Este código fuente contiene la implementación de Bitune, y es suficiente para reproducir los resultados del documento. Tenga en cuenta que se usó para explorar diferentes ideas, y muchos componentes tienen diferentes nombres o se refieren a conceptos no mencionados en el documento.

Planeamos lanzar un repositorio limpio para Bitune en el futuro cercano.

LM-Evaluación-Harness

El Directorio lm-evaluation-harness contiene el repositorio de EleutHerai/LM-Evaluation-Harness, adaptado a nuestro método. Puede instalarlo con el siguiente comando:

pip install -e lm-evaluation-harness

Configuración

Establezca la ruta absoluta adecuada a este directorio en el archivo common_0.sh .
El script de evaluación requiere wandb para el registro. Actualice la línea 57 de eval.py con su nombre de usuario wandb .

Guiones

Configuración de ajuste de instrucciones : ejecute el instruct.sh script.
Entrenamiento de tareas aguas abajo : ejecute el script downstream.sh . Asegúrese de establecer el número correcto de pasos de actualización (según los valores proporcionados en el Apéndice) y la desacopluación de las líneas apropiadas para el nombre del conjunto de datos, las evaluaciones (en la parte inferior) y el nombre del método.
Ablaciones : sin comment las líneas para la ablación seleccionada en ablations.sh y ejecuta el script.

Una breve descripción del código _{^{de espagueti}}

La implementación requirió algunas modificaciones de las clases de modelo Huggingface, disponibles en el directorio models :
- Cache KV modificado, por lo que mantiene el gráfico de cálculo para los gradientes.
- Se agregaron módulos de mezcla con coeficientes capacitables ( pass_scale_k , pass_scale_v ).
- Máscara de atención modificada basada en el parámetro enforce_bidir de la función forward() .
- Se agregó un fragmento de código dentro de la función forward() responsable de llamar al envoltorio Bitune .
El bitune wrapper ( _pass_fn() en el archivo passes.py ):
- Pasa el indicador a través del modelo dos veces para obtener dos conjuntos de KV-Cache, al tiempo que establece adaptadores de Lora adecuados y máscaras de atención para cada pase.
- Llama a los módulos de mezcla para combinar dos conjuntos de características ( pass_scale_k , pass_scale_v ).
- ¿El paso final en la respuesta (en caso de entrenamiento) o genera el primer token de respuesta (por inferencia)? En el caso de una generación adicional de tokens, Bitune Wrapper no se llama en absoluto, ya que el Cache KV del aviso ya se obtiene y almacena, por lo que la generación continúa como en el modelo no modificado.
- Establece todos los parámetros de Lora como capacitables nuevamente, ya que, por defecto, la biblioteca peft establece adaptadores inactivos como no motrizables.
El módulo de mezcla ( PassScale definida en models/think_gemma.py ):
- Contiene coeficientes entrenables para mezclar dos conjuntos de características, separados para teclas y valores, por lo que dos coeficientes por bloque de atención del modelo.
- Define la función forward() que aplica la operación de mezcla en función de la variante especificada en la config ( config.pass_type ). Nuestro método final está definido por la variante 607 (la utilizada para los experimentos) y su versión simplificada 801 .

Versiones de la biblioteca

Se han utilizado las siguientes versiones de las bibliotecas:

transformers==4.38.2
peft==0.11.1
datasets==2.18.0
evaluate==0.4.0

Bibtex

 @misc { kopiczko2024bitune ,
      title = { Bitune: Bidirectional Instruction-Tuning } ,
      author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
      year = { 2024 } ,
      eprint = { 2405.14862 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}