Descargar LongLoRA - Descargar el código fuente de LongLoRA

Stanford-alpaca

Longlora y Longalpaca para LLM de contexto largo

TABLA DE CONTENIDO

Noticias
Reflejos
Cómo contribuir
Requisitos
Instalación y guía rápida
Datos de Longalpaca
Modelos
Capacitación
Evaluación
Manifestación
Inferencia de transmisión
Generación de datos a través de PDF2Text
Ejemplos
Citación
Reconocimiento
Licencia

Noticias

[2024.1.17] Longlora ha sido aceptada por ICLR 2024 como una presentación oral .
[2023.11.19] Lanzamos una nueva versión de los modelos Longalpaca, Longalpaca-7B-16K, Longalpaca-7B-16K y Longalpaca-7B-16K. Estos modelos se ajustan en un conjunto de datos de Longalpaca-12k subconjunto con Longlora en SFT, Longalpaca-16k-longitud. Evaluamos el modelo Longalpaca-7B-16K en puntos de referencia y resultados L-EVAL L-EVAL se pueden encontrar aquí.
[2023.11. Consulte el código de inferencia con la solicitud de LLAMA2.
[2023.10.23] Apoyamos la combinación de Qlora y Longlora en el ajuste superior supervisado, para una mayor reducción del costo de memoria de GPU. Liberamos los pesos Lora de un modelo 7B en Longalpaca-7B-Qlora-Weights.
[2023.10.18] Apoyamos la inferencia de transmisión en nuestros modelos Longalpaca. Esto aumenta la longitud del contexto del diálogo de múltiples ronda en la transmisión.
[2023.10.8] Lanzamos el largo conjunto de datos de seguimiento de instrucciones , Longalpaca-12k y los modelos correspondientes , Longalpaca-7b, Longalpaca-13b y Longalpaca-70b.
( Los modelos SFT anteriores , Llama-2-13b-Chat-Longlor-32K-SFT y LLAMA-2-70B-CHAT-LONGLora-32K-SFT, han sido desaprobados ).
[2023.10.3] agregamos soporte de modelos GPTNEOX. Consulte este PR para su uso. Gracias por @naubull2 por esta contribución.
[2023.9.22] Lanzamos todos nuestros modelos ajustados, incluidos los modelos 70B-32K , LLAMA2-LonglorA-70B-32K, LLAMA2-LonglorA-7B-100K. ¡Bienvenido a verlos!
[2023.9.22] Lanzamos el papel y este repositorio de GitHub, incluido el código de capacitación y evaluación.

Longlora: ajuste fino eficiente de modelos de lenguaje grande de contexto largo [papel]
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia

Reflejos

En el enfoque de Longlora, la atención corta cambiada propuesta es fácil de implementar, compatible con la atención flash y no se requiere durante la inferencia.
Lanzamos todos nuestros modelos, incluidos los modelos de 7B a 70B, la longitud de contexto de 8K a 100K, incluido LLAMA2-Longlora-7B-100k, LLAMA2-Longlora-13B-64K y LLAMA2-Longlora-70B-32K.
Construimos un conjunto de datos con instrucciones de contexto largo, Longalpaca-12k. Lanzamos los modelos Longalpaca-7B, Longalpaca-13b y Longalpaca-70b correspondientes. Hasta nuestro mejor conocimiento, este es el primer modelo 70B de contexto largo de código abierto.

Cómo contribuir

Asegúrese de tener instalado GIT.
Crea tu propia bifurcación del proyecto.
Clonar el repositorio en su máquina local, utilizando Git Clone y pegando la URL de este proyecto.
Lea los Requirements e Installation and Quick Guide a continuación.
Comprometer y presionar sus cambios.
Realice una solicitud de extracción cuando termine de modificar el proyecto.

Requisitos de uso

Para descargar y usar los pesos previamente capacitados que necesitará:

Cuenta de abrazadera (HF) con correo electrónico válido. Nota, el correo electrónico utilizado para HF debe usarse para el acuerdo de licencia.
Acepte la meta licencia y la política de uso aceptable

Instalación y guía rápida

Para instalar y ejecutar la aplicación:

Bifurca este repositorio en Github
Clonar el repositorio en su máquina local, utilizando Git Clone y pegando la URL de este proyecto.
Ejecute el siguiente código:

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Use un modelo lanzado o ajuste un modelo para adaptarse a sus preferencias.
Pon a prueba tu modelo por chat.
Implemente su propia demostración.

Datos de Longalpaca

Longalpaca-12k contiene datos de control de calidad de 9k de largo que recopilamos y 3K cortos de QA muestreados a partir de los datos originales de Alpaca. Esto es para evitar el caso que el modelo podría degradarse a la instrucción corta que sigue. Los datos que recopilamos contienen varios tipos y cantidades como la siguiente figura.

Stanford-alpaca

Datos	QA corto	QA largo	Total	Descargar
Longalpaca-12k	3k	9k	12k	Enlace

Siguiendo el formato de Alpaca original, nuestros largos datos de control de calidad utilizan las siguientes indicaciones para ajustar:

instruction : str , describe la tarea que debe realizar el modelo. Por ejemplo, para responder una pregunta después de leer una sección o documento del libro. Varimos los contenidos y las preguntas para hacer diversas instrucciones.
output : str , la respuesta a la instrucción.

No usamos el formato input en el formato Alpaca por simplicidad.

Modelos

Modelos con ajuste de fino supervisado

Modelo	Tamaño	Contexto	Tren	Enlace
Longalpaca-7b	7b	32768	Ft completo	Modelo
Longalpaca-13b	13B	32768	Ft completo	Modelo
Longalpaca-70b	70b	32768	Lora+	Modelo (lora-peso)

Modelos con extensión de contexto a través de un ajuste completamente fino

Modelo	Tamaño	Contexto	Tren	Enlace
LLAMA-2-7B-LENGLora-8K-FT	7b	8192	Ft completo	Modelo
Llama-2-7B-Longlora-16k-ft	7b	16384	Ft completo	Modelo
LLAMA-2-7B-LONGLora-32K-FT	7b	32768	Ft completo	Modelo
Llama-2-7B-Longlora-100k-ft	7b	100000	Ft completo	Modelo
Llama-2-13b-longlora-8k-ft	13B	8192	Ft completo	Modelo
Llama-2-13b-Longlora-16k-ft	13B	16384	Ft completo	Modelo
Llama-2-13b-longlora-32k-ft	13B	32768	Ft completo	Modelo

Modelos con extensión de contexto a través del ajuste fino de Lora mejorado

Modelo	Tamaño	Contexto	Tren	Enlace
LLAMA-2-7B-LENGLora-8K	7b	8192	Lora+	Lora-peso
Llama-2-7B-Longlora-16k	7b	16384	Lora+	Lora-peso
LLAMA-2-7B-LENGLora-32K	7b	32768	Lora+	Lora-peso
Llama-2-13b-longlora-8k	13B	8192	Lora+	Lora-peso
Llama-2-13b-Longlora-16k	13B	16384	Lora+	Lora-peso
Llama-2-13b-longlora-32k	13B	32768	Lora+	Lora-peso
Llama-2-13b-longlora-64k	13B	65536	Lora+	Lora-peso
Llama-2-70B-Longlora-32k	70b	32768	Lora+	Lora-peso
LLAMA-2-70B-CHAT-LONGLora-32K	70b	32768	Lora+	Lora-peso

Capacitación

Pesos previamente capacitados

Utilizamos modelos LLAMA2 como pesos previamente capacitados y los ajustan a los tamaños de ventanas de contexto largos. Descargar basado en sus elecciones.

Pesos previamente capacitados
Llama-2-7B-HF
Llama-2-13B-HF
LLAMA-2-70B-HF
LLAMA-2-7B-CHAT-HF
Llama-2-13B-CHAT-HF
LLAMA-2-70B-CHAT-HF

Este proyecto también admite los modelos GPTNEOX como la arquitectura del modelo base. Algunos pesos previamente capacitados candidatos pueden incluir GPT-NEOX-20B, Polyglot-KO-12.8b y otras variantes.

Sintonia FINA

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

Recuerde cambiar path_to/Llama-2-7b-hf , path_to_saving_checkpoints , path_to_cache a su propio directorio.
Tenga en cuenta que puede cambiar model_max_length a otros valores.
Puede cambiar ds_configs/stage2.json a ds_configs/stage3.json si lo desea.
Establezca use_flash_attn como False si usa máquinas V100 o no instala atención Flash.
Puede establecer low_rank_training como False si desea usar completamente ajustado. Costará más memoria de GPU y más lenta, pero el rendimiento será un poco mejor.
Cuando se termina el entrenamiento, para obtener el peso del modelo completo:

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

Tenga en cuenta que el PATH_TO_Saving_CheckPoints podría ser el directorio Global_Step, que depende de las versiones de DeepSpeed.

Supervisado ajustado

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

No es necesario hacer un ajuste supervisado de los modelos extendidos del contexto fino. Está bien usar directamente el modelo base como modelos LLAMA2-Chat, ya que la cantidad de instrucción larga que sigue los datos es suficiente para SFT.
Nuestra larga instrucción que sigue los datos se puede encontrar en Longalpaca-12k.json.
Tenga en cuenta que supervisado-fine-tune.py puede ser reemplazado por supervisado-fine-tune-qlora.py si desea probar un ajuste fino cuantificado de 4 bits para una mayor reducción de la memoria de GPU. Esto sigue a Qlora.
Si cumple con el problema para guardar pytorch_model.bin después del Qlora SFT, consulte este problema.

Obtener pesas entrenables en entrenamiento de bajo rango

En el entrenamiento de bajo rango, establecemos capas de incrustación y normalización como entrenables. Utilice la siguiente línea para extraer los pesos entrenables trainable_params.bin de pytorch_model.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

Fusionar el peso de Lora

Fusione los pesos lora de pytorch_model.bin y parámetros capacitables trainable_params.bin , guarde el modelo resultante en su camino deseado en el formato de la cara abrazada:

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

Por ejemplo,

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

Evaluación

Validación de perplejidad

Para evaluar un modelo que está entrenado en la configuración de bajo rango, establezca tanto base_model como peft_model . base_model es el peso previamente capacitado. peft_model es la ruta al punto de control guardado, que debe contener trainable_params.bin , adapter_model.bin y adapter_config.json . Por ejemplo,

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

O evaluar con múltiples GPU de la siguiente manera.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Para evaluar un modelo que está completamente ajustado, solo necesita establecer base_model como la ruta al punto de control guardado, que debe contener pytorch_model.bin y config.json . peft_model debe ser ignorado.

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

O evaluar con múltiples GPU de la siguiente manera.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Tenga en cuenta que --seq_len debe establecer la longitud de secuencia para la evaluación. --context_size es establecer la longitud de contexto del modelo durante el ajuste fino. --seq_len no debe ser más grande que --context_size .
Ya hemos tocado las divisiones de validación y prueba de PG19 y el conjunto de datos de prueba de prueba en pg19/validation.bin , pg19/test.bin , y proof-pile/test_sampled_data.bin , con el tokenizer de llama. proof-pile/test_sampled_data.bin contiene 128 documentos que se muestrean aleatoriamente de la división de prueba de prueba de prueba total. Para cada documento, tiene al menos 32768 fichas. También liberamos los ID de muestreo en PROY-PILE/TEST_SAMPLED_IDS.BIN. Puede descargarlos desde los enlaces a continuación.

Conjunto de datos	Dividir	Enlace
PG19	validación	pg19/validation.bin
PG19	prueba	PG19/test.bin
Prueba	prueba	Prueba-pile/test_sampled_data.bin

Recuperación de PassKey

Proporcionamos una manera para probar la precisión de recuperación de Key Key. Por ejemplo,

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

Tenga en cuenta que el context_size es la longitud del contexto durante el ajuste fino.
max_tokens es la longitud máxima para el documento en la evaluación de recuperación de passkey.
interval es el intervalo durante la longitud del documento que aumenta. Es un número aproximado porque el documento aumenta por oraciones.

Manifestación

Inferencia local

Para chatear con modelos longalpaca,

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

Para hacer una pregunta relacionada con un libro:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

Para hacer una pregunta relacionada con un documento:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

Tenga en cuenta que Inference.py puede reemplazarse por Inference-Qlora.py si desea probar un ajuste fino cuantificado de 4 bits para una mayor reducción de la memoria de GPU. Esto sigue a Qlora.

Demostración en línea

Para implementar su propia demostración ejecutada

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

Ejemplo

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

Tenga en cuenta que flash_attn=True hará que la generación sea lenta pero ahorrará mucha memoria GPU.

Inferencia de transmisión

Apoyamos la inferencia de los modelos Longalpaca con Streamingllm. Esto aumenta la longitud del contexto del diálogo de múltiples ronda en la transmisión. Aquí hay un ejemplo,

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

Tenga en cuenta que utilice un reciente más pequeño si se encuentra con problemas de OOM, por ejemplo 8192.
test_filepath es el archivo JSON que contiene indicaciones para la inferencia. Proporcionamos un archivo de ejemplo salidas_stream.json, que es un subconjunto de longalpaca-12k. Puede reemplazarlo a sus propias preguntas.

Generación de datos a través de PDF2Text

Durante nuestra colección de conjuntos de datos, convertimos papel y libros de PDF a texto. La calidad de conversión tiene una gran influencia en la calidad final del modelo. Creemos que este paso no es trivial. Lanzamos la herramienta para la conversión PDF2TXT, en la carpeta pdf2txt . Se basa en pdf2image , easyocr , ditod y detectron2 . Consulte el ReadMe.md en pdf2txt para obtener más detalles.

Ejemplos

Citación

Si encuentra útil este proyecto en su investigación, considere citar:

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

Reconocimiento

Este trabajo se basa en el LLAMA2 como los modelos previamente capacitados.
Este trabajo también se puede construir sobre el GPTNEOX-HF que se basa en Eleutherai/GPTNeox como la arquitectura del modelo previamente entrenado.
Este trabajo se basa en Deepeed, Peft y Flash-Atention2 para la aceleración.
Algún código de evaluación se modifica en la atención histórica.
Utilizamos LongChat para la evaluación de recuperación.
Seguimos la transmisión para la inferencia de transmisión.
Combinamos Qlora con Longlora para el ajuste fino supervisado.

Licencia

Longlora tiene licencia bajo la licencia Apache 2.0. Esto significa que requiere la preservación de los derechos de autor y los avisos de licencia.
Los datos y los pesos están bajo la licencia CC-by-NC 4.0. Tienen licencia solo para uso de la investigación, y solo permiten que no sean comerciales. Los modelos capacitados con el conjunto de datos no deben usarse fuera de fines de investigación.

Expandir