LongLoRA Download - LongLoRA исходный код скачать

Стэнфорд-Альпака

Longlora и Longalpaca для LLMS LOL-Context LLMS

Новости
Основные моменты
Как внести свой вклад
Требования
Установка и быстрое руководство
Данные Longalpaca
Модели
Обучение
Оценка
Демо
Потоковое вывод
Генерация данных через PDF2Text
Примеры
Цитирование
Подтверждение
Лицензия

Новости

[2024.1.17] Longlora была принята ICLR 2024 в качестве устной презентации.
[2023.11.19] Мы выпускаем новую версию моделей Longalpaca, Longalpaca-7b-16k, Longalpaca-7b-16k и Longalpaca-7b-16k. Эти модели точно настроены на наборе данных Longalpaca-12K с Longlora в SFT, Longalpaca-16K длиной. Мы оцениваем модель Longalpaca-7B-16K на Longbench, и здесь можно найти результаты.
[2023.11.2] Мы обновили наши модели Longalpaca от подсказки Alpaca до подсказки Llama2, что соответствует их предварительно обученным моделям. Пожалуйста, обратитесь к коду вывода с подсказкой Llama2.
[2023.10.23] Мы поддерживаем комбинацию Qlora и Longlora в контролируемой точной настройке, для дальнейшего снижения стоимости памяти графического процессора. Мы выпускаем веса LORA модели 7B в Longalpaca-7B-Qlora-Weights.
[2023.10.18] Мы поддерживаем вывод Streamingllm на наших моделях Longalpaca. Это увеличивает длину контекста многоуровневого диалога в Streamingllm.
[2023.10.8] Мы выпускаем длинный набор данных, посвященный инструкциям , Longalpaca-12K и соответствующие модели , Longalpaca-7b, Longalpaca-13b и Longalpaca-70b.
( Предыдущие модели SFT , Llama-2-13B-Chat-Longlora-32K-SFT и Llama-2-70B-Chat-Longlora-32K-SFT, устарели .)
[2023.10.3] Мы добавляем поддержку моделей GPTNEOX. Пожалуйста, обратитесь к этому PR для использования. Спасибо за @naubull2 за этот вклад.
[2023.9.22] Мы выпускаем все наши тонко настроенные модели, в том числе модели 70B-32K , Llama2-Longlora-70B-32K, Llama2-Longlora-7B-100K. Добро пожаловать, чтобы проверить их!
[2023.9.22] Мы выпускаем Paper и этот репо Github, включая код обучения и оценки.

Longlora: эффективная тонкая настройка длинноконтекстовых моделей крупных языков [Paper]
Юканг Чен, Шенгджу Цянь, Хаотиан Тан, Синь Лай, Чжиджян Лю, Сонг Хан, Цзяя Цзя

Основные моменты

При подходе Longlora предложенное смещенное короткое внимание легко реализовать, совместимо со вспышкой и не требуется во время вывода.
Мы выпустили все наши модели, в том числе модели от 7b до 70b, длину контекста от 8K до 100K, включая Llama2-Longlora-7b-100K, Llama2-Longlora-13b-64K и Llama2-Longlora-70B-32K.
Мы создали набор данных с последующим инструкциями Longalpaca-12K. Мы выпустили соответствующие модели Longalpaca-7b, Longalpaca-13b и Longalpaca-70b. Насколько нам известно, это первая модель 70B с открытым источником.

Как внести свой вклад

Обязательно установил git.
Создайте свою собственную вилку проекта.
Клонируйте репозиторий на вашей локальной машине, используя клон GIT и вставьте URL -адрес этого проекта.
Прочитайте как Requirements , так и Installation and Quick Guide разделы ниже.
Совершить и протолкнуть свои изменения.
Сделайте запрос на вытяжение, когда закончите изменение проекта.

Требования к использованию

Чтобы загрузить и использовать предварительно обученные веса, которые вам понадобятся:

Объятие лица (HF) с действительной электронной почтой. Обратите внимание, что электронное письмо, используемое для HF, должно быть использовано для лицензионного соглашения.
Принять лицензию на мета и политика приемлемого использования

Установка и быстрое руководство

Чтобы установить и запустить приложение:

Разворачиваться в этом репо на GitHub
Клонируйте репозиторий на вашей локальной машине, используя клон GIT и вставьте URL -адрес этого проекта.
Запустите следующий код:

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Используйте выпущенную модель или настраивать модель, чтобы соответствовать вашим предпочтениям.
Проверьте свою модель по чату.
Разверните свою собственную демонстрацию.

Данные Longalpaca

Longalpaca-12K содержит данные QA длиной 9K, которые мы собрали, и 3K короткий QA, отобранные из исходных данных Alpaca. Это значит избежать того, что модель может ухудшиться при короткой инструкции. Данные, которые мы собираем, содержат различные типы и суммы в качестве следующего рисунка.

Стэнфорд-Альпака

Данные	Короткий QA	Длинный QA	Общий	Скачать
Longalpaca-12K	3K	9K	12K	Связь

После исходного формата Alpaca наши длинные данные QA используют следующие подсказки для точной настройки:

instruction : str , описывает задачу, которую должна выполнять модель. Например, чтобы ответить на вопрос после прочтения раздела книги или бумаги. Мы различаем содержание и вопросы, чтобы сделать инструкции разнообразными.
output : str , ответ на инструкцию.

Мы не использовали input формат в формате альпаки для простоты.

Модели

Модели с контролируемой настройкой

Модель	Размер	Контекст	Тренироваться	Связь
Longalpaca-7b	7b	32768	Полный фут	Модель
Longalpaca-13b	13b	32768	Полный фут	Модель
Longalpaca-70b	70b	32768	Лора+	Модель (Lora-Weight)

Модели с расширением контекста через полностью тонкую настройку

Модель	Размер	Контекст	Тренироваться	Связь
Llama-2-7b-longlora-8k-ft	7b	8192	Полный фут	Модель
Llama-2-7b-longlora-16k-ft	7b	16384	Полный фут	Модель
Llama-2-7b-longlora-32k-ft	7b	32768	Полный фут	Модель
Llama-2-7b-longlora-100K-FT	7b	100000	Полный фут	Модель
Llama-2-13b-longlora-8k-ft	13b	8192	Полный фут	Модель
Llama-2-13b-longlora-16k-ft	13b	16384	Полный фут	Модель
Llama-2-13B-Longlora-32K-FT	13b	32768	Полный фут	Модель

Модели с расширением контекста через улучшенную тонкую настройку Lora

Модель	Размер	Контекст	Тренироваться	Связь
Лама-2-7B-Лонглор-8K	7b	8192	Лора+	Лора-Вейт
Лама-2-7B-Лонглор-16K	7b	16384	Лора+	Лора-Вейт
Лама-2-7B-Лонглор-32K	7b	32768	Лора+	Лора-Вейт
Лама-2-13B-Лонглор-8K	13b	8192	Лора+	Лора-Вейт
Лама-2-13B-Лонглор-16K	13b	16384	Лора+	Лора-Вейт
Llama-2-13b-longlora-32K	13b	32768	Лора+	Лора-Вейт
Llama-2-13b-longlora-64K	13b	65536	Лора+	Лора-Вейт
Llama-2-70b-longlora-32K	70b	32768	Лора+	Лора-Вейт
Лама-2-70B-чат-лонгалор-32K	70b	32768	Лора+	Лора-Вейт

Обучение

Предварительно обученные веса

Мы используем модели Llama2 в качестве предварительно обученных весов и настраивать их к длинным контекстам окна. Скачать на основе вашего выбора.

Предварительно обученные веса
Лама-2-7B-HF
Лама-2-13B-HF
Лама-2-70B-HF
Llama-2-7b-Chat-HF
Лама-2-13B-чат-Х.Ф.
Лама-2-70B-чат-Х.Ф.

Этот проект также поддерживает модели GPTNEOX в качестве базовой архитектуры модели. Некоторые кандидаты, предварительно обученные весами, могут включать GPT-Neox-20B, PolyGlot-KO-128B и другие варианты.

Тонкая настройка

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

Пожалуйста, не забудьте изменить path_to/Llama-2-7b-hf , path_to_saving_checkpoints , path_to_cache в ваш собственный каталог.
Обратите внимание, что вы можете изменить model_max_length на другие значения.
Вы можете изменить ds_configs/stage2.json на ds_configs/stage3.json если хотите.
Пожалуйста, установите use_flash_attn как False , если вы используете машины V100 или не устанавливаете внимания Flash.
Вы можете установить low_rank_training как False , если вы хотите использовать полностью тонкую настройку. Это будет стоить дороже памяти GPU и медленнее, но производительность будет немного лучше.
Когда тренировка закончена, чтобы получить полный вес модели:

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

Обратите внимание, что PATH_TO_SAVER_CHECKPOINTS может быть каталогом Global_step, который зависит от версий DeepSpeed.

Напряженная точная настраиваемая настройка

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

Нет необходимости создавать точную настройку на тонко настроенном контексте расширенных моделей. Все в порядке, чтобы непосредственно использовать базовую модель в качестве моделей Llama2-Chat, так как количество длинных инструкций, следующих за данными, достаточно для SFT.
Наше длинное обучение после данных можно найти в Longalpaca-12K.JSON.
Обратите внимание, что контролируемый Fine-tune.py может быть заменен под контролируемой Tun-tune-qlora.py, если вы хотите попробовать 4-битную квантовую тонкую настройку для дальнейшего снижения памяти графического процессора. Это следует за Qlora.
Если вы встретите проблему для сохранения pytorch_model.bin после Qlora SFT, пожалуйста, обратитесь к этому вопросу.

Получить обучаемые веса на тренировках с низким уровнем ранга

При обучении с низким уровнем ранга мы устанавливаем слои встраивания и нормализации как обучаемые. Пожалуйста, используйте следующую строку, чтобы извлечь обучаемые веса trainable_params.bin из pytorch_model.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

Слияние веса Лора

Объедините веса LORA pytorch_model.bin и обучаемые параметры trainable_params.bin , сохраните полученную модель в желаемом пути в формате обнимающего лица:

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

Например,

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

Оценка

Валидация недоумения

Чтобы оценить модель, которая обучается в настройке с низким уровнем ранга, пожалуйста, установите как base_model , так и peft_model . base_model -это предварительно обученный вес. peft_model - это путь к сохраненной контрольной точке, которая должна содержать trainable_params.bin , adapter_model.bin и adapter_config.json . Например,

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Или оценить с несколькими графическими процессорами следующим образом.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Чтобы оценить модель, которая полностью настраивается, вам нужно только установить base_model в качестве пути к сохраненной контрольной точке, которая должна содержать pytorch_model.bin и config.json . peft_model следует игнорировать.

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Или оценить с несколькими графическими процессорами следующим образом.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Обратите внимание, что --seq_len , чтобы установить длину последовательности для оценки. --context_size -это установить длину контекста модели во время точной настройки. --seq_len не должен быть больше, чем --context_size .
Мы уже направили валидацию и тесты на набор данных PG19 и наборы Proof-Pile в pg19/validation.bin , pg19/test.bin и proof-pile/test_sampled_data.bin , с токенизатором LLAMA. proof-pile/test_sampled_data.bin содержит 128 документов, которые случайным образом отображаются из общего раскола тестов с достопримечательностью. Для каждого документа он имеет не менее 32768 жетонов. Мы также выпускаем отобранные идентификаторы в Proof-Pile/test_sampled_ids.bin. Вы можете скачать их по ссылкам ниже.

Набор данных	Расколоть	Связь
PG19	валидация	pg19/velyation.bin
PG19	тест	pg19/test.bin
Доказычная	тест	Proof-Pile/test_sampled_data.bin

Passkey поиск

Мы предоставляем способ проверить точность поиска PassKey. Например,

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

Обратите внимание, что context_size -это длина контекста во время точной настройки.
max_tokens - максимальная длина для документа в оценке поиска PassKey.
interval - это интервал во время увеличения длины документа. Это грубое число, потому что документ увеличивается по предложениям.

Демо

Местный вывод

Пообщаться с моделями Longalpaca,

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

Чтобы задать вопрос, связанный с книгой:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

Чтобы задать вопрос, связанный с статьей:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

Обратите внимание, что anuference.py может быть заменен на вывод-qlora.py, если вы хотите попробовать 4-битную квантовую тонкую настройку для дальнейшего снижения памяти графического процессора. Это следует за Qlora.

Онлайн демо

Чтобы развернуть свой собственный демонстрационный запуск

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

Пример

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

Обратите внимание, что flash_attn=True сделает поколение медленным, но сохраняет много памяти графического процессора.

Потоковое вывод

Мы поддерживаем вывод моделей Longalpaca с Streamingllm. Это увеличивает длину контекста многоуровневого диалога в Streamingllm. Вот пример,

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

Обратите внимание, что, пожалуйста, используйте меньший недавний_size, если вы выполняете проблемы OOM, например, 8192.
test_filepath - это файл JSON, который содержит подсказки для вывода. Мы предоставляем пример файла outputs_stream.json, который представляет собой подмножество Longalpaca-12K. Вы можете заменить его на свои собственные вопросы.

Генерация данных через PDF2Text

Во время нашей коллекции наборов данных мы конвертируем бумаги и книги из PDF в текст. Качество конверсии оказывает большое влияние на качество окончательного модели. Мы думаем, что этот шаг нетривилен. Мы выпускаем инструмент для преобразования PDF2TXT, в папке pdf2txt . Он построен на pdf2image , easyocr , ditod и detectron2 . Пожалуйста, обратитесь к readme.md в pdf2txt для получения более подробной информации.

Примеры

Цитирование

Если вы найдете этот проект полезным в своем исследовании, рассмотрите возможность ссылаться:

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

Подтверждение

Эта работа построена на Llama2 как предварительно обученные модели.
Эта работа также может быть построена на GPTNEOX-HF, который основан на Eleutherai/Gptneox в качестве предварительно обученной модельной архитектуры.
Эта работа основана на DeepSpeed, PEFT и Flash-Attention2 для ускорения.
Некоторый код оценки модифицируется при внимании значения.
Мы используем Longchat для оценки поиска.
Мы следим за потоковым выводом.
Мы объединяем Qlora с Longlora для контролируемой точной настройки.

Лицензия

Longlora лицензирована по лицензии Apache 2.0. Это означает, что это требует сохранения авторских прав и лицензионных уведомлений.
Данные и веса находятся под лицензией CC-BY-NC 4.0. Они имеют лицензию только для исследования, и разрешены только некоммерческие. Модели, обученные с использованием набора данных, не должны использоваться вне целей исследования.

Расширять