تنزيل LongLoRA - تنزيل رمز المصدر LongLoRA

ستانفورد ألباكا

Longlora و Longalpaca لسياق LLMS طويل

جدول المحتويات

أخبار
أبرز
كيفية المساهمة
متطلبات
التثبيت والدليل السريع
بيانات Longalpaca
النماذج
تمرين
تقييم
العرض التوضيحي
استدلال تدفق
توليد البيانات عبر نص pdf2tex
أمثلة
اقتباس
شكر وتقدير
رخصة

أخبار

[2024.1.17] تم قبول Longlora من قبل ICLR 2024 كعرض تقديمي عن طريق الفم .
[2023.11.19] نصدر نسخة جديدة من طرازات LongalPaca ، Longalpaca-7B-16K ، Longalpaca-7B-16K ، و Longalpaca-7B-16K. يتم ضبط هذه النماذج بشكل جيد على مجموعة بيانات LongalPaca-12k مع Longlora في SFT ، Longalpaca-16K-Length. نقوم بتقييم نموذج Longalpaca-7B-16K على معايير Longbench و L-Eval ويمكن العثور على النتائج هنا.
[2023.11.2] لقد قمنا بتحديث طرز LongalPaca الخاصة بنا من الألبكة التي توجه إلى LLAMA2 ، وهو ما يتوافق مع نماذجها التي تم تدريبها مسبقًا. يرجى الرجوع إلى رمز الاستدلال مع مطالبة LLAMA2.
[2023.10.23] نحن ندعم مزيج من Qlora و Longlora في عملية التثبيت الخاضعة للإشراف ، لمزيد من الحد من تكلفة ذاكرة GPU. نطلق الأوزان Lora لنموذج 7B في Longalpaca-7b-Qlora-Meights.
[2023.10.18] نحن ندعم الاستدلال Dreamingllm على نماذج LongalPaca الخاصة بنا. هذا يزيد من طول السياق للحوار متعدد الدورات في DreamingLlm.
[2023.10.8] نقوم بإطلاق مجموعة بيانات متابعة التعليمات الطويلة ، LongalPaca-12K والموديلات المقابلة ، Longalpaca-7B ، Longalpaca-13B ، و Longalpaca-70b.
( تم إهمال نماذج SFT السابقة ، Llama-2-13b-Chat-Longlora-32K-SFT و LLAMA-2-70B-Chat-Longlora-32K-SFT.
[2023.10.3] نضيف نماذج GPTNEOX دعم. يرجى الرجوع إلى هذا العلاقات العامة للاستخدام. شكرا على @naubull2 لهذه المساهمة.
[2023.9.22] نطلق جميع طرزنا المضبوطة ، بما في ذلك طرازات 70B-32K ، LLAMA2-LONGLORA-70B-32K ، LLAMA2-LONGLORA-7B-100K. مرحبا بكم في التحقق منها!
[2023.9.22] نقوم بإطلاق الورق و REPO GITHUB ، بما في ذلك رمز التدريب والتقييم.

Longlora: صقل فعال لنماذج لغة كبيرة في السياق [ورقة]
Yukang Chen ، Shengju Qian ، Haotian Tang ، Xin Lai ، Zhijian Liu ، Song Han ، Jiaya Jia

أبرز

في نهج Longlora ، من السهل تنفيذ الاهتمام القصير المقترح المقترح ، وتوافق مع الالتحاق بالفلاش ، وليس مطلوبًا أثناء الاستدلال.
أصدرنا جميع طرزنا ، بما في ذلك الطرز من 7B إلى 70B وطول السياق من 8K إلى 100K ، بما في ذلك LLAMA2LORA-7B-100K و LLAMA2LORA-13B-64K و LLAMA2LORA-70B-32K.
لقد قمنا ببناء مجموعة بيانات تتبع التعليمات الطويلة ، Longalpaca-12k. أصدرنا طرازات Longalpaca-7B المقابلة ، و Longalpaca-13B و Longalpaca-70b. على أفضل حالاتنا ، هذا هو أول نموذج 70B سياق مفتوح المصدر.

كيفية المساهمة

تأكد من تثبيت GIT.
قم بإنشاء شوكة المشروع الخاصة بك.
استنساخ المستودع على جهازك المحلي ، باستخدام GIT Clone ولصق عنوان URL لهذا المشروع.
اقرأ كل من Requirements والتثبيت Installation and Quick Guide أدناه.
ارتكب ودفع التغييرات الخاصة بك.
قم بتقديم طلب سحب عند الانتهاء من تعديل المشروع.

متطلبات الاستخدام

لتنزيل الأوزان التي ستحتاج إليها واستخدامها:

حساب الوجه (HF) مع بريد إلكتروني صالح. ملاحظة ، يجب استخدام البريد الإلكتروني المستخدم لـ HF لاتفاقية الترخيص.
قبول رخصة التعريف وسياسة الاستخدام المقبولة

التثبيت والدليل السريع

لتثبيت التطبيق وتشغيله:

شوكة هذا الريبو على جيثب
استنساخ المستودع على جهازك المحلي ، باستخدام GIT Clone ولصق عنوان URL لهذا المشروع.
قم بتشغيل الكود التالي:

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

استخدم إما نموذجًا تم إصداره أو قم بضبط نموذج لتناسب تفضيلاتك.
اختبر النموذج الخاص بك عن طريق الدردشة.
نشر العرض التوضيحي الخاص بك.

بيانات Longalpaca

يحتوي LongalPaca-12k على بيانات QA طويلة 9K التي جمعناها وأخذ عينات من QA قصيرة 3K من بيانات الألبكة الأصلية. هذا لتجنب الحالة التي قد يتحللها النموذج بناءً على تعليمات قصيرة. تحتوي البيانات التي نجمعها على أنواع ومبالغ مختلفة مثل الشكل التالي.

ستانفورد ألباكا

بيانات	QA قصيرة	QA طويل	المجموع	تحميل
Longalpaca-12k	3K	9k	12 كيلو	وصلة

بعد تنسيق الألبكة الأصلي ، تستخدم بيانات ضمان الجودة الطويلة لدينا المطالبات التالية للضبط:

instruction : str ، يصف المهمة التي يجب أن يؤديها النموذج. على سبيل المثال ، للإجابة على سؤال بعد قراءة قسم كتاب أو ورقة. نحن نختلف المحتويات والأسئلة لجعل التعليمات متنوعة.
output : str ، إجابة التعليمات.

لم نستخدم تنسيق input في تنسيق الألبكة للبساطة.

النماذج

النماذج ذات الضبط الخاضع للإشراف

نموذج	مقاس	سياق	يدرب	وصلة
Longalpaca-7b	7 ب	32768	قدم كاملة	نموذج
Longalpaca-13b	13 ب	32768	قدم كاملة	نموذج
Longalpaca-70b	70 ب	32768	لورا+	النموذج (لورا الوزن)

نماذج مع امتداد السياق عبر ضبط جيد بالكامل

نموذج	مقاس	سياق	يدرب	وصلة
llama-2-7b-longlora-8k-ft	7 ب	8192	قدم كاملة	نموذج
llama-2-7b-longlora-16k-ft	7 ب	16384	قدم كاملة	نموذج
llama-2-7b-longlora-32k-ft	7 ب	32768	قدم كاملة	نموذج
LLAMA-2-7B-LONGLORA-100K-FT	7 ب	100000	قدم كاملة	نموذج
Llama-2-13b-Longlora-8K-Ft	13 ب	8192	قدم كاملة	نموذج
Llama-2-13b-Longlora-16K-Ft	13 ب	16384	قدم كاملة	نموذج
Llama-2-13b-Longlora-32k-Ft	13 ب	32768	قدم كاملة	نموذج

نماذج مع امتداد السياق عبر التحسين المحسّن Lora

نموذج	مقاس	سياق	يدرب	وصلة
llama-2-7b-longlora-8k	7 ب	8192	لورا+	لورا وايت
Llama-2-7b-longlora-16k	7 ب	16384	لورا+	لورا وايت
Llama-2-7b-longlora-32k	7 ب	32768	لورا+	لورا وايت
llama-2-13b-longlora-8k	13 ب	8192	لورا+	لورا وايت
Llama-2-13b-Longlora-16K	13 ب	16384	لورا+	لورا وايت
Llama-2-13b-Longlora-32k	13 ب	32768	لورا+	لورا وايت
llama-2-13b-longlora-64k	13 ب	65536	لورا+	لورا وايت
Llama-2-70b-longlora-32k	70 ب	32768	لورا+	لورا وايت
LLAMA-2-70B-Chat-Longlora-32K	70 ب	32768	لورا+	لورا وايت

تمرين

الأوزان المدربة مسبقا

نحن نستخدم نماذج Llama2 كأوزان مدربة مسبقًا وضبطها على أحجام نوافذ السياق الطويلة. تنزيل بناءً على اختياراتك.

الأوزان المدربة مسبقا
Llama-2-7B-HF
Llama-2-13b-HF
Llama-2-70B-HF
Llama-2-7b-Chat-Hf
Llama-2-13b-Chat-Hf
LLAMA-2-70B-Chat-HF

يدعم هذا المشروع أيضًا نماذج GPTNEOX باعتبارها بنية النموذج الأساسي. قد تشمل بعض الأوزان التي تم تدريبها مسبقًا GPT-NEOX-20B و Polyglot-KO-12.8B وغيرها من المتغيرات.

الكون المثالى

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

يرجى تذكر تغيير path_to/Llama-2-7b-hf ، path_to_saving_checkpoints ، path_to_cache إلى الدليل الخاص بك.
لاحظ أنه يمكنك تغيير model_max_length إلى قيم أخرى.
يمكنك تغيير ds_configs/stage2.json إلى ds_configs/stage3.json إذا كنت تريد.
يرجى تعيين use_flash_attn False إذا كنت تستخدم آلات V100 أو عدم تثبيت اهتمام فلاش.
يمكنك تعيين low_rank_training False إذا كنت تريد استخدام الضبط بالكامل. سيكلف المزيد من ذاكرة GPU وأبطأ ، لكن الأداء سيكون أفضل قليلاً.
عند الانتهاء من التدريب ، للحصول على وزن النموذج الكامل:

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

لاحظ أن path_to_saving_checkpoints قد يكون دليل global_step ، والذي يعتمد على إصدارات السرعة العميقة.

صقل خاضع للإشراف

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

ليست هناك حاجة لجعل النماذج الخاضعة للإشراف على النماذج الممتدة للسياق المعدلة. من الصحيح استخدام النموذج الأساسي بشكل مباشر كنماذج LLAMA2-Chat ، لأن كمية التعليمات الطويلة التالية بما يلي البيانات كافية لـ SFT.
يمكن العثور على تعليماتنا الطويلة بعد البيانات في Longalpaca-12k.Json.
لاحظ أنه يمكن استبدال tune-tune.py الخاضع للإشراف عن طريق الإشراف على Qlora.py إذا كنت ترغب في تجربة ضبط كمي من 4 بت لمزيد من تخفيض ذاكرة GPU. هذا يتبع qlora.
إذا واجهت مشكلة لإنقاذ Pytorch_model.bin بعد Qlora SFT ، فيرجى الرجوع إلى هذه المشكلة.

احصل على أوزان قابلة للتدريب في التدريب منخفض الرتبة

في التدريب منخفض الرتبة ، وضعنا طبقات التضمين والتطبيع على أنها قابلة للتدريب. يرجى استخدام السطر التالي لاستخراج الأوزان القابلة للتدريب trainable_params.bin من pytorch_model.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

دمج الوزن لورا

دمج أوزان lora من pytorch_model.bin والمعلمات القابلة للتدريب trainable_params.bin ، احفظ النموذج الناتج في المسار المطلوب في تنسيق وجه المعانقة:

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

على سبيل المثال،

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

تقييم

التحقق من صحة الحيرة

لتقييم نموذج يتم تدريبه في الإعداد منخفض الرتبة ، يرجى تعيين كل من base_model و peft_model . base_model هو الوزن المدربين مسبقًا. peft_model هو المسار إلى نقطة التفتيش المحفوظة ، والتي يجب أن تحتوي على trainable_params.bin و adapter_model.bin و adapter_config.json . على سبيل المثال،

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

أو تقييم مع وحدات معالجة الرسومات المتعددة على النحو التالي.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

لتقييم نموذج يتم ضبطه بالكامل ، تحتاج فقط إلى تعيين base_model كمسار إلى نقطة التفتيش المحفوظة ، والتي يجب أن تحتوي على pytorch_model.bin و config.json . يجب تجاهل peft_model .

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

أو تقييم مع وحدات معالجة الرسومات المتعددة على النحو التالي.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

لاحظ أن --seq_len هو تعيين طول التسلسل للتقييم. --context_size هو تعيين طول السياق للنموذج أثناء الضبط الدقيق. --seq_len لا ينبغي أن يكون أكبر من- --context_size .
لقد قمنا بالفعل برمز التحقق من صحة واختبار مجموعة بيانات PG19 ومجموعة بيانات الإثبات في pg19/validation.bin pg19/test.bin proof-pile/test_sampled_data.bin . يحتوي proof-pile/test_sampled_data.bin على 128 وثيقة يتم أخذ عينات منها بشكل عشوائي من تقسيم اختبار الإثبات الكلي. لكل وثيقة ، لديها ما لا يقل عن 32768 رمز الرموز. نقوم أيضًا بإصدار المعرفات التي تم أخذ عينات منها في الإثبات/test_sampled_ids.bin. يمكنك تنزيلها من الروابط أدناه.

مجموعة البيانات	ينقسم	وصلة
PG19	تصديق	PG19/التحقق من الصحة
PG19	امتحان	PG19/Test.bin
إثبات الولادة	امتحان	إثبات pile/test_sampled_data.bin

استرجاع مفتاح المرور

نحن نقدم طريقة لاختبار دقة استرجاع مفتاح المرور. على سبيل المثال،

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

لاحظ أن context_size هو طول السياق أثناء الضبط الدقيق.
max_tokens هو الحد الأقصى للوثيقة في تقييم استرجاع مفتاح المرور.
interval هو الفاصل الزمني أثناء زيادة طول المستند. إنه رقم تقريبي لأن المستند يزداد حسب الجمل.

العرض التوضيحي

الاستدلال المحلي

للدردشة مع طرز Longalpaca ،

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

لطرح سؤال يتعلق بكتاب:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

لطرح سؤال يتعلق بالورقة:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

لاحظ أنه يمكن استبدال inference.py باستدلال qlora.py إذا كنت ترغب في تجربة صقل كمي بحجم 4 بت لمزيد من تخفيض ذاكرة GPU. هذا يتبع qlora.

العرض التوضيحي عبر الإنترنت

لنشر التشغيل التجريبي الخاص بك

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

مثال

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

لاحظ أن flash_attn=True سيجعل الجيل بطيئًا ولكن حفظ الكثير من ذاكرة GPU.

استدلال تدفق

نحن ندعم استنتاج نماذج LongalPaca مع Dreamingllm. هذا يزيد من طول السياق للحوار متعدد الدورات في DreamingLlm. هنا مثال ،

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

لاحظ أنه يرجى استخدام أصغر _size إذا واجهت مشكلات OOM ، على سبيل المثال 8192.
test_filepath هو ملف JSON الذي يحتوي على مطالبات للاستدلال. نحن نقدم مثال ملف Outss_stream.json ، وهي مجموعة فرعية من LongalPaca-12k. يمكنك استبدالها بأسئلتك الخاصة.

توليد البيانات عبر نص pdf2tex

خلال مجموعة البيانات الخاصة بنا ، نقوم بتحويل الورق والكتب من PDF إلى نص. جودة التحويل لها تأثير كبير على جودة النموذج النهائي. نعتقد أن هذه الخطوة غير تافهة. ننشر الأداة لتحويل PDF2TXT ، في المجلد pdf2txt . وهو مبني على pdf2image ، easyocr ، ditod و detectron2 . يرجى الرجوع إلى readme.md في pdf2txt لمزيد من التفاصيل.

أمثلة

اقتباس

إذا وجدت هذا المشروع مفيدًا في بحثك ، فيرجى التفكير في:

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

شكر وتقدير

تم بناء هذا العمل على LLAMA2 كنماذج مدربة مسبقًا.
يمكن بناء هذا العمل أيضًا على GPTNEOX-HF الذي يعتمد على Eleutherai/GPTNEOX باعتباره بنية النموذج التي تم تدريبها مسبقًا.
يعتمد هذا العمل على السفن العميقة ، PEFT ، و Flash-attention2 للتسارع.
يتم تعديل بعض رمز التقييم عند الاهتمام التاريخي.
نستخدم Longchat لتقييم الاسترجاع.
نحن نتبع Dreamingllm لاستنتاج البث.
نحن نجمع بين Qlora مع Longlora للضبط الخاضع للإشراف.

رخصة

Longlora مرخصة بموجب ترخيص Apache 2.0. هذا يعني أنه يتطلب الحفاظ على حقوق الطبع والنشر وإشعارات الترخيص.
البيانات والأوزان تحت رخصة CC-By-NC 4.0. فهي مرخصة للاستخدام البحثي فقط ، ولا يسمح إلا بالتجارة. لا ينبغي استخدام النماذج المدربة باستخدام مجموعة البيانات خارج أغراض البحث.

يوسع