LongLoRA ดาวน์โหลด - ดาวน์โหลดซอร์สโค้ด LongLoRA

สแตนฟอร์ด-อัลปากา

Longlora และ Longalpaca สำหรับ LLMS บริบทยาว

สารบัญ

ข่าว
ไฮไลท์
วิธีการมีส่วนร่วม
ความต้องการ
การติดตั้งและคู่มือด่วน
ข้อมูล longalpaca
แบบจำลอง
การฝึกอบรม
การประเมิน
การสาธิต
การอนุมานการสตรีม
การสร้างข้อมูลผ่าน PDF2Text
ตัวอย่าง
การอ้างอิง
การรับทราบ
ใบอนุญาต

ข่าว

[2024.1.17] Longlora ได้รับการยอมรับจาก ICLR 2024 เป็นการนำเสนอ ด้วยวาจา
[2023.11.19] เราเปิดตัวรุ่น Longalpaca รุ่นใหม่ Longalpaca-7B-16K, Longalpaca-7B-16K และ Longalpaca-7B-16K โมเดลเหล่านี้ได้รับการปรับแต่งอย่างละเอียดในชุดข้อมูลชุดย่อย LongalPaca-12K ที่มี Longlora ใน SFT, Longalpaca-16K ยาว เราประเมินโมเดล Longalpaca-7B-16K บนเกณฑ์มาตรฐาน Longbench และ L-Eval และผลลัพธ์สามารถพบได้ที่นี่
[2023.11.2] เราได้อัปเดตโมเดล Longalpaca ของเราจาก Alpaca กระตุ้นการแจ้งเตือน Llama2 ซึ่งสอดคล้องกับโมเดลที่ผ่านการฝึกอบรมมาก่อน โปรดดูรหัสการอนุมานด้วยการแจ้งเตือน LLAMA2
[2023.10.23] เราสนับสนุนการรวมกันของ Qlora และ Longlora ในการปรับแต่งการควบคุมภายใต้การดูแลเพื่อลดต้นทุนหน่วยความจำ GPU เพิ่มเติม เราปล่อยน้ำหนัก LORA ของรุ่น 7B ที่ Longalpaca-7b-Qlora-Weights
[2023.10.18] เราสนับสนุนการอนุมานสตรีมมิ่งในรุ่น Longalpaca ของเรา สิ่งนี้จะเพิ่มความยาวบริบทของบทสนทนาหลายรอบในสตรีมมิ่ง
[2023.10.8] เราเปิดตัวชุดข้อมูลตามคำสั่งที่ยาวนาน , Longalpaca-12K และ โมเดลที่สอดคล้องกัน , Longalpaca-7b, Longalpaca-13b และ Longalpaca-70b
( รุ่น SFT ก่อนหน้านี้ LLAMA-2-13B-Chat-Longlora-32K-SFT และ LLAMA-2-70B-Chat-Longlora-32K-SFT ได้ถูกเลิกใช้แล้ว )
[2023.10.3] เราเพิ่มรุ่นสนับสนุน GPTNEOX โปรดดูการประชาสัมพันธ์นี้สำหรับการใช้งาน ขอบคุณสำหรับ @naubull2 สำหรับการบริจาคนี้
[2023.9.22] เราปล่อยรุ่นที่ปรับแต่งทั้งหมดของเรารวมถึง รุ่น 70B-32K , Llama2-Longlora-70b-32K, Llama2-Longlora-7b-100k ยินดีต้อนรับเพื่อตรวจสอบพวกเขา!
[2023.9.22] เราปล่อยกระดาษและ repo github นี้รวมถึงการฝึกอบรมและรหัสการประเมินผล

Longlora: การปรับจูนแบบจำลองภาษาขนาดใหญ่ที่มีประสิทธิภาพยาวนาน [Paper]
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, เพลง Han, Jiaya Jia

ไฮไลท์

ในแนวทาง Longlora ความสนใจสั้น ๆ ที่เสนอนั้นง่ายต่อการใช้งานเข้ากันได้กับความสนใจของแฟลชและไม่จำเป็นในระหว่างการอนุมาน
เราเปิดตัวทุกรุ่นของเรารวมถึงรุ่นจาก 7B ถึง 70B ความยาวบริบทจาก 8K ถึง 100K รวมถึง Llama2-Longlora-7B-100K, Llama2-Longlora-13b-64K และ Llama2-Longlora-70b-32K
เราสร้างชุดข้อมูลตามคำสั่งบริบทที่ยาวนาน LongalPaca-12K เราเปิดตัว Longalpaca-7b, Longalpaca-13b และรุ่น Longalpaca-70b เพื่อความรู้ที่ดีที่สุดของเรานี่เป็นโมเดลยาวบริบทที่เปิดกว้างครั้งแรก

วิธีการมีส่วนร่วม

ตรวจสอบให้แน่ใจว่าได้ติดตั้ง Git
สร้างส้อมของคุณเอง
โคลนพื้นที่เก็บข้อมูลบนเครื่องในพื้นที่ของคุณโดยใช้ Git Clone และวาง URL ของโครงการนี้
อ่านทั้ง Requirements และ Installation and Quick Guide ด้านล่าง
มุ่งมั่นและผลักดันการเปลี่ยนแปลงของคุณ
ทำคำขอดึงเมื่อแก้ไขโครงการเสร็จแล้ว

ข้อกำหนดการใช้งาน

ในการดาวน์โหลดและใช้น้ำหนักที่ได้รับการฝึกอบรมล่วงหน้าที่คุณต้องการ:

บัญชี Hugging Face (HF) พร้อมอีเมลที่ถูกต้อง หมายเหตุอีเมลที่ใช้สำหรับ HF จะต้องใช้ Alse สำหรับข้อตกลงใบอนุญาต
ยอมรับใบอนุญาตเมตาและนโยบายการใช้งานที่ยอมรับได้

การติดตั้งและคู่มือด่วน

ในการติดตั้งและเรียกใช้แอปพลิเคชัน:

ส้อม repo นี้บน gitHub
โคลนพื้นที่เก็บข้อมูลบนเครื่องในพื้นที่ของคุณโดยใช้ Git Clone และวาง URL ของโครงการนี้
เรียกใช้รหัสต่อไปนี้:

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

ใช้โมเดลที่ปล่อยออกมาหรือปรับแต่งโมเดลเพื่อให้เหมาะกับการตั้งค่าของคุณ
ทดสอบโมเดลของคุณด้วยการแชท
ปรับใช้การสาธิตของคุณเอง

ข้อมูล longalpaca

Longalpaca-12K มีข้อมูล QA ยาว 9k ที่เรารวบรวมและ QA สั้น 3K ตัวอย่างจากข้อมูล Alpaca ดั้งเดิม นี่คือการหลีกเลี่ยงกรณีที่โมเดลอาจลดระดับการเรียนการสอนสั้น ๆ ต่อไปนี้ ข้อมูลที่เรารวบรวมมีประเภทและจำนวนที่หลากหลายเป็นรูปต่อไปนี้

สแตนฟอร์ด-อัลปากา

ข้อมูล	QA สั้น ๆ	QA ยาว	ทั้งหมด	การดาวน์โหลด
Longalpaca-12k	3K	9K	12K	การเชื่อมโยง

ตามรูปแบบ Alpaca ดั้งเดิมข้อมูล QA ยาวของเราใช้พรอมต์ต่อไปนี้สำหรับการปรับแต่ง:

instruction : str อธิบายงานที่โมเดลควรดำเนินการ ตัวอย่างเช่นเพื่อตอบคำถามหลังจากอ่านส่วนหนังสือหรือกระดาษ เราเปลี่ยนแปลงเนื้อหาและคำถามเพื่อให้คำแนะนำที่หลากหลาย
output : str คำตอบของคำแนะนำ

เราไม่ได้ใช้รูปแบบ input ในรูปแบบ Alpaca เพื่อความเรียบง่าย

แบบจำลอง

แบบจำลองที่มีการปรับแต่งแบบควบคุมดูแล

แบบอย่าง	ขนาด	บริบท	รถไฟ	การเชื่อมโยง
Longalpaca-7b	7b	32768	เต็มฟุต	แบบอย่าง
Longalpaca-13b	13B	32768	เต็มฟุต	แบบอย่าง
Longalpaca-70b	70b	32768	Lora+	รุ่น (Lora-Weight)

แบบจำลองที่มีการขยายบริบทผ่านการปรับแต่งอย่างสมบูรณ์

แบบอย่าง	ขนาด	บริบท	รถไฟ	การเชื่อมโยง
llama-2-7b-longlora-8k-ft	7b	8192	เต็มฟุต	แบบอย่าง
llama-2-7b-longlora-16k-ft	7b	16384	เต็มฟุต	แบบอย่าง
llama-2-7b-longlora-32k-ft	7b	32768	เต็มฟุต	แบบอย่าง
llama-2-7b-longlora-100k-ft	7b	100000	เต็มฟุต	แบบอย่าง
llama-2-13b-longlora-8k-ft	13B	8192	เต็มฟุต	แบบอย่าง
llama-2-13b-longlora-16k-ft	13B	16384	เต็มฟุต	แบบอย่าง
llama-2-13b-longlora-32k-ft	13B	32768	เต็มฟุต	แบบอย่าง

แบบจำลองที่มีการขยายบริบทผ่านการปรับแต่ง LORA ที่ดีขึ้น

แบบอย่าง	ขนาด	บริบท	รถไฟ	การเชื่อมโยง
LLAMA-2-7B-LONGLORA-8K	7b	8192	Lora+	Lora-Weight
LLAMA-2-7B-LONGLORA-16K	7b	16384	Lora+	Lora-Weight
LLAMA-2-7B-LONGLORA-32K	7b	32768	Lora+	Lora-Weight
LLAMA-2-13B-LONGLORA-8K	13B	8192	Lora+	Lora-Weight
LLAMA-2-13B-LONGLORA-16K	13B	16384	Lora+	Lora-Weight
LLAMA-2-13B-LONGLORA-32K	13B	32768	Lora+	Lora-Weight
LLAMA-2-13B-LONGLORA-64K	13B	65536	Lora+	Lora-Weight
LLAMA-2-70B-LONGLORA-32K	70b	32768	Lora+	Lora-Weight
LLAMA-2-70B-Chat-Longlora-32K	70b	32768	Lora+	Lora-Weight

การฝึกอบรม

น้ำหนักที่ได้รับการฝึกอบรมล่วงหน้า

เราใช้โมเดล LLAMA2 เป็นน้ำหนักที่ได้รับการฝึกอบรมล่วงหน้าและปรับให้เข้ากับขนาดของหน้าต่างบริบทที่ยาว ดาวน์โหลดตามตัวเลือกของคุณ

น้ำหนักที่ได้รับการฝึกอบรมล่วงหน้า
LLAMA-2-7B-HF
llama-2-13b-hf
LLAMA-2-70B-HF
llama-2-7b-chat-hf
llama-2-13b-chat-hf
LLAMA-2-70B-Chat-HF

โครงการนี้ยังรองรับรุ่น GPTNEOX เป็นสถาปัตยกรรมแบบจำลองพื้นฐาน น้ำหนักที่ได้รับการฝึกอบรมล่วงหน้าผู้สมัครบางคนอาจรวมถึง GPT-NEOX-20B, PolyGlot-KO-12.8B และตัวแปรอื่น ๆ

การปรับแต่ง

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

โปรดจำไว้ว่าให้เปลี่ยน path_to/Llama-2-7b-hf , path_to_saving_checkpoints , path_to_cache ไปยังไดเรกทอรีของคุณเอง
โปรดทราบว่าคุณสามารถเปลี่ยน model_max_length เป็นค่าอื่น ๆ
คุณสามารถเปลี่ยน ds_configs/stage2.json เป็น ds_configs/stage3.json หากคุณต้องการ
โปรดตั้งค่า use_flash_attn เป็น False ถ้าคุณใช้เครื่อง V100 หรือไม่ติดตั้งความสนใจของแฟลช
คุณสามารถตั้ง low_rank_training เป็น False หากคุณต้องการใช้การปรับแต่งอย่างสมบูรณ์ มันจะมีค่าใช้จ่ายหน่วยความจำ GPU มากขึ้นและช้าลง แต่ประสิทธิภาพจะดีขึ้นเล็กน้อย
เมื่อการฝึกเสร็จสิ้นเพื่อให้ได้น้ำหนักแบบเต็มรูปแบบ:

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

โปรดทราบว่า path_to_saving_checkpoints อาจเป็นไดเรกทอรี global_step ซึ่งขึ้นอยู่กับรุ่น Deepspeed

มีการปรับแต่งการปรับแต่ง

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

ไม่จำเป็นต้องทำการปรับแต่งอย่างละเอียดเกี่ยวกับแบบจำลองขยายบริบทที่ปรับแต่งได้อย่างละเอียด มันถูกต้องที่จะใช้โมเดลฐานโดยตรงเป็นรุ่น LLAMA2-Chat เนื่องจากปริมาณของคำสั่งยาวต่อไปนี้ข้อมูลเพียงพอสำหรับ SFT
คำสั่งยาวของเราต่อไปนี้ข้อมูลสามารถพบได้ใน longalpaca-12k.json
โปรดทราบว่าการปรับแต่งแบบกำกับดูแลสามารถแทนที่ได้ด้วยการปรับแต่งแบบควบคุม-qlora.py หากคุณต้องการลองปรับจูนเชิงปริมาณ 4 บิตเพื่อลดหน่วยความจำ GPU เพิ่มเติม สิ่งนี้ติดตาม Qlora
หากคุณพบปัญหาสำหรับการบันทึก pytorch_model.bin หลังจาก Qlora SFT โปรดดูปัญหานี้

รับน้ำหนักที่ฝึกได้ในการฝึกอบรมระดับต่ำ

ในการฝึกอบรมระดับต่ำเราตั้งค่าการฝังและการทำให้เป็นมาตรฐานในการฝึกอบรม โปรดใช้บรรทัดต่อไปนี้เพื่อสกัดน้ำหนักที่ฝึกอบรมได้ trainable_params.bin จาก pytorch_model.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

ผสานน้ำหนัก Lora

รวมน้ำหนัก lora ของ pytorch_model.bin และพารามิเตอร์ที่สามารถฝึกอบรมได้ trainable_params.bin , บันทึกโมเดลผลลัพธ์ลงในเส้นทางที่คุณต้องการในรูปแบบการกอดใบหน้า:

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

ตัวอย่างเช่น,

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

การประเมิน

การตรวจสอบความงุนงง

ในการประเมินแบบจำลองที่ได้รับการฝึกฝนในการตั้งค่าระดับต่ำโปรดตั้งค่าทั้งสอง base_model และ peft_model base_model เป็นน้ำหนักที่ได้รับการฝึกอบรมล่วงหน้า peft_model เป็นเส้นทางไปยังจุดตรวจสอบที่บันทึกไว้ซึ่งควรมี trainable_params.bin , adapter_model.bin และ adapter_config.json ตัวอย่างเช่น,

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

หรือประเมินด้วย GPU หลายตัวดังนี้

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

ในการประเมินแบบจำลองที่ได้รับการปรับแต่งอย่างสมบูรณ์คุณจะต้องตั้งค่า base_model เป็นเส้นทางไปยังจุดตรวจสอบที่บันทึกไว้ซึ่งควรมี pytorch_model.bin และ config.json ควรเพิกเฉยต่อ peft_model

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

หรือประเมินด้วย GPU หลายตัวดังนี้

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

โปรดทราบว่า --seq_len คือการตั้งค่าความยาวลำดับสำหรับการประเมินผล --context_size คือการตั้งค่าความยาวบริบทของโมเดลในระหว่างการปรับแต่ง --seq_len ไม่ควรใหญ่กว่า --context_size
เราได้เพิ่มการตรวจสอบความถูกต้องและการทดสอบการแยกของชุดข้อมูล PG19 และหลักฐานการสำรวจลงใน pg19/validation.bin , pg19/test.bin และ proof-pile/test_sampled_data.bin ด้วย tokenizer ของ llama proof-pile/test_sampled_data.bin มีเอกสาร 128 เอกสารที่สุ่มสุ่มจากการทดสอบการทดสอบการสำรวจทั้งหมด สำหรับแต่ละเอกสารมีโทเค็นอย่างน้อย 32768 นอกจากนี้เรายังปล่อย ID ตัวอย่างใน Proofit-Pile/Test_Sampled_ids.bin คุณสามารถดาวน์โหลดได้จากลิงค์ด้านล่าง

ชุดข้อมูล	แยก	การเชื่อมโยง
PG19	การตรวจสอบความถูกต้อง	pg19/validation.bin
PG19	ทดสอบ	pg19/test.bin
ไพ่	ทดสอบ	Proofit-Pile/Test_Sampled_data.bin

การเรียกคืน passkey

เราให้วิธีการทดสอบความแม่นยำในการดึง Passkey ตัวอย่างเช่น,

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

โปรดทราบว่า context_size เป็นความยาวบริบทในระหว่างการปรับแต่ง
max_tokens มีความยาวสูงสุดสำหรับเอกสารในการประเมินการดึง Passkey
interval คือช่วงเวลาระหว่างความยาวเอกสารที่เพิ่มขึ้น มันเป็นหมายเลขคร่าวๆเนื่องจากเอกสารเพิ่มขึ้นตามประโยค

การสาธิต

การอนุมานในท้องถิ่น

เพื่อแชทกับรุ่น Longalpaca

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

ถามคำถามที่เกี่ยวข้องกับหนังสือ:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

ถามคำถามที่เกี่ยวข้องกับกระดาษ:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

โปรดทราบว่าการอนุมาน.pyสามารถถูกแทนที่ด้วยการอนุมาน-qlora.py หากคุณต้องการลองปรับจูนเชิงปริมาณ 4 บิตเพื่อลดหน่วยความจำ GPU เพิ่มเติม สิ่งนี้ติดตาม Qlora

การสาธิตออนไลน์

เพื่อปรับใช้การสาธิตของคุณเอง

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

ตัวอย่าง

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

โปรดทราบว่า flash_attn=True จะทำให้รุ่นช้า แต่บันทึกหน่วยความจำ GPU มาก

การอนุมานการสตรีม

เราสนับสนุนการอนุมานของรุ่น Longalpaca ด้วยสตรีมมิ่ง สิ่งนี้จะเพิ่มความยาวบริบทของบทสนทนาหลายรอบในสตรีมมิ่ง นี่คือตัวอย่าง

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

โปรดทราบว่าโปรดใช้ _size ที่เล็กกว่านี้หากคุณพบปัญหา oom เช่น 8192
test_filepath เป็นไฟล์ JSON ที่มีพรอมต์สำหรับการอนุมาน เราให้ตัวอย่างไฟล์ outputs_stream.json ซึ่งเป็นชุดย่อยของ longalpaca-12k คุณสามารถแทนที่เป็นคำถามของคุณเอง

การสร้างข้อมูลผ่าน PDF2Text

ในระหว่างการรวบรวมชุดข้อมูลของเราเราแปลงกระดาษและหนังสือจาก PDF เป็นข้อความ คุณภาพการแปลงมีอิทธิพลอย่างมากต่อคุณภาพของโมเดลขั้นสุดท้าย เราคิดว่าขั้นตอนนี้ไม่น่าสนใจ เราปล่อยเครื่องมือสำหรับการแปลง PDF2TXT ในโฟลเดอร์ pdf2txt มันถูกสร้างขึ้นบน pdf2image , easyocr , ditod และ detectron2 โปรดดู readme.md ใน pdf2txt สำหรับรายละเอียดเพิ่มเติม

ตัวอย่าง

การอ้างอิง

หากคุณพบว่าโครงการนี้มีประโยชน์ในการวิจัยของคุณโปรดพิจารณาอ้าง:

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

การรับทราบ

งานนี้สร้างขึ้นบน Llama2 เป็นรุ่นที่ผ่านการฝึกอบรมมาก่อน
งานนี้ยังสามารถสร้างขึ้นบน GPTNEOX-HF ซึ่งขึ้นอยู่กับ Eleutherai/Gptneox เป็นสถาปัตยกรรมรุ่นที่ผ่านการฝึกอบรมมาก่อน
งานนี้ขึ้นอยู่กับ Deepspeed, Peft และ Flash-Attention2 สำหรับการเร่งความเร็ว
รหัสการประเมินบางอย่างได้รับการแก้ไขตามความสนใจของสถานที่สำคัญ
เราใช้ Longchat สำหรับการประเมินผลการดึงข้อมูล
เราติดตามสตรีมมิ่งสำหรับการอนุมานการสตรีม
เรารวม Qlora กับ Longlora สำหรับการปรับแต่งภายใต้การดูแล

ใบอนุญาต

Longlora ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache 2.0 ซึ่งหมายความว่าต้องมีการเก็บรักษาลิขสิทธิ์และใบอนุญาต
ข้อมูลและน้ำหนักอยู่ภายใต้ใบอนุญาต CC-by-NC 4.0 พวกเขาได้รับใบอนุญาตสำหรับการใช้งานวิจัยเท่านั้นและอนุญาตให้ไม่ใช่เชิงพาณิชย์เท่านั้น แบบจำลองที่ผ่านการฝึกอบรมโดยใช้ชุดข้อมูลไม่ควรใช้นอกวัตถุประสงค์ในการวิจัย

ขยาย