เวอร์ชันที่อัปเดตสามารถพบได้ใน repo ใหม่
https://github.com/gmongaras/wizard_qlora_finetuning
ตัวอย่างการทำงานของโมเดล 4 บิต Qlora Falcon/Llama2 โดยใช้ HuggingFace
หากต้องการเริ่มต้น finetuning แก้ไขและเรียกใช้ main.py
เมื่อ Finetuning เสร็จสมบูรณ์คุณควรมีจุดตรวจใน ./outputs OUTPUTS ก่อนที่จะใช้การอนุมานเราสามารถรวมน้ำหนัก LORA เข้ากับน้ำหนักดั้งเดิมเพื่อการอนุมานที่เร็วขึ้นและข้อกำหนด GPU ที่เล็กลงในระหว่างการอนุมาน ในการทำเช่นนี้ให้เรียกใช้สคริปต์ merge_weights.py ด้วยเส้นทางของคุณ
ในที่สุดคุณสามารถเรียกใช้ generate.py ตัวอย่างการสร้างที่ได้รับโมเดลที่ผสาน
ข้อกำหนดของ Python ในการเรียกใช้สคริปต์นั้นอยู่ใน chendion.txt
คุณควรดาวน์โหลดน้ำหนักเหยี่ยวของรุ่น 7B ที่นี่ https://huggingface.co/tiiuae/falcon-7b และใส่ไฟล์ลงในไดเรกทอรี ./tiiuae/falcon-7b https://huggingface.co/meta-llama/Llama-2-7b-hf ./llama-2 7b หรือดาวน์โหลดน้ำหนัก llama-2-2- 2
สคริปต์นี้ไม่รองรับ Multi-GPUs ในการ finetuning 4 บิต หากฉันหาวิธีทำสิ่งนี้ฉันจะอัปเดตสคริปต์
python -m pip uninstall bitsandbytes transformers accelerate peft -y
python -m pip install git+https://github.com/huggingface/transformers.git git+https://github.com/huggingface/peft.git git+https://github.com/huggingface/accelerate.git git+https://github.com/timdettmers/bitsandbytes.git -U
CUDA Setup failed despite GPU being available. Please run the following command to get more information จากนั้นคุณต้องสร้าง bitsandbytes จากแหล่งที่มาและใส่ไว้ในบิตและไบต์ไซต์แพคเกจโดยติดตาม https://github.com/oobabooga/text-generation-webui/issues/147