Versi yang diperbarui dapat ditemukan dalam repo baru
https://github.com/gmongaras/wizard_qlora_finetuning
Contoh kerja model 4bit Qlora Falcon/Llama2 menggunakan Huggingface
Untuk memulai finetuning, edit dan jalankan main.py
Setelah finetuning selesai, Anda harus memiliki pos pemeriksaan di ./outputs . Sebelum menjalankan inferensi, kita dapat menggabungkan bobot LORA dengan bobot asli untuk inferensi yang lebih cepat dan persyaratan GPU yang lebih kecil selama inferensi. Untuk melakukan ini, jalankan skrip merge_weights.py dengan jalur Anda.
Akhirnya, Anda dapat menjalankan generate.py misalnya generasi mengingat model gabungan.
Persyaratan Python untuk menjalankan skrip terletak di persyaratan.txt
Anda juga harus mengunduh bobot Falcon dari model https://huggingface.co/meta-llama/Llama-2-7b-hf di sini https://huggingface.co/tiiuae/falcon-7b dan menempatkan file-file tersebut di ./llama-2 ./tiiuae/falcon-7b
Skrip ini tidak mendukung multi-GPU pada finetuning 4-bit. Jika saya menemukan cara untuk melakukan ini, saya akan memperbarui skrip.
python -m pip uninstall bitsandbytes transformers accelerate peft -y
python -m pip install git+https://github.com/huggingface/transformers.git git+https://github.com/huggingface/peft.git git+https://github.com/huggingface/accelerate.git git+https://github.com/timdettmers/bitsandbytes.git -U
CUDA Setup failed despite GPU being available. Please run the following command to get more information , maka Anda perlu membangun bitsandbytes dari sumber dan memasukkannya ke dalam bit dan byte-byte dengan mengikuti https://github.com/oobabooga/text-generation-webui/issues/147