Eine aktualisierte Version finden Sie in einem neuen Repo
https://github.com/gmalonas/wizard_qlora_finetuning
Ein funktionierendes Beispiel für ein 4 -Bit -Qlora Falcon/Lama2 -Modell mit Huggingface
Fülle, bearbeiten und rennen Sie main.py aus
Sobald die Finetuning abgeschlossen ist, sollten Sie Kontrollpunkte in ./outputs haben. Bevor wir inferenz laufen, können wir die Lora -Gewichte mit den ursprünglichen Gewichten für schnellere Inferenz und kleinere GPU -Anforderungen während der Inferenz kombinieren. Führen Sie dazu das Skript merge_weights.py mit Ihren Pfaden aus.
Schließlich können Sie generate.py zum Beispiel erzeugen, beispielsweise das fusionierte Modell.
Die Python -Anforderungen an die Ausführung des Skripts befinden sich in Anforderungen.txt
Sie sollten auch die Falcon-Gewichte des 7B-Modells hier herunterladen https://huggingface.co/tiiuae/falcon-7b und die Dateien in https://huggingface.co/meta-llama/Llama-2-7b-hf Verzeichnis ./tiiuae/falcon-7b ./llama-2
Dieses Skript unterstützt Multi-GPUs bei 4-Bit-Finetuning nicht. Wenn ich einen Weg finde, dies zu tun, werde ich das Skript aktualisieren.
python -m pip uninstall bitsandbytes transformers accelerate peft -y
python -m pip install git+https://github.com/huggingface/transformers.git git+https://github.com/huggingface/peft.git git+https://github.com/huggingface/accelerate.git git+https://github.com/timdettmers/bitsandbytes.git -U
CUDA Setup failed despite GPU being available. Please run the following command to get more information , und Sie müssen BitsandBytes aus der Quelle erstellen und in Ihre Bits and Bytes-Site-Package einfügen, indem Sie https://github.com/oobabooga/text-generation-webui/issues/147 verfolgen