Llama 2_Huggingface_4Bit_QLoRA DOWNLOAD - Llama 2_Huggingface_4Bit

Llama 2_Huggingface_4Bit_QLoRA

AI-Quellcode

1.0.0

Herunterladen

Aktualisieren Sie Hinweis

Eine aktualisierte Version finden Sie in einem neuen Repo

https://github.com/gmalonas/wizard_qlora_finetuning

Llama-2_huggingface_4bit_qlora

Ein funktionierendes Beispiel für ein 4 -Bit -Qlora Falcon/Lama2 -Modell mit Huggingface

Fülle, bearbeiten und rennen Sie main.py aus

Sobald die Finetuning abgeschlossen ist, sollten Sie Kontrollpunkte in ./outputs haben. Bevor wir inferenz laufen, können wir die Lora -Gewichte mit den ursprünglichen Gewichten für schnellere Inferenz und kleinere GPU -Anforderungen während der Inferenz kombinieren. Führen Sie dazu das Skript merge_weights.py mit Ihren Pfaden aus.

Schließlich können Sie generate.py zum Beispiel erzeugen, beispielsweise das fusionierte Modell.

Anforderungen

Die Python -Anforderungen an die Ausführung des Skripts befinden sich in Anforderungen.txt

Sie sollten auch die Falcon-Gewichte des 7B-Modells hier herunterladen https://huggingface.co/tiiuae/falcon-7b und die Dateien in https://huggingface.co/meta-llama/Llama-2-7b-hf Verzeichnis ./tiiuae/falcon-7b ./llama-2

Multiple GPUs

Dieses Skript unterstützt Multi-GPUs bei 4-Bit-Finetuning nicht. Wenn ich einen Weg finde, dies zu tun, werde ich das Skript aktualisieren.

GPU -Anforderungen

Das Basismodell dauert ungefähr 6 GB Speicher.
Die Finetuning hängt von der Adaptergröße, der Chargengröße, der Maximallänge usw. ab. In der aktuellen Konfiguration beträgt die Speicherverwendung etwa 8 GB.

Probleme

Wenn beim Training ein Formfehler vorliegt, haben BitsandBytes und/oder PEFT Probleme. Der beste Weg, um dieses Problem zu umgehen, besteht darin, sie vollständig zu deinstallieren und aus der Quelle neu zu installieren:

 python -m pip uninstall bitsandbytes transformers accelerate peft -y
python -m pip install git+https://github.com/huggingface/transformers.git git+https://github.com/huggingface/peft.git git+https://github.com/huggingface/accelerate.git git+https://github.com/timdettmers/bitsandbytes.git -U

Wenn Sie den Fehler CUDA Setup failed despite GPU being available. Please run the following command to get more information , und Sie müssen BitsandBytes aus der Quelle erstellen und in Ihre Bits and Bytes-Site-Package einfügen, indem Sie https://github.com/oobabooga/text-generation-webui/issues/147 verfolgen

Expandieren

Zusätzliche Informationen