Une version mise à jour peut être trouvée dans un nouveau repo
https://github.com/gmongaras/wizard_qlora_finetuning
Un exemple de travail d'un modèle Qlora Falcon / Llama2 à 4 bits utilisant HuggingFace
Pour démarrer Finetuning, modifier et exécuter main.py
Une fois la finetuning terminée, vous devez avoir des points de contrôle dans ./outputs . Avant d'exécuter l'inférence, nous pouvons combiner les poids LORA avec les poids d'origine pour une inférence plus rapide et des exigences de GPU plus petites pendant l'inférence. Pour ce faire, exécutez le script merge_weights.py avec vos chemins.
Enfin, vous pouvez exécuter generate.py par exemple génération compte tenu du modèle fusionné.
Les exigences Python pour exécuter le script sont situées dans les exigences.txt
Vous devriez ./llama-2 télécharger les poids Falcon du ./tiiuae/falcon-7b https://huggingface.co/meta-llama/Llama-2-7b-hf ici https://huggingface.co/tiiuae/falcon-7b
Ce script ne prend pas en charge le multi-GPU sur les finetuning 4 bits. Si je trouve un moyen de le faire, je mettrai à jour le script.
python -m pip uninstall bitsandbytes transformers accelerate peft -y
python -m pip install git+https://github.com/huggingface/transformers.git git+https://github.com/huggingface/peft.git git+https://github.com/huggingface/accelerate.git git+https://github.com/timdettmers/bitsandbytes.git -U
CUDA Setup failed despite GPU being available. Please run the following command to get more information Veuillez exécuter la commande suivante pour https://github.com/oobabooga/text-generation-webui/issues/147 CUDA Setup failed despite GPU being available. Please run the following command to get more information , puis vous devez construire des bitsandbytes à partir de la source et les mettre dans vos bits et octets.