Llama 2_Huggingface_4Bit_QLoRAダウンロードLlama 2_Huggingface_4Bit

Llama 2_Huggingface_4Bit_QLoRA

AI ソースコード

1.0.0

ダウンロード

メモを更新します

更新されたバージョンは新しいリポジトリにあります

https://github.com/gmongaras/wizard_qlora_finetuning

llama-2_huggingface_4bit_qlora

ハギングフェイスを使用した4ビットQlora Falcon/llama2モデルの実用的な例

Finetuningを開始するには、 main.pyを編集して実行します

Finetuningが完了したら、 ./outputsにチェックポイントが必要です。推論を実行する前に、LORAウェイトと元の重みを組み合わせて、推論中により速い推論とより小さなGPU要件を組み合わせることができます。これを行うには、パスでmerge_weights.pyスクリプトを実行します。

最後に、マージされたモデルを考慮して、 generate.pyを実行することができます。

要件

スクリプトを実行するためのPython要件はcompoiss.txtにあります

また、7Bモデルのファルコンウェイトをこちらのhttps://huggingface.co/tiiuae/falcon-7bをダウンロードし、ファイルを./tiiuae/falcon-7bに配置するか、llama-2 weightsをここにダウンロードするか、 https://huggingface.co/meta-llama/Llama-2-7b-hfとallma-2-7bhf-rma-rama-llama-2-7b ./llama-2 2をダウンロードする必要があります。

複数のGPU

このスクリプトは、4ビットのFinetuningでマルチGPUをサポートしていません。これを行う方法を見つけた場合は、スクリプトを更新します。

GPU要件

ベースモデルには、約6 GBのメモリが必要です。
Finetuningは、アダプターサイズ、バッチサイズ、最大長などに依存します。現在の構成では、メモリ使用量は約8GBです。

問題

トレーニング時に形状エラーがある場合、BitsandBytesおよび/またはPEFTに問題があります。この問題を回避する最良の方法は、それらを完全にアンインストールし、ソースからそれらを再インストールすることです。

 python -m pip uninstall bitsandbytes transformers accelerate peft -y
python -m pip install git+https://github.com/huggingface/transformers.git git+https://github.com/huggingface/peft.git git+https://github.com/huggingface/accelerate.git git+https://github.com/timdettmers/bitsandbytes.git -U

CUDA Setup failed despite GPU being available. Please run the following command to get more information 。そうすれば、ソースからビットアンドバイトを構築し、https： https://github.com/oobabooga/text-generation-webui/issues/147

拡大する

追加情報