gpt_llm
1.0.0
https://github.com/mallorbc/gptneox20b_huggingfaceからフォーク。 GPT Neox 20BおよびOPT-30Bの推論を実行します
理想的には、合計48GB以上のGPUが1つ以上あります。
ただし、モデルを実行できなくても、さらに時間がかかります。
たとえば、1つではなく1つの3090で実行すると、1つの2つのGPUを実行した場合、10〜30秒を生成するのに約10分かかります。
十分なVRAMがない場合は、それを補うのに十分なRAMがあることを確認する必要があります。
私のようにウェイトをダウンロードしたい場合は、Float16またはBFLoAT16の重みには、約50GBのVRAMが必要です。 BFLOAT16を使用する場合は、CPUとGPUがサポートしていることを確認する必要があります。
70GB以上のVRAM以上の合計1つ以上のGPUが必要です。 GPT-Neoxと同様に、モデルはCPUにまだ適合しますが、OptDeCoderLayerはCPU推論を使用して痛々しいほど遅くなります。
pip3 install -r requirements.txt
python3 main.py # for GPT NeoX 20B
# or alternatively
python3 main_opt.py # for OPT-30B
2つのフラグがあり、それぞれが-hで見ることができます
--fp16フラグを使用して、float16モードのウェイトをロードして保存します。
--bf16フラグを使用して、BFLOAT16モードの重みをロードおよび保存します。
BFLOAT16を使用することができれば、その方が良い場合は使用します。
実行中は、GPU/CPUが処理できない限り、モデルは常にBFLOAT16にキャストされます。あなたは別の行動を望むかもしれません。