gpt_llmダウンロードgpt_llmソースコードダウンロード

ダウンロード

GPT NEOX 20B＆OPT-30B

https://github.com/mallorbc/gptneox20b_huggingfaceからフォーク。 GPT Neox 20BおよびOPT-30Bの推論を実行します

理想的には、合計48GB以上のGPUが1つ以上あります。

ただし、モデルを実行できなくても、さらに時間がかかります。

たとえば、1つではなく1つの3090で実行すると、1つの2つのGPUを実行した場合、10〜30秒を生成するのに約10分かかります。

十分なVRAMがない場合は、それを補うのに十分なRAMがあることを確認する必要があります。

私のようにウェイトをダウンロードしたい場合は、Float16またはBFLoAT16の重みには、約50GBのVRAMが必要です。 BFLOAT16を使用する場合は、CPUとGPUがサポートしていることを確認する必要があります。

70GB以上のVRAM以上の合計1つ以上のGPUが必要です。 GPT-Neoxと同様に、モデルはCPUにまだ適合しますが、OptDeCoderLayerはCPU推論を使用して痛々しいほど遅くなります。

pip3 install -r requirements.txt

 python3 main.py # for GPT NeoX 20B
# or alternatively
python3 main_opt.py # for OPT-30B

2つのフラグがあり、それぞれが-hで見ることができます

--fp16フラグを使用して、float16モードのウェイトをロードして保存します。

--bf16フラグを使用して、BFLOAT16モードの重みをロードおよび保存します。

BFLOAT16を使用することができれば、その方が良い場合は使用します。

実行中は、GPU/CPUが処理できない限り、モデルは常にBFLOAT16にキャストされます。あなたは別の行動を望むかもしれません。

拡大する

追加情報