gpt_llm
1.0.0
摘自https://github.com/mallorbc/gptneox20b_huggingface。運行GPT Neox 20b和Opt-30b的推斷
理想情況下,您有一個或多個GPU,總計為48GB的VRAM或更多。
但是,即使您不這樣做,您仍然可以運行該模型,它將需要更長的時間。
例如,如果您運行一個兩個GPU,則使用一個3090而不是兩個運行大約需要10分鐘才能產生100個令牌。
如果您沒有足夠的VRAM,則需要確保有足夠的RAM來彌補它。
如果您想以我的方式下載權重,則需要至少50GB的VRAM,float16或bfloat16重量。如果要使用Bfloat16,則需要確保您的CPU和GPU支持它。
需要一個或多個在70GB VRAM或更多的GPU。與GPT-Neox類似,該模型仍然適合CPU,但使用CPU推斷,OptDecoderlayer痛苦地慢慢。
pip3 install -r requirements.txt
python3 main.py # for GPT NeoX 20B
# or alternatively
python3 main_opt.py # for OPT-30B
有兩個標誌,每個標誌都可以看到-h
使用--fp16標誌加載並在float16模式下保存權重。
使用--bf16標誌在BFLOAT16模式下加載並節省權重。
當您可以更好地使用Bfloat16。
運行時,除非您的GPU/CPU無法處理,否則該模型將始終施放到BFLOAT16上。您可能需要不同的行為。