gpt_llm
1.0.0
摘自https://github.com/mallorbc/gptneox20b_huggingface。运行GPT Neox 20b和Opt-30b的推断
理想情况下,您有一个或多个GPU,总计为48GB的VRAM或更多。
但是,即使您不这样做,您仍然可以运行该模型,它将需要更长的时间。
例如,如果您运行一个两个GPU,则使用一个3090而不是两个运行大约需要10分钟才能产生100个令牌。
如果您没有足够的VRAM,则需要确保有足够的RAM来弥补它。
如果您想以我的方式下载权重,则需要至少50GB的VRAM,float16或bfloat16重量。如果要使用Bfloat16,则需要确保您的CPU和GPU支持它。
需要一个或多个在70GB VRAM或更多的GPU。与GPT-Neox类似,该模型仍然适合CPU,但使用CPU推断,OptDecoderlayer痛苦地慢慢。
pip3 install -r requirements.txt
python3 main.py # for GPT NeoX 20B
# or alternatively
python3 main_opt.py # for OPT-30B
有两个标志,每个标志都可以看到-h
使用--fp16标志加载并在float16模式下保存权重。
使用--bf16标志在BFLOAT16模式下加载并节省权重。
当您可以更好地使用Bfloat16。
运行时,除非您的GPU/CPU无法处理,否则该模型将始终施放到BFLOAT16上。您可能需要不同的行为。