Forked dari https://github.com/mallorbc/gptneox20b_huggingface. Menjalankan inferensi untuk GPT NEOX 20B dan OPT-30B
Idealnya Anda memiliki satu atau lebih GPU yang total 48GB VRAM atau lebih.
Namun, bahkan jika Anda tidak dapat menjalankan model itu hanya akan memakan waktu lebih lama.
Misalnya, berjalan dengan satu 3090 daripada dua akan memakan waktu sekitar 10 menit untuk menghasilkan 100 token vs 10-30 detik jika Anda menjalankannya satu dua GPU.
Jika Anda tidak memiliki cukup VRAM, Anda perlu memastikan Anda memiliki cukup RAM untuk menebusnya.
Jika Anda ingin mengunduh bobot seperti yang saya lakukan, Anda membutuhkan sekitar setidaknya 50GB VRAM untuk bobot float16 atau bfloat16. Jika Anda ingin menggunakan bfloat16, Anda harus memastikan CPU dan GPU Anda mendukungnya.
Membutuhkan satu atau lebih GPU yang total dalam 70GB VRAM atau lebih. Mirip dengan GPT-NEOX, model ini masih akan sesuai dengan CPU tetapi optDecoderlayer sangat lambat menggunakan inferensi CPU.
pip3 install -r requirements.txt
python3 main.py # for GPT NeoX 20B
# or alternatively
python3 main_opt.py # for OPT-30B
Ada dua bendera, masing -masing dapat dilihat dengan -h
Gunakan flag --fp16 untuk memuat dan menyimpan bobot dalam mode float16.
Gunakan bendera --bf16 untuk memuat dan menyimpan bobot dalam mode bfloat16.
Gunakan bfloat16 saat Anda bisa lebih baik.
Saat berjalan, model akan selalu dilemparkan ke bfloat16 kecuali GPU/CPU Anda tidak dapat menanganinya. Anda mungkin menginginkan perilaku yang berbeda.