Aphrodite adalah mesin backend resmi untuk Pygmalionai. Ini dirancang untuk berfungsi sebagai titik akhir inferensi untuk situs web Pygmalionai, dan untuk memungkinkan melayani model yang kompatibel dengan wajah memeluk sejumlah besar pengguna dengan kecepatan cepat yang menyala (berkat perhatian Paged VLLM).
Aphrodite dibangun dan mengintegrasikan pekerjaan luar biasa dari berbagai proyek.
Hitung yang diperlukan untuk pengembangan Aphrodite disediakan oleh ARC Compute.
(09/2024) V0.6.1 ada di sini. Anda sekarang dapat memuat model FP16 dalam format FP2 ke FP7, untuk mencapai throughput yang sangat tinggi dan menghemat memori.
(09/2024) V0.6.0 dirilis, dengan peningkatan throughput yang sangat besar, banyak format kuant baru (termasuk FP8 dan LLM-Compressor), paralel tensor asimetris, paralel pipa dan banyak lagi! Silakan periksa dokumentasi lengkap untuk pemandu pengguna dan pengembang.
Pasang mesin:
pip install -U aphrodite-engineKemudian luncurkan model:
aphrodite run meta-llama/Meta-Llama-3.1-8B-InstructIni akan membuat server API yang kompatibel dengan openai yang dapat diakses di port 2242 dari LocalHost. Anda dapat mencolokkan API ke UI yang mendukung Openai, seperti Sillytavern.
Silakan merujuk ke dokumentasi untuk daftar lengkap argumen dan bendera yang dapat Anda lewati ke mesin.
Anda dapat bermain -main dengan mesin di demo di sini:
Selain itu, kami menyediakan gambar Docker untuk penempatan yang mudah. Berikut perintah dasar untuk memulai:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "Ini akan menarik gambar engine Aphrodite (~ 8Gib unduh), dan meluncurkan mesin dengan model LLAMA-3.1-8B-instruct di Port 2242.
Untuk pengguna Windows, disarankan untuk menggunakan Tabbyapi sebagai gantinya, jika Anda tidak memerlukan dukungan batching.
Untuk perangkat yang didukung, lihat di sini. Secara umum, semua GPU semi -modern didukung - turun ke Pascal (GTX 10XX, P40, dll.) Kami juga mendukung AMD GPU, Intel CPU dan GPU, Google TPU, dan AWS Inferentia.
Dengan desain, Aphrodite mengambil 90% dari VRAM GPU Anda. Jika Anda tidak melayani LLM pada skala, Anda mungkin ingin membatasi jumlah memori yang dibutuhkan. Anda dapat melakukan ini dalam contoh API dengan meluncurkan server dengan --gpu-memory-utilization 0.6 (0,6 berarti 60%).
Anda dapat melihat daftar lengkap perintah dengan menjalankan aphrodite run --help .
Mesin Aphrodite tidak akan mungkin terjadi tanpa pekerjaan fenomenal dari proyek open-source lainnya. Kredit pergi ke:
Setiap orang dipersilakan untuk berkontribusi. Anda dapat mendukung proyek dengan membuka permintaan tarik untuk fitur baru, perbaikan, atau perbaikan UX umum.