Aphrodite เป็นเครื่องมือแบ็กเอนด์อย่างเป็นทางการสำหรับ Pygmalionai มันถูกออกแบบมาเพื่อทำหน้าที่เป็นจุดสิ้นสุดการอนุมานสำหรับเว็บไซต์ Pygmalionai และเพื่อให้บริการแบบจำลองที่เข้ากันได้กับผู้ใช้จำนวนมากด้วยการกอดผู้ใช้จำนวนมากด้วยความเร็วที่รวดเร็ว (ขอบคุณความสนใจของ VLLM)
Aphrodite สร้างและรวมงานพิเศษจากโครงการต่าง ๆ
การคำนวณที่จำเป็นสำหรับการพัฒนาของ Aphrodite นั้นจัดทำโดย ARC Compute
(09/2024) v0.6.1 อยู่ที่นี่ ตอนนี้คุณสามารถโหลดรุ่น FP16 ในรูปแบบ FP2 ถึง FP7 Quant เพื่อให้ได้ปริมาณงานที่สูงมากและบันทึกในหน่วยความจำ
(09/2024) V0.6.0 ถูกปล่อยออกมาพร้อมกับการปรับปรุงปริมาณงานขนาดใหญ่รูปแบบปริมาณใหม่จำนวนมาก (รวมถึง FP8 และ LLM-compressor), เทนเซอร์แบบอสมมาตรขนานขนานและอีกมากมาย! โปรดตรวจสอบเอกสารที่ครบถ้วนสมบูรณ์สำหรับคู่มือผู้ใช้และผู้พัฒนา
ติดตั้งเครื่องยนต์:
pip install -U aphrodite-engineจากนั้นเปิดตัวรุ่น:
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instructสิ่งนี้จะสร้างเซิร์ฟเวอร์ API ที่เข้ากันได้กับ OpenAI ที่สามารถเข้าถึงได้ที่พอร์ต 2242 ของ LocalHost คุณสามารถเสียบ API เข้ากับ UI ที่รองรับ openai เช่น sillytaver
โปรดดูเอกสารประกอบสำหรับรายการอาร์กิวเมนต์และธงทั้งหมดที่คุณสามารถส่งผ่านไปยังเครื่องยนต์
คุณสามารถเล่นกับเครื่องยนต์ในการสาธิตได้ที่นี่:
นอกจากนี้เรายังให้ภาพนักเทียบท่าเพื่อการปรับใช้ที่ง่าย นี่คือคำสั่งพื้นฐานที่จะเริ่มต้น:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "สิ่งนี้จะดึงอิมเมจเอ็นจิ้น Aphrodite (~ 8GIB ดาวน์โหลด) และเปิดเครื่องยนต์ด้วยรุ่น LLAMA-3.1-8B-Instruct ที่พอร์ต 2242
สำหรับผู้ใช้ Windows ขอแนะนำให้ใช้ Tabbyapi แทนหากคุณไม่ต้องการการสนับสนุนแบบแบทช์
สำหรับอุปกรณ์ที่รองรับดูที่นี่ โดยทั่วไปแล้ว GPU แบบกึ่งสมัยใหม่ทั้งหมดได้รับการสนับสนุน - ลงไปที่ Pascal (GTX 10xx, P40 ฯลฯ ) เรายังสนับสนุน AMD GPUs, Intel CPU และ GPUs, Google TPU และ AWS Inferentia
โดยการออกแบบ Aphrodite ใช้เวลา 90% ของ VRAM ของ GPU ของคุณ หากคุณไม่ได้ให้บริการ LLM ในระดับคุณอาจต้องการ จำกัด จำนวนหน่วยความจำที่ใช้ คุณสามารถทำได้ในตัวอย่าง API โดยการเปิดใช้งานเซิร์ฟเวอร์ด้วย --gpu-memory-utilization 0.6 (0.6 หมายถึง 60%)
คุณสามารถดูรายการคำสั่งทั้งหมดได้โดยเรียกใช้ aphrodite run --help
เครื่องยนต์ Aphrodite จะเป็นไปไม่ได้หากไม่มีงานที่ยอดเยี่ยมของโครงการโอเพนซอร์ซอื่น ๆ เครดิตไปที่:
ทุกคนยินดีที่จะมีส่วนร่วม คุณสามารถรองรับโครงการได้โดยเปิดคำขอดึงสำหรับคุณสมบัติใหม่การแก้ไขหรือการปรับปรุง UX ทั่วไป