أفروديت هو محرك الواجهة الخلفية الرسمية لـ Pygmalionai. إنه مصمم ليكون بمثابة نقطة نهاية الاستدلال لموقع Pygmalionai ، وللسماح بتقديم نماذج متوافقة مع المعانقة مع عدد كبير من المستخدمين بسرعات سريعة النيران (بفضل انتباه VLLM المغطى).
يعتمد Aphrodite على العمل الاستثنائي من مختلف المشاريع.
يتم توفير الحساب اللازم لتطوير Aphrodite بواسطة ARC Compute.
(09/2024) V0.6.1 هنا. يمكنك الآن تحميل نماذج FP16 في تنسيقات كمية FP2 إلى FP7 ، لتحقيق إنتاجية عالية للغاية وحفظ على الذاكرة.
(09/2024) يتم إصدار V0.6.0 ، مع تحسينات ضخمة الإنتاجية ، والعديد من التنسيقات الكمية الجديدة (بما في ذلك FP8 و LLM-COSSICOR) ، الموتر غير المتماثل الموازي ، خط الأنابيب الموازي وأكثر! يرجى مراجعة الوثائق الشاملة لأدلة المستخدم والمطور.
تثبيت المحرك:
pip install -U aphrodite-engineثم إطلاق نموذج:
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instructسيؤدي ذلك إلى إنشاء خادم API متوافق مع OpenAI يمكن الوصول إليه في المنفذ 2242 من المضيف المحلي. يمكنك توصيل واجهة برمجة التطبيقات في واجهة المستخدم التي تدعم Openai ، مثل SillyTavern.
يرجى الرجوع إلى وثائق القائمة الكاملة للوسائط والأعلام التي يمكنك نقلها إلى المحرك.
يمكنك اللعب مع المحرك في العرض التوضيحي هنا:
بالإضافة إلى ذلك ، نحن نقدم صورة Docker لسهولة النشر. إليك أمر أساسي لتبدأ:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "سيؤدي ذلك إلى سحب صورة محرك Aphrodite (~ 8gib تنزيل) ، وإطلاق المحرك مع طراز Llama-3.1-8b-instruct في المنفذ 2242.
بالنسبة لمستخدمي Windows ، يوصى باستخدام TabByapi بدلاً من ذلك ، إذا لم تكن بحاجة إلى دعم تجديد.
للأجهزة المدعومة ، انظر هنا. بشكل عام ، يتم دعم جميع وحدات معالجة الرسومات شبه الحديثة - وصولاً إلى Pascal (GTX 10xx ، p40 ، وما إلى ذلك) ، كما ندعم AMD GPUs و Intel CPU و GPU و Google TPU و AWS inforentia.
حسب التصميم ، يأخذ Aphrodite 90 ٪ من VRAM في GPU. إذا كنت لا تقدم LLM على نطاق واسع ، فقد ترغب في الحد من مقدار الذاكرة التي تتناولها. يمكنك القيام بذلك في مثال API عن طريق إطلاق الخادم باستخدام- --gpu-memory-utilization 0.6 (0.6 يعني 60 ٪).
يمكنك عرض القائمة الكاملة للأوامر عن طريق تشغيل aphrodite run --help .
لم يكن محرك أفروديت ممكنًا بدون العمل الهائل للمشاريع الأخرى مفتوحة المصدر. الاعتمادات تذهب إلى:
الجميع مرحب بهم للمساهمة. يمكنك دعم المشروع عن طريق فتح طلبات السحب للحصول على ميزات أو إصلاحات جديدة أو تحسينات عامة UX.