تنزيل felafax - تنزيل رمز المصدر felafax

felafax

شفرة المصدر الأخرى

1.0.0

تنزيل

Felafax - Tune Llama3.1 على Google Cloud TPUs بتكلفة أقل بنسبة 30 ٪ ومقياسها بسلاسة!

Felafax هو إطار للتدريب المستمر وضبط LLMs Open Source باستخدام وقت تشغيل XLA . نحن نعتني بإعداد وقت التشغيل اللازم ونوفر دفتر Jupyter Out-of-Ofbox للبدء للتو.

سهل الاستخدام.
من السهل تكوين جميع جوانب التدريب (المصممة للباحثين والمتسللين ML).
من السهل توسيع نطاق التدريب من TPU VM واحد مع 8 نوى إلى جراب TPU بالكامل يحتوي على 6000 TPU النوى ( 1000X )!

هدفنا في Felafax هو بناء Infra لتسهيل تشغيل أعباء عمل AI على الأجهزة غير Nvidia (TPU ، Tradium AWS ، AMD GPUs ، و Intel GPUS).

Finetune مجانًا

أضف مجموعة البيانات الخاصة بك ، انقر فوق "Run All" ، وسوف تعمل على مورد TPU مجاني على Google Colab!

Felafax يدعم	أجهزة الكمبيوتر المحمولة المجانية
لاما 3.1 (1 ب ، 3 ب)	▶ ابدأ مجانًا على Google Colab TPU

النماذج المدعومة حاليا

LLAMA-3.1 تنفيذ JAX $$ { color {red} new!} $$
- تم تحويله من Pytorch إلى Jax لتحسين الأداء
- الدعم الكامل ودقة التدريب Lora لـ 1b ، 3b ، 8b ، 70b ، 405b .
- قم بالتشغيل بكفاءة عبر أجهزة متنوعة (TPUS ، AWS Treerium ، NVIDIA ، AMD) من خلال XLA Backend المحسنة للأجهزة JAX
- قم بتوسيع نطاق سلس للتعامل مع أطوال السياق ومجموعات البيانات الأكبر عن طريق التقويم عبر مسرعات متعددة
Llama-3/3.1 Pytorch XLA
- لورا ودعم التدريب الكامل الدقة
- CodePointer

يعمل على صقل جيد عبر Felafax Cli $$ { color {red} new!} $$

ابدأ في صياغة النماذج الخاصة بك باستخدام Felafax CLI في بعض الخطوات البسيطة.

الخطوة 1. قم بتثبيت CLI والمصادقة

ابدأ بتثبيت CLI.

pip install pipx
pipx install felafax-cli

ثم ، قم بتوليد رمز مصادقة:

تفضل بزيارة Felafax.ai وإنشاء/تسجيل الدخول إلى حسابك.
انتقل إلى صفحة الرموز وإنشاء رمز جديد.

أخيرًا ، قم بإصدار جلسة CLI الخاصة بك باستخدام الرمز المميز الخاص بك:

felafax-cli auth login --token < your_token >

الخطوة 2. قم بإعداد التكوين الدقيق

أولاً ، قم بإنشاء ملف تكوين افتراضي للضبط. يقوم هذا الأمر بإنشاء ملف config.yml في الدليل الحالي مع قيم الفائقة الافتراضية.

felafax-cli tune init-config

ثانياً ، قم بتحديث ملف التكوين باستخدام مقاييس HyperParameters الخاصة بك:

مقابض Huggingface:
- وفر رمز Huggingface الخاص بك معرف المستودع لتحميل النموذج الذي تم ضبطه.
خط أنابيب مجموعة البيانات والمعاملات التدريبية:
- اضبط batch_size ، max_seq_length لاستخدامها في مجموعة بيانات الضبط.
- قم بتعيين num_steps على null إذا كنت تريد أن تعمل Trainig عبر مجموعة بيانات كاملة. إذا تم تعيين Num_steps على رقم ، فسيتوقف التدريب بعد عدد الخطوات المحددة.
- اضبط learning_rate و lora_rank لاستخدامه في الضبط.
- eval_interval هو عدد الخطوات بين التقييمات.

الخطوة 3. ابدأ تشغيل النقل

قم بتشغيل الأمر المتابعة للاطلاع على قائمة النماذج الأساسية التي يمكنك ضبطها ، فنحن ندعم جميع المتغيرات Llama-3.1 حتى الآن.

felafax-cli tune start --help

الآن ، يمكنك بدء عملية الضبط باستخدام نموذجك المحدد من القائمة أعلاه واسم مجموعة البيانات من HuggingFace (مثل yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

مثال على الأمر لتبدأ:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

بعد أن تبدأ مهمة التثبيت ، تهتم Felafax Cli بدور TPU ، وتشغيل التدريب ، ويقوم بتحميل النموذج المضبوط إلى مركز Huggingface.

أوامر أخرى مفيدة

مراقبة وظيفة الضبط

يمكنك دفق سجلات الوقت الفعلي لمراقبة تقدم وظيفتك في التكييف:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

اذكر نماذجك الدقيقة

بعد اكتمال الضبط ، يمكنك سرد جميع النماذج التي تم ضبطها بشكل جيد:

felafax-cli model list

الدردشة مع طرازك المعروف (يعمل على TPU مرة أخرى!):

يمكنك بدء جلسة طرفية تفاعلية للدردشة مع طرازك المعروف:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

استخدام مساعدة لاستكشاف المزيد من الأوامر!

تم تقسيم CLI إلى ثلاث مجموعات أوامر رئيسية:

tune : لبدء/التوقف عن وظائف صقلها.
model : لإدارة النماذج الدقيقة والتفاعل معها.
files : لتحميل/عرض ملفاتك.

استخدم علامة --help لاكتشاف المزيد عن أي مجموعة أوامر:

felafax-cli tune --help

AMD 405B تشغيل النفقات الدقيقة

لقد صرفنا مؤخرًا طراز LLAMA3.1 405B على وحدات معالجة الرسومات 8XAMD MI300X باستخدام JAX بدلاً من Pytorch. سمحت لنا واجهات برمجة تطبيقات Jax المتقدمة لتحقيق أداء رائع. تحقق من منشور المدونة الخاص بنا للتعرف على الإعداد والحيل التي استخدمناها.

لقد فعلنا صياغة Lora مع جميع الأوزان النموذجية ومعلمات Lora في دقة BFLOAT16 ، ومع رتبة Lora 8 و Lora Alpha من 16:

حجم النموذج: تحتل الأوزان الطراز Llama حوالي 800 جيجابايت من VRAM.
أوزان Lora + حالة تحسين: حوالي 400 جيجابايت من VRAM.
إجمالي استخدام VRAM: 77 ٪ من إجمالي VRAM ، حوالي 1200 جيجابايت.
القيود: نظرًا للحجم الكبير لطراز 405B ، كان هناك مساحة محدودة لحجم الدُفعة وطول التسلسل. كان حجم الدُفعة المستخدمة 16 وطول التسلسل 64.
سرعة التدريب: ~ 35 رمز/ثانية
كفاءة الذاكرة: باستمرار حوالي 70 ٪
التحجيم: مع Jax ، كان القياس خطًا شبه خطي عبر 8 وحدات معالجة الرسومات.

يمكن العثور على استخدامات استخدام GPU ورسوم استخدام VRAM أدناه. ومع ذلك ، ما زلنا بحاجة إلى حساب استخدام النموذج التقليدي (MFU). ملاحظة: لم نتمكن من تشغيل النسخة المبللة من طراز 405B بسبب قيود البنية التحتية و VRAM (نحتاج إلى التحقيق في هذا الأمر بشكل أكبر). تم تنفيذ تشغيل التدريب بأكمله في وضع Jax Ceager ، لذلك هناك إمكانات كبيرة لتحسين الأداء.