ml engineering Download - ml engineering Source Code Download

ml engineering

شفرة المصدر الأخرى

1.0.0

تنزيل

كتاب هندسة التعلم الآلي المفتوح

هذه مجموعة مفتوحة من المنهجيات والأدوات والتعليمات خطوة بخطوة للمساعدة في التدريب الناجح لنماذج اللغة الكبيرة والنماذج متعددة الوسائط واستدلالها.

هذه مادة تقنية مناسبة لمهندسي ومشغلي التدريب LLM/VLM. هذا هو المحتوى هنا يحتوي على الكثير من البرامج النصية وأوامر Copy-N-Paste لتمكينك من تلبية احتياجاتك بسرعة.

هذا الريبو هو تفريغ في المخ المستمر لتجاربي تدريب نماذج اللغة الكبيرة (LLM) (و VLMS) ؛ الكثير من الدراية التي اكتسبتها أثناء تدريب نموذج Bloom-176B مفتوح المصدر في عام 2022 ونموذج IDEFICS-80B متعدد الوسائط في عام 2023 ، ونماذج RAG في Contextual.ai في عام 2024.

لقد قمت بتجميع هذه المعلومات في الغالب بنفسي حتى أتمكن من العثور بسرعة على حلول قمت بها بالفعل في الماضي والتي نجحت ، لكن كالعادة يسعدني مشاركة هذه الملاحظات مع مجتمع ML الأوسع.

جدول المحتويات

الجزء 1. رؤى

هندسة ساحة المعركة الذكاء - ما تحتاج إلى معرفته من أجل النجاح

الجزء 2. الأجهزة

حساب - مسرعات ، وحدات المعالجة المركزية ، ذاكرة وحدة المعالجة المركزية.
التخزين - أنظمة الملفات المحلية والموزعة والمشتركة.
الشبكة- الشبكات داخل العقد وبين العقد.

الجزء 3. التزامن

Slurm - بيئة التزامن الرئيسية

الجزء 4. التدريب

التدريب - أدلة متعلقة بالتدريب النموذجية

الجزء 5. الاستدلال

الاستدلال - رؤى الاستدلال النموذج

الجزء 6. التنمية

تصحيح الأخطاء واستكشاف الأخطاء وإصلاحها - كيفية تصحيح القضايا السهلة والصعبة
والمزيد من التصحيح
الاختبار - العديد من النصائح والأدوات لجعل كتابة الاختبار ممتعة

الجزء 7. متنوعة

الموارد - سجلات LLM/VLM

التحديثات

أعلن أي تحديثات مهمة على قناة Twitter الخاصة بي https://twitter.com/stasbekman.

إصدار PDF

قم بتنزيل إصدار PDF من الكتاب.

سأحاول إعادة بنائها مرة واحدة في الأسبوع أو نحو ذلك ، ولكن إذا كنت تريد الأحدث ، فإن الإرشادات الخاصة بالبناء موجودة هنا.

بفضل Huggingface لإعطائي إذنًا لاستضافة ملف PDF لكتابي في HF Hub.

المناقشات

إذا كنت ترغب في مناقشة شيء يتعلق بـ ML Engineering ، فإن هذا الريبو لديه مناقشات المجتمع متاحة - لذا يرجى عدم التردد في مشاركة تجربتك أو بدء مناقشة جديدة حول شيء أنت متحمس له.

جداول مقارنة المفاتيح

مسرعات متطورة:

تسارع نظري tflops
حجم ذاكرة التسريع والسرعة

الشبكات:

سرعة نشرة بين العدوى
السرعة النظرية داخل العقدة

اختصارات

الأشياء التي من المحتمل أن تحتاج إلى العثور عليها بسرعة وغالبًا.

أدوات:

all_reduce_bench.py - طريقة أسهل بكثير لقياس الإنتاجية الشبكة من اختبارات NCCL.
اختبار gpu-test.py الموزعة بالشعلة-أداة لاختبار اتصالك بين العقدة بسرعة

الأدلة:

تطبيقات Pytorch تصحيح الأخطاء-حلول سريعة النسخ-N-Paste لحل شنق أو كسر تطبيقات Pytorch
slurm للمستخدمين - ورقة غش وحيل slurm
اصنع نماذج/مجموعات بيانات صغيرة/رمز
LLM/VLM Chronicles Collection

اِمتِنان

لم يكن أي من هذا ممكنًا دون أن أعهد بتقديم تدريبات محددة LLM/VLM التي تعلمتها من المعرفة الأولية. هذا امتياز لا يتمتع سوى عدد قليل به بسبب التكلفة باهظة الثمن لاستئجار مجموعات حساب ML ضخمة. لذلك نأمل أن يتعلم بقية مجتمع ML بشكل غير مباشر من هذه الملاحظات.

شكر خاص إلى Thom Wolf الذي اقترح أن أقود تدريب Bloom-176b عندما لم أكن أعرف أي شيء عن التدريب على نطاق واسع. كان هذا هو المشروع الذي دفعني إلى عملية التعلم المكثفة. وبطبيعة الحال ، Luggingface لإعطائي الفرصة للعمل بدوام كامل على بلوم -176 ب ، ثم في تدريبات IDEFICS-80B.

في الآونة الأخيرة ، واصلت توسيع معرفتي وخبرتي أثناء التدريب على النماذج وبناء أنظمة التدريب/الاستدلال القابلة للتطوير في Contextual.ai وأنا ممتن لتلك الفرصة لأمان ودووي.

أود أيضًا أن أقول بفضل العديد من المساهمين الذين قاموا بعمل هذا النص رائع وخالي من الأخطاء.

المساهمة

إذا وجدت خطأ أو مطبعيًا أو ترغب في اقتراح تحسن ، فلا تتردد في فتح مشكلة أو المساهمة في العلاقات العامة.

رخصة

يتم توزيع محتوى هذا الموقع تحت إسناد Sharealike 4.0 الدولي.

اقتباس

 @misc { bekman2024mlengineering ,
  author = { Bekman, Stas } ,
  title = { Machine Learning Engineering Open Book } ,
  year = { 2023-2024 } ,
  publisher = { Stasosphere Online Inc. } ,
  journal = { GitHub repository } ,
  url = { https://github.com/stas00/ml-engineering }
}