لماذا نتحمل نموذج اللغة؟ يعد الضبط الدقيق ضروريًا عندما نحتاج إلى تعليم LLM مهارة جديدة أو تعزيز فهمها في مجال معين .
في هذا المشروع ، نهدف إلى ضبط كل من نماذج لغة الأدوات/الدردشة الصغيرة والكبيرة ، بما في ذلك SMOLLM لنماذج اللغة الصغيرة (SLM) و Mistral لنماذج اللغة الكبيرة (LLM).
مجموعة بيانات المثال الأساسية المستخدمة هي medalpaca/medical_meadow_medical_flashcards ، المستمدة من بطاقات وميض المناهج الطبية ANKI. تغطي هذه البطاقات التعليمية ، التي تم إنشاؤها وتحديثها بانتظام من قبل طلاب الطب ، مجموعة واسعة من الموضوعات الطبية - مثل التشريح وعلم وظائف الأعضاء وعلم الأمراض وعلم الأدوية - وهي مصممة لدعم التعلم والاحتفاظ الفعالين من خلال ملخصات موجزة و Mnemonics.
على الرغم من أن هذا المشروع يستخدم مجموعة بيانات Medical_Meadow_Medical_FlashCards ، إلا أنه قابل للتكيف مع مجموعات البيانات الأخرى لمهام الأسئلة/الإجابة والرشد/الاستجابة. يمكن تحقيق تكامل مجموعات البيانات المختلفة بسهولة عن طريق تعديل ملفات التكوين.
يدعم المشروع أيضًا القياس الكمي ، مما يجعل من الممكن ضبط نماذج كبيرة مثل Mistral و Llama على إعدادات الأجهزة الأكثر تواضعًا.
يتوفر نموذج SMOLLM المضبوط على Luggingface؟
في حين أن استجابات النموذج الأساسي عام وتتبع تنسيق تخفيض ، يبدو أن النموذج الذي تم ضبطه قد قام بدمج المهارات المتخصصة التي تم تدريبها بشكل فعال ، خاصة في تكرار نمط الاستجابة المتوقع. ومع ذلك ، كشخص بدون خلفية طبية ، لا أستطيع تقييم دقة أو جودة الاستجابات التي يوفرها أي من النموذجين. فيما يلي جدول يقارن ردود النموذج الأصلي ، والنموذج الأساسي ، والنموذج الذي تم ضبطه بشكل جيد لمجموعة من الأسئلة الطبية.
| سؤال | الاستجابة الأصلية | استجابة نموذج قاعدة | استجابة نموذج ضبطها |
|---|---|---|---|
| ما هو الأدوية المضادة للملاريا له نشاط ضد البلازميوم hypnozoites؟ | البدائية هي الأدوية المضادة للملاريا التي لها نشاط ضد hypnozoites plasmodium. | الأدوية المضادة للملاريا هي فئة من الأدوية التي تكون فعالة ضد طفيليات البلازما ، والتي هي المسؤولة عن التسبب في الملاريا. تشمل الأدوية المضادة للملاريا الأكثر شيوعًا المستخدمة لعلاج الملاريا ما يلي: 1. الأمبيسيلين (الأمفوتريسين ب) : مضاد حيوي واسع الطيف فعال ضد أنواع البلازما. 2. فوسامفير (فوسامفير) : مضاد للفيروسات واسعة الطيف وفعالة ضد أنواع البلازوديوم. 3. التأثير (التأثير) : مضاد للفيروسات واسعة الطيف وفعالة ضد أنواع البلازما. 4. ** ampicillin | الإريثروميسين هو الأدوية المضادة للملاريا التي لها نشاط ضد Hypnozoites plasmodium. |
| ما هو المصطلح المستخدم لوصف كمية المادة التي تمت تصفيتها في مساحة بومان لكل وحدة زمنية؟ | تسمى كمية المادة التي تمت تصفيتها في مساحة بومان لكل وحدة زمنية الحمل المصفى. | مصطلح "مساحة بومان" عبارة عن عامية تستخدم لوصف كمية المادة التي تمت تصفيتها في مساحة بومان ، وهي مساحة افتراضية حيث يتم إطلاق المركبة الفضائية في المدار. يعتمد هذا المفهوم على فكرة أنه يمكن إطلاق المركبة الفضائية في المدار ثم العودة إلى الأرض ، مع تصفية المركبة الفضائية أي جزيئات أو حطام متبقية قد تكون موجودة في الفضاء. غالبًا ما يستخدم مصطلح "مساحة بومان" لوصف كمية المادة التي تمت تصفيتها في مساحة بومان ، وهي مساحة افتراضية حيث يتم إطلاق مركبة فضائية في المدار ثم تعود إلى الأرض. ال | يسمى المصطلح المستخدم لوصف كمية المادة التي تمت تصفيتها في مساحة بومان لكل وحدة زمنية كفاءة الترشيح. |
| ما هو المصطلح المستخدم لوصف حجم الدم الموجود في الأوردة؟ | يسمى حجم الدم الوارد في الأوردة الحجم غير المجهز. | يشير مصطلح "حجم الدم" إلى كمية الدم الذي يدور عبر الجهاز الدوري للجسم. إنها عملية معقدة تتضمن تبادل الأكسجين والمواد المغذية ومنتجات النفايات بين الدم والأنسجة. عادة ما يتم قياس حجم الدم باللون (لتر) أو ملليتر (مل) وعادة ما يتم توزيعه في جميع أنحاء الجسم من خلال الجهاز الدوري. هناك العديد من المكونات الرئيسية التي تسهم في حجم الدم: 1. خلايا الدم الحمراء : هذه هي الخلايا التي تحمل الأكسجين من الرئتين إلى الأنسجة. لديهم قطر يبلغ حوالي 1.5 ملم ويتألفون من الهيموغلوبين | المصطلح المستخدم لوصف حجم الدم الموجود في الأوردة يسمى الدم الوريدي. |
| ما هو العامل الأكثر أهمية لتحديد تشخيص سرطان الخلايا الانتقالية؟ | العامل الأكثر أهمية لتحديد تشخيص سرطان الخلايا الانتقالية هو درجة الغزو. | يعد تحديد تشخيص سرطان الخلايا الانتقالية (TCC) أمرًا بالغ الأهمية ، حيث يمكن أن يؤثر بشكل كبير على نوعية حياة المريض وخيارات العلاج والبقاء بشكل عام. العامل الأكثر أهمية لتحديد تشخيص TCC هو وجود تشخيص واضح ، ورم محدد جيدًا ، والتشخيص المواتية. فيما يلي بعض العوامل الرئيسية التي يمكن أن تؤثر على تشخيص TCC: 1. التشخيص الواضح : يتم تشخيص TCC باستخدام ورم واضح ، مما يعني أنه يحتوي على نمو حميد أو شبيه بحميدة. يتم تشخيص TCC أيضًا بتشخيص موات | العامل الأكثر أهمية لتحديد تشخيص سرطان الخلايا الانتقالية هو وجود درجة عالية. |
دقة الاستجابات: يكرر النموذج الذي تم ضبطه التنسيق والأناقة المتوقعة ولكنه يوضح بعض عدم الدقة. على سبيل المثال ، يتم تحديد الإريثروميسين بشكل غير صحيح على أنه دواء مضاد للملاريا فعال ضد Hypnozoites plasmodium. يجب أن تكون الإجابة الصحيحة بدائية.
مشكلات النموذج الأساسي: يتم تعميم استجابات النموذج الأساسي بشكل مفرط وأحيانًا خارج الموضوع ، وخاصة في السياقات الطبية ، كما هو موضح في التفسيرات غير الصحيحة حول مساحة بومان وحجم الدم.
ملاحظة: تم الحصول على هذه النتيجة بعد 10 عصر التدريب فقط. قد يؤدي التدريب لمزيد من الحقائب إلى نتائج أفضل ¯ (ツ) /¯.
لتشغيل هذا المشروع بسلاسة ، مطلوب Python 3.10. تم اختبار المشروع والتحقق منه على Python 3.10.13. اتبع الخطوات أدناه لإعداد بيئتك:
إنشاء بيئة افتراضية:
python -m venv env
تنشيط البيئة الافتراضية:
source env/bin/activate
تثبيت التبعيات المطلوبة:
pip install -r requirements.txt
إعداد متغيرات البيئة: انسخ ملف .env.example وقم بإعادة تسميته إلى .env:
mv .env.example .env
يمكنك استكشاف خطوات التدريب باستخدام دفاتر Jupyter:
cd notebooks
jupyter-lab
بدلاً من ذلك ، يمكنك بدء عملية الضبط الدقيقة مباشرة. يتم تحديد المعلمات المستخدمة للضبط في ملفات التكوين داخل المجلد configs . لبدء عملية الضبط باستخدام نموذج Smallm الافتراضي ، قم بتشغيل:
python train.py
إذا كنت ترغب في تدريب نموذج مختلف ، يمكنك تحديد تكوين النموذج عن طريق تمرير اسم ملف التكوين كوسيطة:
python train.py --model Mistral
استبدل MISTRAL باسم ملف تكوين النموذج المطلوب. لتدريب نموذج جديد ، ما عليك سوى إنشاء ملف تكوين جديد مع الإعدادات المطلوبة وقم بتشغيل Train.py مع اسم الطراز المناسب.