تنزيل godot dodo - تنزيل رمز مصدر godot dodo

godot dodo

شفرة المصدر الأخرى

1.0.0

تنزيل

Godot-Dodo

شعار Godot-Dodo يتخيله Midjourney V5

يقدم مشروع Godot-Dodo خط أنابيب إلى نماذج لغة المصدر المفتوح في Finetune على رمز تم إنشاؤه من الإنسان ، والذي تم استرداده من GitHub.

في هذه الحالة ، فإن اللغة المستهدفة هي gdscript ، ولكن يمكن تطبيق نفس المنهجية على لغات أخرى.

يتضمن هذا المستودع ما يلي:

البرامج النصية لتجميع مجموعة البيانات
مجموعات بيانات خام مجمعة مسبقًا (بحجم 60 ألف صف)
البرامج النصية لتحفيز النموذج
روابط للأوزان النموذجية
تقرير الأداء يقارن النماذج المحرقة

أداء

نتائج

للحصول على نتائج شاملة في شرح المنهجية المستخدمة وقائمة كاملة لجميع النتائج ، يرجى الرجوع إلى تقرير الأداء الكامل هنا.

باختصار ، تحقق نماذج godot_dodo تناسقًا أكبر بكثير من gpt-4 / gpt-3.5-turbo عندما يتعلق الأمر بإنشاء بناء جملة GDSCRIP دقيقة ، ويمكن أن تتفوق المتغيرات التي تم تدريبها على نموذجات قاعدة خاصة بالشفرة على تعليمات معقدة.

نقطة الضعف الرئيسية المتبقية في هذا النهج هي الخسارة في الفعل المناسب عند كتابة أساليب. نظرًا لأن العينات المكتوبة بالبشر غالبًا ما تتضمن إشارات إلى الكائنات التي تمت تهيئتها خارج نطاق طريقة العينة ، يتعلم النموذج أن يفعل الشيء نفسه ، مما يؤدي إلى الحالات التي يُفترض فيها تنفيذ الوظائف ذات الصلة بالتعليمات بالفعل. من المرجح أن يتم تحسين هذا بشكل كبير من خلال مجموعة بيانات أكثر تطوراً.

مفهوم

كيف؟

على عكس الأساليب الأخرى المماثلة في النماذج اللاصقة مثل Stanford-ALPACA ، لا يستخدم هذا النهج نماذج لغوية أكبر وأكبر لقيمة الإخراج الخاصة بالمساحة المحلية. كل الكود المستخدمة هو إنشاء الإنسان. يتم استخدام نماذج اللغة بدلاً من ذلك فقط لتسمية كل مقتطف رمز.

على هذا النحو ، يمكننا تجميع comment:code بيانات بيانات في نمط CodeSearchNet ، والاستفادة من النماذج القوية الحالية لتوضيح التعليمات البرمجية عالية الجودة التي تم إنشاؤها.

لماذا؟

بعض نماذج اللغة الحالية مثل gpt-4 هي المبرمجون الممتازون. ومع ذلك ، يتركز الكثير من قدرتهم على اللغات الأكثر شعبية فقط ، مثل Python أو JavaScript.

تم تمثيل اللغات الأقل استخدامًا على نطاق واسع في بيانات التدريب وتجربة انخفاض أداء هائل ، حيث تخطئ النماذج بشكل روتيني في بناء الجملة أو ميزات لغة الهلوسة غير موجودة.

يهدف هذا إلى توفير نماذج أكثر قوة لغوية يمكن استخدامها لإنشاء التعليمات البرمجية التي تجمعها في المحاولة الأولى.

العرض التوضيحي

لتجربة النماذج التي تم تدريبها مسبقًا ، يمكنك استخدام دفتر الملاحظات interference_demo.ipynb.

من أجل استخدام هذا الكمبيوتر الدفتري على Google Colab ، اتبع هذا الرابط.

توليد مجموعة البيانات

نظرًا لهذا النهج ، بالاعتماد على البيانات التي تم إنشاؤها من قبل الإنسان ، نستكشف مستودعات GitHub باستخدام واجهة برمجة تطبيقات Search Github.

باستخدام language:gdscript ، نقوم باسترداد قائمة من المستودعات بما في ذلك رمز GDSCRIPT.

نستخدم أيضًا license:mit للحد من مجموعة البيانات على المستودعات المناسبة. يتم استخدام رمز مرخص فقط معهد ماساتشوستس للتكنولوجيا للتدريب!

ثم نستنسخ كل واحد ونطبق المنطق التالي:

البحث عن ملف project.godot
اكتشف ما إذا كان المشروع مصنوعًا لإصدارات محرك Godot 3.x أو 4.x
تكرار من خلال جميع ملفات .gd الموجودة في المستودع
لكل واحد ، تقسيم الملف إلى وظائف فردية
لكل وظيفة تم العثور عليها ، اسأل LLM الحالي ( gpt-3.5-turbo ) للحصول على تعليق مفصل يصف الغرض من الوظائف
إضافة instruction:response إلى مجموعة البيانات

لاحظ أن التعليقات الحالية المكتوبة على الإنسان الموجودة فوق كتلة الكود لا تستخدم لقيمة instruction . نحن مهتمون بالتفاصيل المتسقة للتعليقات ، بدلاً من محاولة الحفاظ على بعض الجودة العالية التي اكتسبتها الإنسان.

ومع ذلك ، يتم الحفاظ على التعليقات البشرية داخل كتلة الكود.

يجري

لتجميع مجموعة بيانات بنفسك ، اتبع هذه التعليمات:

قم بتشغيل python data/generate_unlabeled_dataset.py
قم بتشغيل python data/label_dataset.py

يرجى ملاحظة أنك ستحتاج إلى مفاتيح GitHub و Openai API من أجل استخدام هذه البرامج النصية.

مجموعات بيانات تجميعها مسبقًا

مجموعات بيانات مجمعة مسبقًا مدرجة في هذا المستودع:

godot_dodo_4x_60k
- تم تجميعها باستخدام مشاريع Godot 4.x - ~ 60K صفوف

يمكن إضافة مجموعات بيانات أخرى في المستقبل (خاصة فيما يتعلق ببيانات 3.x )

الكون المثالى

تعكس عملية الضبط بشكل وثيق تلك التي قدمتها Stanford_Alpaca.

لإعادة إنتاج نسخة معدلة من Llama ، يرجى اتباع الخطوات أدناه.

متطلبات الأجهزة

من أجل FineTune A llama-7b أو llama-13b بشكل فعال ، يوصى بشدة باستخدام وحدات معالجة الرسومات A100 80GB على الأقل. قد تواجه خلاف ذلك عن أخطاء الذاكرة أو تجربة أوقات تدريب طويلة للغاية ، وستحتاج إلى ضبط معلمات التدريب.

من أجل finetuning godot_dodo_4x_60k_llama_13b ، تم استخدام ثمانية A100 80GB وحدات معالجة الرسومات.

اعتبار مهم آخر هو البروتوكول المستخدم لاتصالات GPU. يوصى باستخدام إعدادات NVLink بدلاً من PCIe .

إذا كان لديك فقط الوصول إلى إعدادات PCIe ، يرجى استبدال full-shard مع shard_grad_op في أمر torchrun . قد يؤدي هذا إلى تسريع تدريبك بشدة على حساب استخدام الذاكرة المرتفعة.

يثبت

قبل Finetuning ، تأكد من تثبيت جميع المتطلبات باستخدام:

pip install -r requirements.txt

يجري

للأوامر الدقيقة المستخدمة في نماذج Finetuning ، يرجى الرجوع إلى صفحات النموذج الفردية:

النماذج/godot_dodo_4x_60k_llama_7b
النماذج/godot_dodo_4x_60k_llama_13b

الاستدلال

لاختبار النموذج الخاص بك ، يمكنك استخدام البرنامج النصي eval.py ببساطة الجري:

python finetune/eval.py --model_name_or_path PATH_TO_FINETUNED_MODEL/

النشر إلى Huggingface

لتحميل طراز Finituned بسهولة إلى Luggingface ، يمكنك استخدام:

python finetune/push_to_hub.py --model_name_or_path PATH_TO_FINETUNED_MODEL/ --push_name HF_MODEL_NAME --auth_token HF_ACCESS_TOKEN

الأوزان النموذجية المحفوظة

يتم توفير روابط للأوزان النموذجية المستضاف في Luggingface في صفحات النموذج المعنية:

النماذج/godot_dodo_4x_60k_llama_7b
النماذج/godot_dodo_4x_60k_llama_13b

يكلف

تحت التكلفة بالدولار لتجميع كل مجموعة بيانات متوفرة وعلاج كل نموذج.

مجموعات البيانات

godot_dodo_4x_60k
- 30$ (تكاليف واجهة gpt-3.5-turbo )

نماذج محيطة

النماذج/godot_dodo_4x_60k_llama_7b
- 24$ (8x A100 80 جيجابايت تكاليف مثيل)
النماذج/godot_dodo_4x_60k_llama_13b
- 84$ (8x A100 80 جيجابايت تكاليف مثيل)

استخدم مع Godot-Copilot

استخدام النماذج المحفوظة بالحيوية مع Godot-Copilot للمحرر ، قد يتم دعم توليد الكود المحلي بالكامل في المستقبل.

الاعتراف

شكرا لجميع مشاريع Godot المرخصة معهد ماساتشوستس للتكنولوجيا! هذا لن يكون ممكنا بدونك.

يتم سرد جميع المشاريع التي تم تجاهلها أثناء تجميع البيانات الموروثة في مجلدات مجموعة البيانات المعنية في البيانات.

شكر آخر أنت يذهب إلى FluidStack.io على مثيلات GPU الموثوقة والرخيصة التي تم استخدامها في هذه النماذج.

اقتباس

إذا كنت ترغب في الاستشهاد بهذا المشروع ، فيرجى استخدام:

 @misc{godot-dodo,
  author = {Markus Sobkowski},
  title = {Godot-Dodo: Finetuned language models for GDScript generation},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/minosvasilias/godot-dodo}},
}

يجب عليك أيضًا الاستشهاد بورقة Llama الأصلية وكذلك Stanford-Alpaca.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-27
الحجم 8.05MB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
تطبيق كوكب دودو

2024-05-24
طائر الدودو

2023-07-12
دونات دودو

2022-07-25

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل