؟ وكلاء الذكاء الاصطناعى رائعين
أنا أؤمن دائمًا بالمصدر المفتوح وأحب مشاركة جميع نقاط المعرفة التي أعتقد أنها ذات قيمة ومثيرة للاهتمام أثناء عملي ودراستي ، وأكتبها بانتظام إلى مدونات لمناقشة الجميع والتعلم معها وتحقيق التقدم معًا.
نرحب جدًا أيضًا بالمساهمة في العلاقات العامة لتحسين هذه المدونة باستمرار وجعلها كتيب وكيل حقيقي.
نوصي بشدة أن تقرأ هذا الخطاب من قبل السيد نغ للبدء في سير العمل في الوكيل:
يقترح ORPO طريقة مبتكرة للغاية: قم بدمج مرحلة محاذاة النموذج ومرحلة SFT معًا لتحسين طريقة التدريب النموذجية.
في مرحلة SFT ، تتم إضافة البيانات المحاذاة مباشرة إلى التدريب ، ويتحقق قدرة محاذاة النموذج في مرحلة SFT.
解决的问题: تهدف هذه الورقة إلى تحسين القدرة على توفير طريقة لإنشاء إرشادات عالية الجودة باتباع مجموعات البيانات ، وبالتالي تحسين القدرة على تعلم التعليمات بطرق مختلفة.
في هذه الورقة ، نقوم بإنشاء وظيفة لاكتشاف ما إذا كان محتوى الاستجابة صحيحًا ، وبالتالي تحسين جودة البيانات.
طريقة هذه الورقة ليست مبتكرة للغاية ، لكنها تخبرنا إلى حد ما: أهمية جودة البيانات.