طورت Meta AI ، بالتزامن مع باحثين من جامعة كاليفورنيا وبيركلي وجامعة نيويورك ، نهجًا جديدًا يسمى تحسين تفضيلات التفكير (TPO) يهدف إلى تحسين جودة استجابة نماذج اللغة الكبيرة بشكل كبير (LLM). على عكس الطرق التقليدية التي تركز فقط على الإجابة النهائية ، يسمح TPO للنموذج بالتفكير داخليًا قبل إنشاء الإجابة ، مما يؤدي إلى استجابة أكثر دقة وتماسكًا. تتغلب طريقة تفكير التفكير المعتمدة على التكنولوجيا (COT) عن أوجه القصور في دقة COT السابقة وصعوبة التدريب من خلال التحسين وتبسيط عملية التفكير الداخلي للنموذج ، وتولد في نهاية المطاف إجابات عالية الجودة وفي نواح كثيرة كل اختبار معيار.
على عكس النماذج التقليدية التي تركز فقط على الإجابة النهائية ، تسمح طريقة TPO للنموذج بالتفكير داخليًا قبل إنشاء استجابة ، مما يؤدي إلى إجابات أكثر دقة وتماسك.

تجمع هذه التكنولوجيا الجديدة بين طريقة التفكير في سلسلة الأفكار المحسنة (COT). أثناء عملية التدريب ، تشجع الطريقة النموذج على "التفكير" قبل الاستجابة ، مما يساعده على بناء عملية تفكير داخلي أكثر منهجية. يقلل المطالبات المباشرة السابقة في بعض الأحيان من الدقة ، وعملية التدريب صعبة بسبب عدم وجود خطوات تفكير واضحة. يتغلب TPO على هذه القيود من خلال السماح للنموذج بتحسين عملية التفكير وتبسيطها ، ولا تظهر خطوات تفكير وسيطة أمام المستخدم.
في عملية TPO ، يُطلب من نماذج اللغة الكبيرة أولاً إنشاء عمليات تفكير متعددة ، ثم يتم أخذ عينات من هذه المخرجات وتقييمها قبل تشكيل الاستجابة النهائية. سيقوم نموذج التقييم بعد ذلك بتسجيل الإخراج لتحديد الاستجابات الأمثل والأسوأ. باستخدام هذه المخرجات كاختيار ورفض لتحسين التفضيل المباشر (DPO) ، تعزز طريقة التدريب التكرارية هذه قدرة النموذج على توليد استجابات أكثر صلة بجودة عالية ، وبالتالي تحسين النتائج الإجمالية.
في هذه الطريقة ، يتم ضبط مطالبات التدريب ، وتشجيع النموذج على التفكير داخليًا قبل الاستجابة. يتم تسجيل الاستجابة النهائية التي تم تقييمها بواسطة نموذج تقييم قائم على LLM ، والذي يسمح للنموذج بتحسين الجودة استنادًا فقط إلى فعالية الاستجابة دون النظر في خطوات التفكير الضمنية. بالإضافة إلى ذلك ، يستخدم TPO تحسين التفضيل المباشر لإنشاء استجابات التفضيل والرفض التي تحتوي على تفكير ضمني ، وتزيد من تحسين العملية الداخلية للنموذج من خلال دورات تدريب متعددة.

تظهر نتائج الدراسة أن طريقة TPO كانت أداءً جيدًا في معايير متعددة ، متجاوزة مجموعة متنوعة من النماذج الموجودة. لا ينطبق هذا النهج على المهام المنطقية والرياضية فحسب ، بل يظهر أيضًا إمكانات في المجالات الإبداعية مثل مهام التسويق والقيادة الصحية.
ورقة: https://arxiv.org/pdf/2410.10630
النقاط الرئيسية:
تعمل TPO Technology على تحسين قدرة التفكير في نماذج اللغة الكبيرة قبل توليد الاستجابات ، مما يضمن أن الاستجابات أكثر دقة.
من خلال تفكير سلسلة التفكير المحسنة ، يمكن للنموذج تحسين وتبسيط عملية التفكير الداخلي وتحسين جودة الاستجابة.
TPO مناسب لمجموعة متنوعة من الحقول ، ليس فقط للمهام المنطقية والرياضية ، ولكن أيضًا للإبداع والصحة.
باختصار ، توفر طريقة TPO فكرة جديدة لتحسين أداء نماذج اللغة الكبيرة. روابط الورق مريحة للقراء لاكتساب نظرة ثاقبة على تفاصيلها الفنية ونتائجها التجريبية.