رمز لنمذجة اللغة المطابقة للحصول على التفاصيل
في هذه الورقة ، نقترح اتباع نهج جديد للتنبؤ المطابق لنماذج اللغة (LMS) التي ننتج فيها مجموعات تنبؤ مع ضمانات الأداء. عادة ما يتم أخذ عينات من استجابات LM من التوزيع المتوقع على مساحة الإخراج الكبيرة والاندماجية للغة. ترجمة هذا إلى التنبؤ المطابق ، نقوم بمعايرة قاعدة إيقاف لأخذ عينات من مخرجات LM التي يتم إضافتها إلى مجموعة متزايدة من المرشحين حتى نكون واثقين من أن المجموعة تغطي استجابة مقبولة واحدة على الأقل. نظرًا لأن بعض العينات قد تكون منخفضة الجودة ، فإننا نقوم أيضًا في وقت واحد بمعايرة قاعدة الرفض لإزالة المرشحين من المخرجات المحددة لتقليل الضوضاء. على غرار التنبؤ المطابق ، يمكننا أن نثبت أن مجموعة الإخراج النهائية تطيع بعض الضمانات المرغوبة خالية من التوزيع. ضمن هذه المجموعات من ردود المرشحين ، نوضح أيضًا أنه يمكننا أيضًا تحديد مجموعات فرعية من المكونات الفردية --- مثل العبارات أو الجمل --- كل منها صحيح بشكل مستقل (على سبيل المثال ، ليس "الهلوسة") ، مرة أخرى مع الضمانات. يمكن تطبيق طريقتنا على أي واجهة برمجة تطبيقات LM التي تدعم أخذ العينات. علاوة على ذلك ، نوضح بشكل تجريبي أنه يمكننا تحقيق العديد من مستويات التغطية المطلوبة في عدد محدود من إجمالي العينات عند تطبيق طريقتنا على مهام متعددة في الإجابة على أسئلة المجال المفتوح ، وتلخيص النص ، وتوليد تقارير الأشعة باستخدام متغيرات LM المختلفة.
انظر أيضًا ريبو المساعد لعلاج البيانات قبل.
إذا كنت تستخدم هذا في عملك ، فيرجى الاستشهاد:
@misc{quach2023conformal,
title={Conformal Language Modeling},
author={Victor Quach and Adam Fisch and Tal Schuster and Adam Yala and Jae Ho Sohn and Tommi S. Jaakkola and Regina Barzilay},
year={2023},
eprint={2306.10193},
archivePrefix={arXiv},
primaryClass={cs.CL}
}