مجموعة موجات القوس (التجريد والمنطق مجموعة)
مطالبات لحل مهام القوس مع GPT4 أو ما شابه.
يحل 46 من 800 مهمة في مجموعة بيانات ARC 1.
لم يتم اختباره على 100 مهمة خفية ، لأن GPT4 مصدر مغلق.
التعلم حول المطالبات
- مطالبات كبيرة وفرصة منخفضة للحل الصحيح.
- يفهم البيانات المشفرة طولها ، لكن RLE يضر بقدرات التفكير. ولكن في بعض الحالات قد تعمل RLE.
- يفهم الإحداثيات ويمكنه اكتشاف الأشكال والخطوط والصناديق البسيطة وأشكال Tetris.
- نادراً ما يتم النظر في التحولات مثل الدوران 90 أو الوجه ، بشكل صحيح.
- غير حاسمة ما هي أفضل طريقة لتمثيل الألوان. في بعض الأحيان يتم تفسير قيم عدد صحيح للألوان الخام على أنها قيم الرياضيات ، مما يسبب الفوضى في التنبؤ. تلبيس الألوان في النص يساعد. بدلاً من استخدام
color الكلمة ، أستخدم ID الكلمة أو Layer . لم يحسم ما ينجح.
نماذج اللغة
- Openai's GPT4 - يحل العديد من مهام ARC ، وتأتي الخاطئة القريبة جدًا من الإخراج المتوقع.
- Openai's GPT3.5 - غير قادر على حل مهام القوس ، ولكن في بعض الأحيان تقترب الخاطئة من الإخراج المتوقع.
- إصدار Google Bard 2023.07.13 - لم يتمكن من حل أي مهام.
أمثلة على التنبؤات غير الصحيحة
IMO التوقعات غير الصحيحة أكثر إثارة للاهتمام من التنبؤات الصحيحة. هذه التنبؤات تقترب جدا من الإخراج المتوقع.






هيكل الريبو
هناك 2 dirs:
- مطالبات/صحيحة - تنبؤات جيدة تحل المهام.
- مطالبات/غير صحيحة - الخاطئة التي تقترب من حل المهام.
الملفات عبارة عن مستندات Markdown ، مع 3 أو 4 أقسام.
- القسم أ - البيانات الوصفية حول النماذج التي تمت تجربتها. تقول جميع الوثائق
gpt4 في الوقت الحالي. - القسم ب - المطالبة . مهمة ARC معززة بمعلومات مفيدة. تم إنشاؤها.
- القسم C - الرد . استجابة من GPT4 أو نموذج مماثل.
- القسم D - القسم الاختياري مع التعليقات البشرية حول ما قد يكون خطأ في المنطق.
خلاف
أنا أتسكع في قنوات القوس على Lab42 و Yannic Kilcher. أماكن رائعة لمناقشة التقنية السريعة.
رخصة
Apache أو MIT.