استكشاف أداء GPT-4 و ChatGPT (كلاهما Openai) على Project Euler ، وهي مجموعة من المشكلات التي تمزج بين التفكير والبرمجة الرياضية.
هنا ، قدمت النص والمعادلات (عند الضرورة باستخدام تنسيق اللاتكس ، والتي يمكن لـ GPT-4 و ChatGPT تحليلها) لتمثيل مشكلات المشروع 1-30 كموجه موجه. من أجل الاتساق ، في جميع الحالات ، أضفت جملة تطلب الحل في شكل نص Python. بعد تقييم هذا البرنامج النصي ضد خطوط الأساس المعروفة والخطورة الأرضية ، دفعت بعد ذلك إلى GPT-4 أو ChatGPT للمحاولة مرة أخرى ، أو انتقلت إلى المشكلة التالية.
ثم قمت بتعديل المشكلات بحيث ظل مفهوم وهيكل المشكلة كما هو ، ولكن تم تغيير الخصائص (مثل هذا المثال) ؛ هذا أسفر عن بعض النتائج الأكثر إثارة للاهتمام (انظر التعليقات).

هنا ، يشير الأخضر إلى chatgpt العثور على الحل الصحيح في البداية اسأل ؛ برتقالي في الثانية اسأل ؛ الأحمر يعني أنه لم يجد الحل. الرمادي يعني أنني لم أتمكن من إيجاد طريقة جيدة لتمثيل المشكلة ، عادةً لأنه يتطلب فهم صورة.
تمكين كل من GPT-4 و ChatGPT مع المشكلات الأصلية أيضًا من المقارنة المباشرة لأدائها.

GPT-4 يتفوق على chatgpt عبر المشكلات المتطابقة.
| مشكلة # | حل الحقيقة الأرضية | حلول ChatGpt | حلول GPT-4 |
|---|---|---|---|
| مشكلة 1 | حل المشكلة 1 | المحاولة الأولى | المحاولة الأولى |
| مشكلة 2 | المشكلة 2 الحل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 3 | المشكلة 3 حل | المحاولة الأولى | المحاولة الأولى |
| المشكلة 4 | المشكلة 4 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 5 | المشكلة 5 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى |
| المشكلة 6 | المشكلة 6 حل | المحاولة الأولى | المحاولة الأولى |
| المشكلة 7 | المشكلة 7 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 8 | المشكلة 8 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى |
| مشكلة 9 | حل المشكلة 9 | المحاولة الأولى | المحاولة الأولى |
| مشكلة 10 | مشكلة 10 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 11 | مشكلة 11 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى - المحاولة الثانية |
| مشكلة 12 | مشكلة 12 حل | المحاولة الأولى | المحاولة الأولى |
| المشكلة 13 | المشكلة 13 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى - المحاولة الثانية |
| المشكلة 14 | المشكلة 14 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 15 | المشكلة 15 حل | ن/أ | ن/أ |
| المشكلة 16 | المشكلة 16 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 17 | المشكلة 17 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى |
| مشكلة 18 | المشكلة 18 حل | ن/أ | المحاولة الأولى |
| مشكلة 19 | مشكلة 19 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى |
| المشكلة 20 | المشكلة 20 حل | المحاولة الأولى | المحاولة الأولى |
| المشكلة 21 | المشكلة 21 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 22 | مشكلة 22 حل | ن/أ | ن/أ |
| المشكلة 23 | المشكلة 23 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى |
| مشكلة 24 | المشكلة 24 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 25 | المشكلة 25 حل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 26 | مشكلة 26 حل | المحاولة الأولى - المحاولة الثانية | المحاولة الأولى |
| مشكلة 27 | المشكلة 27 الحل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 28 | المشكلة 28 الحل | ن/أ | المحاولة الأولى |
| مشكلة 29 | المشكلة 29 الحل | المحاولة الأولى | المحاولة الأولى |
| مشكلة 30 | مشكلة 30 حل | المحاولة الأولى | المحاولة الأولى |
كان الأداء مثيرًا للإعجاب بشكل لا يمكن إنكاره بالنظر إلى تحدي هذه المشكلات (وأفضل بكثير من أداء chatgpt على promtps المتطابقة). تضمن المشكلتان اللذان فشلا في GPT-4 في إنتاج حل عمل على حد سواء تحليل أرقام طويلة جدًا (400 و 5000 رقم ، على التوالي) ، ربما تشير إلى فشل الرمز المميز بدلاً من التفكير في نفسه.

يتفوق GPT-4 على chatgpt من حيث دقة طلقة واحدة عبر مجموعة من المشكلات الرياضية والبرمجة.
كان الأداء ، في رأيي ، مثيرًا للإعجاب. لم تقم chatgpt (بوضوح) بتجديد عينات الكود من مجموعة بيانات التدريب الخاصة بها (لا توجد من البرامج النصية للبيثون التي تم إنشاؤها مطابقة على github أو gitlab) ، وأحيانًا تقوم بمحاولات لتحسين الحل (على سبيل المثال باستخدام مقاربات الانقسام والقوس في المشكلة 19 ، أو في المشكلة 6 حيث تستخدم:
كما لاحظ الآخرين ، يكافح النموذج بأعداد كبيرة جدًا ، حتى عندما لا يزيد من الصعوبة المفاهيمية للمشكلة بشكل ملحوظ (مشكلة CF 13).
أخيرًا ، أسفرت المشكلات المعدلة عن بعض الأفكار. في عدد من الحالات ، قام النموذج بإنشاء نص Python الذي ولد الإجابة الصحيحة (للمشكلة المعدلة) ، لكن ChatGPT كتب الإجابة العددية من السؤال الأصلي. في حالات أخرى ، تجاهلت الصياغة المعدلة بالكامل ، وقدم لي حلًا عمليًا للإطار الأصلي للمشكلة.