Eksplorasi kinerja GPT-4 dan ChatGPT (keduanya OpenAi) pada Project Euler, serangkaian masalah yang memadukan penalaran dan pemrograman matematika.
Di sini, saya memberikan teks dan persamaan (jika perlu menggunakan format lateks, yang dapat diurai oleh GPT-4 dan ChatGPT) untuk mewakili masalah Euler Project 1-30 sebagai prompt. Untuk konsistensi, dalam semua kasus, saya menambahkan kalimat yang meminta solusi dalam bentuk skrip Python. Setelah mengevaluasi skrip ini terhadap garis dasar yang diketahui, kebenaran tanah, saya kemudian meminta GPT-4 atau ChatGPT untuk mencoba lagi, atau pindah ke masalah berikutnya.
Saya kemudian memodifikasi masalah sehingga konsep dan struktur masalah tetap sama, tetapi kekhasan diubah (seperti contoh ini); Ini menghasilkan beberapa hasil yang lebih menarik (lihat komentar).

Di sini, Green menunjukkan chatgpt menemukan solusi yang benar pada awalnya bertanya; oranye di detik bertanya; Merah berarti tidak menemukan solusinya. Gray berarti saya tidak dapat menemukan cara yang baik untuk mewakili masalah, biasanya karena membutuhkan pemahaman gambar.
Minta GPT-4 dan ChatGPT dengan masalah asli juga memungkinkan perbandingan langsung dari kinerja mereka.

GPT-4 mengungguli chatgpt lintas masalah yang cocok.
| Masalah # | Solusi kebenaran tanah | Solusi chatgpt | Solusi GPT-4 |
|---|---|---|---|
| Masalah 1 | Solusi Masalah 1 | upaya pertama | upaya pertama |
| Masalah 2 | Solusi Masalah 2 | upaya pertama | upaya pertama |
| Masalah 3 | Solusi Masalah 3 | upaya pertama | upaya pertama |
| Masalah 4 | Solusi Masalah 4 | upaya pertama | upaya pertama |
| Masalah 5 | Solusi Masalah 5 | Upaya Pertama - Upaya Kedua | upaya pertama |
| Masalah 6 | Solusi Masalah 6 | upaya pertama | upaya pertama |
| Masalah 7 | Solusi Masalah 7 | upaya pertama | upaya pertama |
| Masalah 8 | Solusi Masalah 8 | Upaya Pertama - Upaya Kedua | upaya pertama |
| Masalah 9 | Solusi Masalah 9 | upaya pertama | upaya pertama |
| Masalah 10 | Solusi Masalah 10 | upaya pertama | upaya pertama |
| Masalah 11 | Solusi Masalah 11 | Upaya Pertama - Upaya Kedua | Upaya Pertama - Upaya Kedua |
| Masalah 12 | Solusi Masalah 12 | upaya pertama | upaya pertama |
| Masalah 13 | Solusi Masalah 13 | Upaya Pertama - Upaya Kedua | Upaya Pertama - Upaya Kedua |
| Masalah 14 | Solusi Masalah 14 | upaya pertama | upaya pertama |
| Masalah 15 | Solusi Masalah 15 | n/a | n/a |
| Masalah 16 | Solusi Masalah 16 | upaya pertama | upaya pertama |
| Masalah 17 | Solusi Masalah 17 | Upaya Pertama - Upaya Kedua | upaya pertama |
| Masalah 18 | Solusi Masalah 18 | n/a | upaya pertama |
| Masalah 19 | Solusi Masalah 19 | Upaya Pertama - Upaya Kedua | upaya pertama |
| Masalah 20 | Solusi Masalah 20 | upaya pertama | upaya pertama |
| Masalah 21 | Solusi Masalah 21 | upaya pertama | upaya pertama |
| Masalah 22 | Solusi Masalah 22 | n/a | n/a |
| Masalah 23 | Solusi Masalah 23 | Upaya Pertama - Upaya Kedua | upaya pertama |
| Masalah 24 | Solusi Masalah 24 | upaya pertama | upaya pertama |
| Masalah 25 | Solusi Masalah 25 | upaya pertama | upaya pertama |
| Masalah 26 | SOLUSI MASALAH 26 | Upaya Pertama - Upaya Kedua | upaya pertama |
| Masalah 27 | Solusi Masalah 27 | upaya pertama | upaya pertama |
| Masalah 28 | SOLUSI MASALAH 28 | n/a | upaya pertama |
| Masalah 29 | Solusi Masalah 29 | upaya pertama | upaya pertama |
| Masalah 30 | Solusi Masalah 30 | upaya pertama | upaya pertama |
Kinerja itu tidak dapat disangkal mengesankan mengingat tantangan masalah ini (dan secara signifikan lebih baik daripada kinerja chatgpt pada promtps yang cocok). Dua masalah yang GPT-4 gagal menghasilkan solusi kerja keduanya melibatkan parsing angka yang sangat panjang (masing-masing 400 dan 5000 digit), mungkin menunjukkan kegagalan tokenisasi daripada beralasan sendiri.

GPT-4 mengungguli chatgpt dalam hal akurasi satu-shot di berbagai masalah matematika dan pemrograman.
Menurut saya, kinerja cukup mengesankan. ChatGPT tidak (jelas) memuntahkan sampel kode dari dataset pelatihannya (tidak ada skrip Python yang dihasilkan cocok dengan github atau gitlab), dan kadang-kadang melakukan upaya untuk mengoptimalkan solusi (misalnya menggunakan pendekatan divide-and-conquer dalam masalah 19, atau dalam masalah 6 di mana ia menggunakan:
Seperti dicatat oleh orang lain, model ini berjuang dengan jumlah yang sangat besar, bahkan ketika mereka tidak meningkatkan kesulitan konseptual masalah (CF Masalah 13).
Akhirnya, masalah yang dimodifikasi menghasilkan beberapa wawasan. Dalam sejumlah kasus, model menghasilkan skrip Python yang menghasilkan jawaban yang benar (untuk masalah yang dimodifikasi), tetapi chatgpt menulis jawaban numerik dari pertanyaan asli. Dalam kasus lain, itu mengabaikan kata -kata yang dimodifikasi sepenuhnya, dan memberi saya solusi yang berfungsi untuk pembingkaian masalah asli.