Exploration des performances de GPT-4 et Chatgpt (Openai) sur Project Euler, un ensemble de problèmes mélangeant le raisonnement mathématique et la programmation.
Ici, j'ai fourni le texte et les équations (le cas échéant en utilisant le formatage de latex, que GPT-4 et Chatgpt sont capables d'analyser) pour représenter les problèmes du projet Euler 1-30 en tant qu'invite. Pour la cohérence, dans tous les cas, j'ai ajouté une phrase demandant la solution sous la forme d'un script Python. Après avoir évalué ce script contre les références connues et au sol, j'ai ensuite invité GPT-4 ou ChatGpt pour réessayer, ou je suis passé au problème suivant.
J'ai ensuite modifié les problèmes tels que le concept et la structure du problème sont restés les mêmes, mais les particularités ont été modifiées (comme cet exemple); Cela a donné des résultats plus intéressants (voir les commentaires).

Ici, le vert désigne le chatppt trouver la bonne solution à la première demande; orange à la deuxième demande; Le rouge signifie qu'il n'a pas trouvé la solution. Le gris signifie que je n'ai pas pu trouver une bonne façon de représenter le problème, généralement parce qu'il nécessitait de comprendre une image.
Inviter GPT-4 et Chatgpt avec les problèmes originaux permet également une comparaison directe de leurs performances.

GPT-4 surpasse le chatppt à travers les problèmes correspondants.
| Problème # | Solution à travers le sol | Solutions de chatppt | Solutions GPT-4 |
|---|---|---|---|
| Problème 1 | Problème 1 Solution | première tentative | première tentative |
| Problème 2 | Problème 2 Solution | première tentative | première tentative |
| Problème 3 | Problème 3 Solution | première tentative | première tentative |
| Problème 4 | Problème 4 Solution | première tentative | première tentative |
| Problème 5 | Problème 5 Solution | Première tentative - deuxième tentative | première tentative |
| Problème 6 | Problème 6 Solution | première tentative | première tentative |
| Problème 7 | Problème 7 Solution | première tentative | première tentative |
| Problème 8 | Problème 8 Solution | Première tentative - deuxième tentative | première tentative |
| Problème 9 | Problème 9 Solution | première tentative | première tentative |
| Problème 10 | Problème 10 Solution | première tentative | première tentative |
| Problème 11 | Problème 11 Solution | Première tentative - deuxième tentative | Première tentative - deuxième tentative |
| Problème 12 | Problème 12 Solution | première tentative | première tentative |
| Problème 13 | Problème 13 Solution | Première tentative - deuxième tentative | Première tentative - deuxième tentative |
| Problème 14 | Problème 14 Solution | première tentative | première tentative |
| Problème 15 | Problème 15 Solution | n / A | n / A |
| Problème 16 | Problème 16 Solution | première tentative | première tentative |
| Problème 17 | Problème 17 Solution | Première tentative - deuxième tentative | première tentative |
| Problème 18 | Problème 18 Solution | n / A | première tentative |
| Problème 19 | Problème 19 Solution | Première tentative - deuxième tentative | première tentative |
| Problème 20 | Problème 20 Solution | première tentative | première tentative |
| Problème 21 | Problème 21 Solution | première tentative | première tentative |
| Problème 22 | Problème 22 Solution | n / A | n / A |
| Problème 23 | Problème 23 Solution | Première tentative - deuxième tentative | première tentative |
| Problème 24 | Problème 24 Solution | première tentative | première tentative |
| Problème 25 | Problème 25 Solution | première tentative | première tentative |
| Problème 26 | Problème 26 Solution | Première tentative - deuxième tentative | première tentative |
| Problème 27 | Problème 27 Solution | première tentative | première tentative |
| Problème 28 | Problème 28 Solution | n / A | première tentative |
| Problème 29 | Problème 29 Solution | première tentative | première tentative |
| Problème 30 | Problème 30 Solution | première tentative | première tentative |
La performance a été indéniablement impressionnante étant donné le défi de ces problèmes (et nettement mieux que les performances de Chatgpt sur les Promtps appariés). Les deux problèmes pour lesquels GPT-4 n'a pas réussi à produire une solution de travail impliquait tous les deux l'analyse de très longs chiffres (400 et 5000 chiffres, respectivement), suggérant peut-être un échec de la tokénisation plutôt que de se raisonner.

GPT-4 surpasse Chatgpt en termes de précision à un coup dans une gamme de problèmes mathématiques et de programmation.
La performance était, à mon avis, assez impressionnante. Chatgpt n'a pas (évidemment) régurgité des échantillons de code à partir de son ensemble de données d'entraînement (aucun des scripts Python générés par GitHub ou GitLab), et a parfois tenté d'optimiser la solution (par exemple en utilisant des approches de division et de conquête dans le problème 19, ou dans le problème 6 où elle utilise:
Comme indiqué par d'autres, le modèle lutte avec un très grand nombre, même lorsqu'ils n'augmentent pas sensiblement la difficulté conceptuelle du problème (CF Problem 13).
Enfin, les problèmes modifiés ont donné quelques informations. Dans un certain nombre de cas, le modèle a généré un script Python qui a généré la bonne réponse (pour le problème modifié), mais Chatgpt a écrit la réponse numérique de la question d'origine. Dans d'autres cas, il a complètement ignoré le libellé modifié et m'a fourni une solution de travail au cadrage original du problème.