Исследование производительности GPT-4 и CHATGPT (оба OpenAI) в Project Euler, набор проблем, смешивая математические рассуждения и программирование.
Здесь я предоставил текст и уравнения (при необходимости, с использованием форматирования латекса, которые GPT-4 и CHATGPT могут проанализировать), чтобы представлять проблемы Euler Project 1-30 в качестве подсказки. Для согласованности, во всех случаях я добавил предложение, запрашивающее решение в виде сценария Python. После оценки этого сценария с известными базовыми показателями с землей, я побудил GPT-4 или CHATGPT попробовать еще раз, или перешел к следующей проблеме.
Затем я изменил проблемы, так что концепция и структура проблемы оставались прежними, но особенности были изменены (например, этот пример); Это дало несколько более интересных результатов (см. Комментарии).

Здесь Green обозначает, что CHATGPT находит правильное решение сначала спросить; апельсин на втором спросе; Красный означает, что он не нашел решение. Грей означает, что я не мог найти хорошего способа представления проблемы, обычно потому, что она требовала понимания изображения.
Пробуждение GPT-4 и CHATGPT с исходными проблемами также обеспечивает прямое сравнение их производительности.

GPT-4 превосходит CHATGPT между соответствующими проблемами.
| Проблема # | Раствор земли | Chatgpt Solutions | Решения GPT-4 |
|---|---|---|---|
| Проблема 1 | Проблема 1 решение | Первая попытка | Первая попытка |
| Проблема 2 | Проблема 2 Решение | Первая попытка | Первая попытка |
| Проблема 3 | Проблема 3 Решение | Первая попытка | Первая попытка |
| Проблема 4 | Проблема 4 Решение | Первая попытка | Первая попытка |
| Проблема 5 | Проблема 5 Решение | Первая попытка - вторая попытка | Первая попытка |
| Проблема 6 | Проблема 6 Решение | Первая попытка | Первая попытка |
| Проблема 7 | Проблема 7 Решение | Первая попытка | Первая попытка |
| Проблема 8 | Задача 8 Решение | Первая попытка - вторая попытка | Первая попытка |
| Проблема 9 | Проблема 9 Решение | Первая попытка | Первая попытка |
| Проблема 10 | Проблема 10 Решение | Первая попытка | Первая попытка |
| Проблема 11 | Задача 11 Решение | Первая попытка - вторая попытка | Первая попытка - вторая попытка |
| Проблема 12 | Задача 12 Решение | Первая попытка | Первая попытка |
| Задача 13 | Задача 13 Решение | Первая попытка - вторая попытка | Первая попытка - вторая попытка |
| Задача 14 | Задача 14 Решение | Первая попытка | Первая попытка |
| Задача 15 | Задача 15 Решение | n/a | n/a |
| Задача 16 | Задача 16 Решение | Первая попытка | Первая попытка |
| Проблема 17 | Задача 17 Решение | Первая попытка - вторая попытка | Первая попытка |
| Проблема 18 | Проблема 18 Решение | n/a | Первая попытка |
| Проблема 19 | Задача 19 Решение | Первая попытка - вторая попытка | Первая попытка |
| Проблема 20 | Задача 20 Решение | Первая попытка | Первая попытка |
| Задача 21 | Задача 21 Решение | Первая попытка | Первая попытка |
| Задача 22 | Задача 22 Решение | n/a | n/a |
| Проблема 23 | Проблема 23 Решение | Первая попытка - вторая попытка | Первая попытка |
| Проблема 24 | Задача 24 Решение | Первая попытка | Первая попытка |
| Проблема 25 | Проблема 25 Решение | Первая попытка | Первая попытка |
| Задача 26 | Задача 26 Решение | Первая попытка - вторая попытка | Первая попытка |
| Проблема 27 | Проблема 27 Решение | Первая попытка | Первая попытка |
| Задача 28 | Задача 28 Решение | n/a | Первая попытка |
| Проблема 29 | Задача 29 Решение | Первая попытка | Первая попытка |
| Проблема 30 | Проблема 30 Решение | Первая попытка | Первая попытка |
Производительность была бесспорно впечатляющей, учитывая проблему этих проблем (и значительно лучше, чем производительность CHATGPT на соответствующих PROMTP). Две проблемы, для которых GPT-4 не смогли создать рабочее решение, оба включали анализ очень длинных чисел (400 и 5000 цифр соответственно), возможно, предполагая отказ от токенизации, а не рассуждать.

GPT-4 превосходит CHATGPT с точки зрения точности одного выстрела в ряде математических и программирования.
Производительность была, на мой взгляд, довольно впечатляющим. CHATGPT не (очевидно) не срывает образцы кода из своего обучающего набора данных (ни один из сценариев Python, сгенерированных, не соответствовал ни одного на GitHub или Gitlab), а иногда и предпринимал попытки оптимизировать решение (например, с использованием подходов Divide-and-Inquer в задаче 19 или в проблеме 6, где оно использует:: например, с использованием подходов Divide-and-Inquer в задаче 19 или в проблеме 6, где оно используется: eg с использованием подходов Divide and-Inquer в задаче 19 или в проблеме 6:
Как отмечают другие, модель борется с очень большими числами, даже когда они не заметно увеличивают концептуальную сложность проблемы (проблема 13).
Наконец, модифицированные проблемы дали некоторые идеи. В ряде случаев модель сгенерировала сценарий Python, который сгенерировал правильный ответ (для модифицированной проблемы), но Chatgpt написал числовой ответ из исходного вопроса. В других случаях он полностью проигнорировал модифицированную формулировку и предоставил мне рабочее решение для исходного создания проблемы.