探索GPT-4和CHATGPT(均為OpenAI)在Euler項目中的性能,這是一組融合數學推理和編程的問題。
在這裡,我提供了文本和方程式(在必要時使用乳膠格式,GPT-4和CHATGPT能夠解析)來表示Euler問題1-30作為提示。為了保持一致性,在所有情況下,我添加了一個句子,要求以Python腳本的形式進行解決方案。在針對已知的基線基線評估此腳本後,我提示GPT-4或Chatgpt重試或轉到下一個問題。
然後,我修改了問題,以使問題的概念和結構保持不變,但是更改了特殊性(例如此示例);這產生了一些更有趣的結果(請參閱評論)。

在這裡,綠色表示Chatgpt首先要找到正確的解決方案;第二次問橙色;紅色意味著它找不到解決方案。灰色意味著我找不到表示問題的好方法,通常是因為它需要理解圖像。
提示GPT-4和CHATGPT帶有原始問題,還可以直接比較其性能。

GPT-4在匹配問題上的表現優於CHATGPT。
| 問題 # | 地面真相解決方案 | CHATGPT解決方案 | GPT-4解決方案 |
|---|---|---|---|
| 問題1 | 問題1解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題2 | 問題2解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題3 | 問題3解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題4 | 問題4解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題5 | 問題5解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 |
| 問題6 | 問題6解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題7 | 問題7解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題8 | 問題8解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 |
| 問題9 | 問題9解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題10 | 問題10解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題11 | 問題11解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 - 第二次嘗試 |
| 問題12 | 問題12解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題13 | 問題13解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 - 第二次嘗試 |
| 問題14 | 問題14解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題15 | 問題15解決方案 | N/A。 | N/A。 |
| 問題16 | 問題16解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題17 | 問題17解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 |
| 問題18 | 問題18解決方案 | N/A。 | 第一次嘗試 |
| 問題19 | 問題19解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 |
| 問題20 | 問題20解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題21 | 問題21解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題22 | 問題22解決方案 | N/A。 | N/A。 |
| 問題23 | 問題23解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 |
| 問題24 | 問題24解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題25 | 問題25解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題26 | 問題26解決方案 | 第一次嘗試 - 第二次嘗試 | 第一次嘗試 |
| 問題27 | 問題27解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題28 | 問題28解決方案 | N/A。 | 第一次嘗試 |
| 問題29 | 問題29解決方案 | 第一次嘗試 | 第一次嘗試 |
| 問題30 | 問題30解決方案 | 第一次嘗試 | 第一次嘗試 |
鑑於這些問題的挑戰,表現無可否認是令人印象深刻的(並且明顯優於匹配的ProMTP上的Chatgpt的表現)。 GPT-4未能產生工作解決方案的兩個問題都涉及分析很長的數量(分別為400位和5000位數字),也許暗示了令牌化的失敗,而不是自身推理。

在一系列數學和編程問題上,GPT-4的表現優於CHATGPT。
我認為表現令人印象深刻。 CHATGPT(顯然)從其培訓數據集中反駁代碼樣本(在GitHub或Gitlab上生成的Python腳本都不匹配任何腳本),有時會嘗試優化解決方案(例如,在問題19中使用divide and-conconquer方法,或者在問題6中使用:在問題6中使用:
正如其他人指出的那樣,即使模型沒有明顯地增加問題的概念困難,該模型也很大程度上掙扎(CF問題13)。
最後,修改後的問題產生了一些見解。在許多情況下,該模型生成了一個Python腳本,該腳本生成了正確的答案(對於修改後的問題),但是Chatgpt從原始問題中寫下了數值答案。在其他情況下,它完全忽略了修改後的措辭,並為我提供了解決問題的原始框架的工作解決方案。