探索GPT-4和CHATGPT(均为OpenAI)在Euler项目中的性能,这是一组融合数学推理和编程的问题。
在这里,我提供了文本和方程式(在必要时使用乳胶格式,GPT-4和CHATGPT能够解析)来表示Euler问题1-30作为提示。为了保持一致性,在所有情况下,我添加了一个句子,要求以Python脚本的形式进行解决方案。在针对已知的基线基线评估此脚本后,我提示GPT-4或Chatgpt重试或转到下一个问题。
然后,我修改了问题,以使问题的概念和结构保持不变,但是更改了特殊性(例如此示例);这产生了一些更有趣的结果(请参阅评论)。

在这里,绿色表示Chatgpt首先要找到正确的解决方案;第二次问橙色;红色意味着它找不到解决方案。灰色意味着我找不到表示问题的好方法,通常是因为它需要理解图像。
提示GPT-4和CHATGPT带有原始问题,还可以直接比较其性能。

GPT-4在匹配问题上的表现优于CHATGPT。
| 问题 # | 地面真相解决方案 | CHATGPT解决方案 | GPT-4解决方案 |
|---|---|---|---|
| 问题1 | 问题1解决方案 | 第一次尝试 | 第一次尝试 |
| 问题2 | 问题2解决方案 | 第一次尝试 | 第一次尝试 |
| 问题3 | 问题3解决方案 | 第一次尝试 | 第一次尝试 |
| 问题4 | 问题4解决方案 | 第一次尝试 | 第一次尝试 |
| 问题5 | 问题5解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 |
| 问题6 | 问题6解决方案 | 第一次尝试 | 第一次尝试 |
| 问题7 | 问题7解决方案 | 第一次尝试 | 第一次尝试 |
| 问题8 | 问题8解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 |
| 问题9 | 问题9解决方案 | 第一次尝试 | 第一次尝试 |
| 问题10 | 问题10解决方案 | 第一次尝试 | 第一次尝试 |
| 问题11 | 问题11解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 - 第二次尝试 |
| 问题12 | 问题12解决方案 | 第一次尝试 | 第一次尝试 |
| 问题13 | 问题13解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 - 第二次尝试 |
| 问题14 | 问题14解决方案 | 第一次尝试 | 第一次尝试 |
| 问题15 | 问题15解决方案 | N/A。 | N/A。 |
| 问题16 | 问题16解决方案 | 第一次尝试 | 第一次尝试 |
| 问题17 | 问题17解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 |
| 问题18 | 问题18解决方案 | N/A。 | 第一次尝试 |
| 问题19 | 问题19解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 |
| 问题20 | 问题20解决方案 | 第一次尝试 | 第一次尝试 |
| 问题21 | 问题21解决方案 | 第一次尝试 | 第一次尝试 |
| 问题22 | 问题22解决方案 | N/A。 | N/A。 |
| 问题23 | 问题23解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 |
| 问题24 | 问题24解决方案 | 第一次尝试 | 第一次尝试 |
| 问题25 | 问题25解决方案 | 第一次尝试 | 第一次尝试 |
| 问题26 | 问题26解决方案 | 第一次尝试 - 第二次尝试 | 第一次尝试 |
| 问题27 | 问题27解决方案 | 第一次尝试 | 第一次尝试 |
| 问题28 | 问题28解决方案 | N/A。 | 第一次尝试 |
| 问题29 | 问题29解决方案 | 第一次尝试 | 第一次尝试 |
| 问题30 | 问题30解决方案 | 第一次尝试 | 第一次尝试 |
鉴于这些问题的挑战,表现无可否认是令人印象深刻的(并且明显优于匹配的ProMTP上的Chatgpt的表现)。 GPT-4未能产生工作解决方案的两个问题都涉及分析很长的数量(分别为400位和5000位数字),也许暗示了令牌化的失败,而不是自身推理。

在一系列数学和编程问题上,GPT-4的表现优于CHATGPT。
我认为表现令人印象深刻。 CHATGPT(显然)从其培训数据集中反驳代码样本(在GitHub或Gitlab上生成的Python脚本都不匹配任何脚本),有时会尝试优化解决方案(例如,在问题19中使用divide and-conconquer方法,或者在问题6中使用:在问题6中使用:
正如其他人指出的那样,即使模型没有明显地增加问题的概念困难,该模型也很大程度上挣扎(CF问题13)。
最后,修改后的问题产生了一些见解。在许多情况下,该模型生成了一个Python脚本,该脚本生成了正确的答案(对于修改后的问题),但是Chatgpt从原始问题中写下了数值答案。在其他情况下,它完全忽略了修改后的措辞,并为我提供了解决问题的原始框架的工作解决方案。