GPT 4 ChatGPT Project Euler下载GPT 4 ChatGPT Project Euler源代码下载

GPT 4 ChatGPT Project Euler

其他源码

1.0.0

下载

GPT-4和CHATGPT - Project Euler

探索GPT-4和CHATGPT（均为OpenAI）在Euler项目中的性能，这是一组融合数学推理和编程的问题。

结果

在这里，我提供了文本和方程式（在必要时使用乳胶格式，GPT-4和CHATGPT能够解析）来表示Euler问题1-30作为提示。为了保持一致性，在所有情况下，我添加了一个句子，要求以Python脚本的形式进行解决方案。在针对已知的基线基线评估此脚本后，我提示GPT-4或Chatgpt重试或转到下一个问题。

然后，我修改了问题，以使问题的概念和结构保持不变，但是更改了特殊性（例如此示例）；这产生了一些更有趣的结果（请参阅评论）。

图像描述

在这里，绿色表示Chatgpt首先要找到正确的解决方案；第二次问橙色；红色意味着它找不到解决方案。灰色意味着我找不到表示问题的好方法，通常是因为它需要理解图像。

提示GPT-4和CHATGPT带有原始问题，还可以直接比较其性能。

图像描述

GPT-4在匹配问题上的表现优于CHATGPT。

问题＃	地面真相解决方案	CHATGPT解决方案	GPT-4解决方案
问题1	问题1解决方案	第一次尝试	第一次尝试
问题2	问题2解决方案	第一次尝试	第一次尝试
问题3	问题3解决方案	第一次尝试	第一次尝试
问题4	问题4解决方案	第一次尝试	第一次尝试
问题5	问题5解决方案	第一次尝试 - 第二次尝试	第一次尝试
问题6	问题6解决方案	第一次尝试	第一次尝试
问题7	问题7解决方案	第一次尝试	第一次尝试
问题8	问题8解决方案	第一次尝试 - 第二次尝试	第一次尝试
问题9	问题9解决方案	第一次尝试	第一次尝试
问题10	问题10解决方案	第一次尝试	第一次尝试
问题11	问题11解决方案	第一次尝试 - 第二次尝试	第一次尝试 - 第二次尝试
问题12	问题12解决方案	第一次尝试	第一次尝试
问题13	问题13解决方案	第一次尝试 - 第二次尝试	第一次尝试 - 第二次尝试
问题14	问题14解决方案	第一次尝试	第一次尝试
问题15	问题15解决方案	N/A。	N/A。
问题16	问题16解决方案	第一次尝试	第一次尝试
问题17	问题17解决方案	第一次尝试 - 第二次尝试	第一次尝试
问题18	问题18解决方案	N/A。	第一次尝试
问题19	问题19解决方案	第一次尝试 - 第二次尝试	第一次尝试
问题20	问题20解决方案	第一次尝试	第一次尝试
问题21	问题21解决方案	第一次尝试	第一次尝试
问题22	问题22解决方案	N/A。	N/A。
问题23	问题23解决方案	第一次尝试 - 第二次尝试	第一次尝试
问题24	问题24解决方案	第一次尝试	第一次尝试
问题25	问题25解决方案	第一次尝试	第一次尝试
问题26	问题26解决方案	第一次尝试 - 第二次尝试	第一次尝试
问题27	问题27解决方案	第一次尝试	第一次尝试
问题28	问题28解决方案	N/A。	第一次尝试
问题29	问题29解决方案	第一次尝试	第一次尝试
问题30	问题30解决方案	第一次尝试	第一次尝试

鉴于这些问题的挑战，表现无可否认是令人印象深刻的（并且明显优于匹配的ProMTP上的Chatgpt的表现）。 GPT-4未能产生工作解决方案的两个问题都涉及分析很长的数量（分别为400位和5000位数字），也许暗示了令牌化的失败，而不是自身推理。

Alt文字

在一系列数学和编程问题上，GPT-4的表现优于CHATGPT。

chatgpt

我认为表现令人印象深刻。 CHATGPT（显然）从其培训数据集中反驳代码样本（在GitHub或Gitlab上生成的Python脚本都不匹配任何脚本），有时会尝试优化解决方案（例如，在问题19中使用divide and-conconquer方法，或者在问题6中使用：在问题6中使用： $$ sum_ {k = 1}^nk = frac {1} {2} n（n+1）$$三角形数字的表达式，而无需提示）。

正如其他人指出的那样，即使模型没有明显地增加问题的概念困难，该模型也很大程度上挣扎（CF问题13）。

最后，修改后的问题产生了一些见解。在许多情况下，该模型生成了一个Python脚本，该脚本生成了正确的答案（对于修改后的问题），但是Chatgpt从原始问题中写下了数值答案。在其他情况下，它完全忽略了修改后的措辞，并为我提供了解决问题的原始框架的工作解决方案。

展开

附加信息