GPT 4 ChatGPT Project EulerダウンロードGPT 4 ChatGPT Project Eulerソースコードダウンロード

GPT 4 ChatGPT Project Euler

その他のソースコード

1.0.0

ダウンロード

GPT-4＆CHATGPT - Project Euler

Project EulerでのGPT-4とCHATGPT（両方のOpenai）のパフォーマンスの調査。数学的な推論とプログラミングをブレンドする一連の問題。

結果

ここでは、プロジェクトオイラーの問題1〜30をプロンプトとして表現するために、テキストと方程式（GPT-4とCHATGPTが解析できることを使用して必要な場合）を提供しました。一貫性のために、すべての場合において、Pythonスクリプトの形でソリューションを要求する文を追加しました。既知のグラウンドトゥルースベースラインに対してこのスクリプトを評価した後、GPT-4またはChatGPTのいずれかを再試行するか、次の問題に移行しました。

次に、問題の概念と構造が同じままになるように問題を変更しましたが、特殊性は変更されました（この例など）。これにより、より興味深い結果が得られました（コメントを参照）。

画像の説明

ここで、GreenはChatGptを最初に尋ねたときに正しいソリューションを見つけることを示します。 2番目の質問でオレンジ。赤は解決策を見つけられなかったことを意味します。グレーは、問題を表現する良い方法を見つけることができなかったことを意味します。これは通常、画像を理解する必要があるためです。

GPT-4とCHATGPTの両方を元の問題で促すことにより、パフォーマンスを直接比較することができます。

画像の説明

GPT-4は、一致した問題全体でChatGPTを上回ります。

問題＃	グラウンドトゥラースソリューション	ChatGptソリューション	GPT-4ソリューション
問題1	問題1ソリューション	最初の試み	最初の試み
問題2	問題2ソリューション	最初の試み	最初の試み
問題3	問題3ソリューション	最初の試み	最初の試み
問題4	問題4解決策	最初の試み	最初の試み
問題5	問題5解決策	最初の試行 - 2回目の試行	最初の試み
問題6	問題6解決策	最初の試み	最初の試み
問題7	問題7解決策	最初の試み	最初の試み
問題8	問題8解決策	最初の試行 - 2回目の試行	最初の試み
問題9	問題9ソリューション	最初の試み	最初の試み
問題10	問題10解決策	最初の試み	最初の試み
問題11	問題11ソリューション	最初の試行 - 2回目の試行	最初の試行 - 2回目の試行
問題12	問題12ソリューション	最初の試み	最初の試み
問題13	問題13ソリューション	最初の試行 - 2回目の試行	最初の試行 - 2回目の試行
問題14	問題14解決策	最初の試み	最初の試み
問題15	問題15解決策	n/a	n/a
問題16	問題16ソリューション	最初の試み	最初の試み
問題17	問題17ソリューション	最初の試行 - 2回目の試行	最初の試み
問題18	問題18ソリューション	n/a	最初の試み
問題19	問題19ソリューション	最初の試行 - 2回目の試行	最初の試み
問題20	問題20ソリューション	最初の試み	最初の試み
問題21	問題21ソリューション	最初の試み	最初の試み
問題22	問題22ソリューション	n/a	n/a
問題23	問題23ソリューション	最初の試行 - 2回目の試行	最初の試み
問題24	問題24解決策	最初の試み	最初の試み
問題25	問題25ソリューション	最初の試み	最初の試み
問題26	問題26ソリューション	最初の試行 - 2回目の試行	最初の試み
問題27	問題27ソリューション	最初の試み	最初の試み
問題28	問題28解決策	n/a	最初の試み
問題29	問題29ソリューション	最初の試み	最初の試み
問題30	問題30ソリューション	最初の試み	最初の試み

これらの問題の課題を考えると、パフォーマンスは間違いなく印象的でした（そして、一致したPROMTPでのChatGPTのパフォーマンスよりも大幅に優れています）。 GPT-4が作業ソリューションを生成できなかった2つの問題は、非常に長い数値（それぞれ400桁と5000桁）の両方を解析することを伴い、おそらくそれ自体を推論するのではなく、トークン化の障害を示唆しています。

altテキスト

GPT-4は、さまざまな数学的およびプログラミングの問題にわたるワンショットの精度の観点からChatGPTを上回ります。

chatgpt

私の意見では、パフォーマンスは非常に印象的でした。 CHATGPTは、トレーニングデータセットからコードサンプルを（明らかに）逆流させませんでした（生成されたPythonスクリプトは、GithubまたはGitLabで一致していません）。 $$ sum_ {k = 1}^nk = frac {1} {2} n（n+1）$$プロンプトなしの三角形の数の式）。

他の人が指摘したように、このモデルは、問題の概念的な難しさをそれほど増えない場合でも、非常に多くの数と格闘しています（CF問題13）。

最後に、修正された問題はいくつかの洞察をもたらしました。多くの場合、モデルは正しい答えを生成する（修正された問題のために）生成するPythonスクリプトを生成しましたが、ChatGptは元の質問から数値の答えを書きました。他の場合には、修正された文言を完全に無視し、問題の元のフレーミングに対する実用的なソリューションを提供してくれました。

拡大する

追加情報