最近、Openaiの研究者は、新たにリリースされた論文で、現在のAIテクノロジーは非常に進歩しているが、これらのモデルは依然として人間のプログラマーと比較できないことを認めました。 Openai CEOのSam Altmanは、AIが今年末までに「低レベルの」ソフトウェアエンジニアを倒すと予想されると述べていますが、調査結果は、これらのAIモデルが依然として重要な課題に直面していることを示しています。

この調査では、OpenaiチームはSWE-Lancerと呼ばれる新しいベンチマークを使用して、フリーランスのWebサイトUpworkから抽出された1,400を超えるソフトウェアエンジニアリングタスクのパフォーマンスを評価しました。このテストは、OpenAIのO1推論モデル、フラッグシップGPT-4O、およびAnthropicのClaude3.5Sonnetを含む、3つの大手言語モデル(LLMS)のコーディング機能に焦点を当てました。
これらのモデルは、2種類のタスクを完了するために必要です。1つは単一のタスクで、主にプログラムのエラーの修正に焦点を当てています。もう1つは、タスクを管理することです。これは、モデルがより高いレベルの決定を下すために必要です。テストプロセス中、これらのモデルはインターネットにアクセスできません。つまり、オンラインで回答を直接見つけることができません。
これらのモデルが行うタスクの合計値は数十万ドルと同じですが、表面的な問題を解決し、複雑なプロジェクトでより深いエラーや根本原因を見つけることを困難にすることができます。この状況は、AIを使用する経験を思い出させます。AIはすぐに正しい情報を迅速に生成できますが、より深いテストでの欠点がしばしば明らかになります。
この論文は、これらの3つのLLMはタスクの処理において人間よりもはるかに高速ですが、エラーの広がりとコンテキストを完全に理解できないことが多く、しばしば不正確または不完全なソリューションにつながると指摘しています。研究者は、Claude3.5SonnetはOpenaiの2つのモデルよりも優れたパフォーマンスを発揮し、より高いリターンを獲得したと述べましたが、その答えはまだ正確ではありませんでした。
調査によると、これらの高度なAIモデルは特定の特定のタスクで迅速に動作しますが、全体的なソフトウェアエンジニアリング機能には依然として不十分であり、人間のプログラマを置き換えることができるレベルに到達するにはほど遠いことが示されています。ただし、これは一部の企業が人間のプログラマーを未熟なAIモデルに置き換えることを止めていません。
キーポイント:
openai Openaiの研究は、高度なAIモデルがコーディング機能において人間のプログラマーにまだ遅れていることを示しています。
3つのAIモデルは、コーディングエラーの修正においてパフォーマンスが低く、複雑な問題を解決することは困難です。
彼らの速いAIにもかかわらず、彼らの包括的な理解の欠如は、ソリューションの精度が不十分になりました。