最近、BuzzFeedのシニアデータサイエンティストであるMax Woolfは、AIを繰り返し要求することでコードを改善する効果を調査するための魅力的な実験を実施しました。実験では、彼はClaude3.5言語モデルを使用し、古典的なプログラミングチャレンジを提案しました。Pythonコードを作成して、数百万の乱数での合計の最大値を見つけました。

初期バージョンでは、Claude生成コードは657ミリ秒で実行されます。ただし、Wolfが単純な命令「Better Code」を入力し続けたため、結果のコードはわずか6ミリ秒に短縮され、パフォーマンスは100倍完全に改善されました。この結果は、人目を引くだけでなく、「より良いコード」を定義するプロセスの予期せぬ変更を示しています。
「より良いコードを書く」という4番目の要求で、クロードはコードをエンタープライズアプリケーションと同様の構造に予期せず変換し、Woolfが要求しなかった典型的なエンタープライズ機能を追加しました。これは、AIが「より良いコード」を「エンタープライズレベルのソフトウェア」に関連付けて、トレーニングプロセス中に吸収された知識を反映することを示唆しています。
開発者のサイモン・ウィリソンは、言語モデルがすべての新しい要求で完全に新しい視点からコードを調べると信じて、この反復改善現象の詳細な分析を実施しました。各リクエストには前の会話のコンテキストが含まれていますが、Claudeは、コードを初めて見たのはまるでそれを分析し、継続的に改善できるようにします。
しかし、Woolfは、より具体的なリクエストを行おうとする試みで、これによりより良い結果が得られるが、人間の修正が必要なコードにまだ微妙なエラーがあったことを発見した。したがって、彼は、正確な迅速なエンジニアリングが依然として重要であると強調しました。単純なフォローアップの質問は最初にコードの品質を改善する可能性がありますが、ターゲットを絞ったプロンプトは大幅なパフォーマンスの改善をもたらしますが、リスクもそれに応じて増加します。
この実験では、Claudeが最初に重複除去や並べ替えなど、人間の開発者が当たり前のことと思われるいくつかの最適化ステップをスキップしたことは注目に値します。さらに、質問をする方法の微妙な変化も、クロードの出力に大きな影響を与えます。
これらの印象的なパフォーマンスの向上にもかかわらず、ウルフは、人間の開発者がソリューションの検証とトラブルシューティングに依然として不可欠であることを思い出させてくれます。彼は、AIに生成されたコードを直接使用することはできないが、創造的でツールの推奨事項への能力は注目に値すると指摘した。
キーポイント:
AIは繰り返し指示を通じてコードのパフォーマンスを改善し、元のコード実行時間は657ミリ秒から6ミリ秒に低下しました。
AIはコードにエンタープライズ機能を自動的に追加し、「より良いコード」の独自の理解を示します。
迅速なエンジニアリングは依然として重要であり、正確なリクエストは結果の生成を高速化することができますが、それでも手動開発者による検証と修復が必要です。