プリンストン大学は、GPT-4 テクノロジーに基づいており、GitHub リポジトリのバグを自動的に修正できる世界初のオープンソース AI プログラマ SWE-agent をリリースしました。 SWE エージェントは SWE ベンチ テスト セットで良好なパフォーマンスを示し、問題の 12.29% を正常に解決し、平均所要時間はわずか 93 秒で、既存の AI プログラマーと同等の精度を実現しました。そのオープンソースの性質により、すぐに多くの注目を集め、ソフトウェア エンジニアリングの分野における AI の大きな可能性を実証しました。この記事では、SWE エージェントの動作原理、パフォーマンス、将来のソフトウェア エンジニアリングへの影響について詳しく説明します。
プリンストン大学は最近、SWE-agent と呼ばれる AI プログラマーを立ち上げました。これは GPT-4 テクノロジーに基づいており、GitHub リポジトリのバグを自動的に修正できます。このエージェントとコンピューターのインターフェイスの誕生は、ソフトウェア エンジニアリングの分野における AI の応用における重要な一歩を示しています。 SWE ベンチ テスト セットにおける SWE エージェントのパフォーマンスは印象的で、平均所要時間はわずか 93 秒で問題の 12.29% を解決し、その精度は以前にリリースされた AI プログラマー Devin に匹敵しました。 SWE エージェントのオープン ソースの性質は、GitHub 上ですぐに 1.6,000 のスターと 109 のフォークを獲得したことを意味し、このテクノロジーに対するオープン ソース コミュニティの高い認識と関心を示しています。 SWE エージェントは、ファイルを開いたり、スクロールしたり、検索したり、特定の行を編集したり、構文チェックを自動的に実行したり、テストを作成して実行したりできる専用の端末と対話することによって機能します。このデザインは人間向けに設計された UI に似ており、エラーを防ぎ、フィードバックを提供します。たとえば、行列演算のバグに対処する場合、SWE エージェントは問題を再現し、問題のコードを特定し、修正を加えて問題を正常に解決できます。プリンストン大学の研究者は、SWE エージェント用の簡潔な指示とフィードバックの形式を設計し、モデルがコード リポジトリを参照し、コード ファイルを表示、編集、実行しやすくしました。 SWE-agent のワークフローは、推論と評価の 2 つの段階に分かれています。推論フェーズでは、SWE エージェントが GitHub 上で問題を処理し、修復ソリューションを生成します。評価フェーズでは、ソリューションが実際に問題を解決するかどうかを確認します。この研究の中心著者である John Yang と Carlos E. Jimenez は、どちらもプリンストン大学の研究助手および博士課程の学生であり、言語の基礎、インタラクション、LLM ベンチマーク、ソフトウェア エンジニアリング、およびコード生成に焦点を当てています。彼らの研究は、ソフトウェア エンジニアリングの分野における AI の可能性を実証し、エンジニアリング プロセスにおける AI と人間の役割と能力について深く考えるきっかけとなります。 AI テクノロジーの発展により、プログラミングの分野でも AI が進歩し、複雑なエンジニアリング タスクを計画して実行できるだけでなく、バグを修正したり、プロジェクト開発プロセス全体を担当したりすることができます。ただし、安全なコードの作成において AI が進歩したにもかかわらず、人間による監視は依然として重要です。 AI の台頭はまだソフトウェア エンジニアを完全に置き換える段階には達していませんが、テクノロジー分野の様相と将来の方向性を変えつつあります。プリンストン チームのこのオープンソース AI プログラマーは、ソフトウェア エンジニアリングの分野に新たな研究と応用の展望をもたらすだけでなく、未来を創造するための人工知能と人間の協力について考える機会も与えてくれます。テクノロジーが進歩し続けるにつれて、ソフトウェア エンジニアリングの分野で AI がさらに重要な役割を果たすようになるかもしれません。SWE エージェントの登場は、AI 支援プログラミングにおける新たなマイルストーンを示していますが、人間による監視は依然として必要ですが、開発効率とコード品質を向上させる可能性は無視できません。将来的には、AI と人間のプログラマーの協力がソフトウェア エンジニアリングの分野の主流となり、共同で技術の進歩を促進するでしょう。