サンフランシスコの AI スタートアップ Cosine は、最新の AI モデル Genie をリリースしました。これはソフトウェア開発者向けに設計されており、ベンチマーク テストで優れたパフォーマンスを示し、競合他社をはるかに上回るスコアを獲得しました。 Cosine は、OpenAI と提携してトレーニングされた GPT-4o バリアントを活用し、その独自の「コード化人間推論」機能を通じて、Genie がバグの修正、新機能の開発、コードのリファクタリングなど、さまざまなプログラミング タスクを自律的または共同で完了できるようにします。 Genie の成功は、Cosine の独自のデータ トレーニング方法と、最終的に SWE-Bench テストで 30% のトップ スコアを達成したモデルの自己改善メカニズムの賢明な使用からも切り離せません。
サンフランシスコを拠点とする AI スタートアップ Cosine は、ソフトウェア開発者を支援するために設計された Genie と呼ばれる新しい AI モデルを発表しました。同社によると、Genieはベンチマークテストで競合他社を大きく上回り、優れた機能を実証したという。
Cosine は OpenAI と提携して、高品質のデータを使用して GPT-4o バリアントをトレーニングし、優れたベンチマーク結果を達成しました。同社は、Genie の成功の鍵は「人間の推論をエンコードする」能力であると述べていますが、これはソフトウェア開発の世界に限定されるものではないかもしれません。

ジーニーがSWEで主導権を握る
Cosine の共同創設者兼 CEO の Alistair Pullen 氏は、Genie が SWE-Bench テストで 30% のスコアを達成したことを明らかにしました。これは、この分野の AI モデルとしてはこれまでの最高スコアです。このスコアは、Amazon のモデル (19%) や Cognition の Devin (SWE-Bench の一部のテストで 13.8%) など、他のコーディングに重点を置いた言語モデルを上回ります。
Genie のアーキテクチャは、人間の開発者の認知プロセスをシミュレートするように設計されており、バグの修正、新機能の開発、コードのリファクタリング、およびさまざまなプログラミング タスクを自律的または共同で実行できるようになります。
合成データによる自己改善
Genie は、数十億の高品質データを使用して非公開の GPT-40 バリアントをトレーニングおよび微調整する独自のプロセスを使用して開発されました。 Cosine は、経験豊富な開発者の助けを借りて、このデータを照合するのに 1 年近くを費やしました。このデータ セットには、JavaScript と Python が 21%、TypeScript と TSX が 14%、Java、C++、Ruby を含むその他の言語が 3% 含まれています。
Genie の優れたパフォーマンスの一部は、自己改善トレーニングによるものです。当初、モデルは主に完璧で動作するコードから学習しましたが、独自のエラー処理については混乱していました。 Cosine は合成データを使用してこの問題を解決します。Genie が最初に提案した解決策が間違っていた場合、正しい結果をもたらす改善方法がモデルに示されます。反復するたびに、Genie のソリューションは徐々に改善され、必要な改訂の数は徐々に減少しました。

技術的な限界を克服する
Pullen 氏は、早ければ 2022 年初めにも人間のソフトウェア開発をサポートする上で大規模な言語モデルの可能性を認識しました。しかし、当時の技術はまだジーニーのビジョンを実現できるレベルには達していませんでした。コンテキスト ウィンドウのマーク容量は通常 4000 マークに制限されており、これが大きなボトルネックとなっています。現在、Gemini 1.5 Pro などのモデルは、1 つのプロンプトで最大 200 万個のマーカーを処理できます。 Cosine は Genie の具体的な標識能力を明らかにしていませんが、この技術の進歩が Genie の成功に強固な基盤を提供することは間違いありません。
Genie の登場は、AI 支援ソフトウェア開発の分野における大きな進歩をもたらし、その効率的なコーディング機能と自己学習メカニズムにより、将来のソフトウェア開発に新たな可能性がもたらされます。コサインの革新的なテクノロジーは、ソフトウェア開発の効率を向上させ、開発コストを削減するための新しいアイデアを提供するものであり、業界の注目と更なる研究に値します。