舊金山AI新創公司Cosine發布了其最新AI模型Genie,這款專為軟體開發人員設計的模型在基準測試中表現出色,得分遠超競爭對手。 Cosine利用與OpenAI合作訓練的GPT-4o變體,並透過獨特的「編碼人類推理」能力,使Genie能夠自主或協作地完成各種程式設計任務,包括修復錯誤、開發新功能和重構程式碼。 Genie的成功也離不開Cosine獨有的資料訓練方法和對模型自我改進機制的巧妙運用,最終實現了在SWE-Bench測試中取得30%的領先成績。
總部位於舊金山的AI新創公司Cosine推出了一款名為Genie的新型AI模型,專為協助軟體開發人員設計。據該公司稱,Genie在基準測試中的表現遠超競爭對手,展現出卓越的能力。
Cosine與OpenAI合作,使用高品質數據對GPT-4o變體進行了訓練,取得了令人矚目的基準測試成績。該公司表示,Genie成功的關鍵在於其「編碼人類推理」的能力,這種能力可能不僅限於軟體開發領域。

Genie在SWE領域取得領先地位
Cosine的聯合創始人兼首席執行官Alistair Pullen透露,Genie在SWE-Bench測試中獲得了30%的成績,這是AI模型在該領域迄今為止的最高得分。這項成績超越了其他專注於編碼的語言模型,例如亞馬遜的模型(19%)和Cognition的Devin(在SWE-Bench的部分測試中為13.8%)。
Genie的架構旨在模擬人類開發人員的認知過程,它能夠自主或協作地修復錯誤、開發新功能、重構程式碼,並執行各種程式設計任務。
透過合成資料實現自我提升
Genie的開發過程採用了一種專有流程,使用數十億個高品質資料對非公開的GPT-40變體進行了訓練和微調。 Cosine在經驗豐富的開發人員的幫助下,花費近一年的時間整理這些數據,資料集包含21%的JavaScript和Python、14%的TypeScript和TSX,以及3%的其他語言(包括Java、C++和Ruby)。
Genie的卓越表現部分歸功於其自我改進訓練。最初,該模型主要從完美、有效的程式碼中學習,但對自身錯誤的處理感到困惑。 Cosine透過使用合成資料解決了這個問題:如果Genie最初提出的解決方案不正確,則向模型展示如何透過正確的結果進行改進。隨著每次迭代,Genie的解決方案逐步完善,所需的修正次數也逐漸減少。

克服技術限制
Pullen早在2022年初就看到了大型語言模型在支援人類軟體開發方面的潛力。然而,當時的技術尚未達到實現Genie願景的水平。上下文視窗的標記容量通常限制在4000個標記,這是一個主要瓶頸。如今,諸如Gemini1.5Pro等型號可以在一次提示中處理多達200萬個標記。雖然Cosine尚未透露Genie的具體標記容量,但這項技術進步無疑為Genie的成功提供了堅實的基礎。
Genie的出現標誌著AI輔助軟體開發領域取得了重大突破,其高效的編碼能力和自我學習機制為未來軟體開發提供了新的可能性。 Cosine的創新技術為提升軟體開發效率和降低開發成本提供了新的思路,值得業界關注和進一步研究。