Anthropic公司最近宣布了一項雄心勃勃的計劃,旨在資助開髮用於評估人工智慧模型性能和影響的新型基準,這標誌著人工智慧安全評估領域邁出了重要一步。該計劃將向第三方組織提供資金,用於開發能夠有效衡量人工智慧模型先進能力,特別是生成式AI模型能力的工具。此舉不僅能提升人工智慧安全領域整體水平,更將為整個生態系統提供寶貴的評估工具,解決目前高品質安全相關評估工具匱乏的問題。 Anthropic的這項倡議值得關注,但也引發了一些關於其公正性和關注重點的討論。
Anthropic公司週一宣布啟動一項新計劃,旨在資助開發能夠評估人工智慧模型性能和影響的新型基準,包括像其自家Claude這樣的生成模型。
根據Anthropic官方部落格發布的信息,該公司將向第三方組織提供資金支持,以開發"有效衡量人工智慧模型先進能力"的工具。有興趣的組織可以提交申請,評估將以滾動方式進行。

Anthropic表示,這項投資旨在提升整個人工智慧安全領域,為整個生態系統提供寶貴工具。公司認為,開發高品質、與安全相關的評估仍具有挑戰性,且需求超過供應。
該計劃重點關注人工智慧安全和社會影響,計劃透過新工具、基礎設施和方法創建具有挑戰性的基準。 Anthropic特別要求進行測試,以評估模型在網路攻擊、武器改進、操縱或欺騙等方面的能力。此外,公司也致力於開發一種用於識別和評估國家安全和國防相關人工智慧風險的"預警系統"。
Anthropic也表示,新計畫將支持探究人工智慧在輔助科學研究、多語言交流、減輕偏見以及自我審查等方面潛力的研究。為實現這些目標,公司設想建立新平台,讓專家開發評估並進行大規模試驗。
雖然Anthropic的這項舉措受到讚揚,但也引發了一些質疑。有觀點認為,考慮到公司的商業利益,其資助項目的公正性可能受到影響。此外,對於Anthropic提到的某些"災難性"和"欺騙性"人工智慧風險,一些專家表示懷疑,認為這可能會分散對當前更緊迫的人工智慧監管問題的注意力。
Anthropic希望這項計畫能推動全面的人工智慧評估成為業界標準。然而,獨立的人工智慧基準開發團體是否願意與商業人工智慧供應商合作,仍有待觀察。
Anthropic此舉能否成功推動人工智慧安全評估領域的發展,並促進更公正和全面的評估標準的建立,還需要時間的檢驗。 其計劃的長期影響和潛在的局限性仍需持續關注和評估。