近日,有報導稱Google正在利用Anthropic公司的Claude模式來改進其Gemini人工智慧專案。透過內部文件顯示,Google的承包商正在系統性地比較Gemini和Claude的輸出結果,以評估並提升Gemini的效能。這一做法引發了業界關注,也涉及AI模型評估的行業規範以及不同公司之間技術合作的倫理問題。本文將深入探討此事件的細節,並分析其潛在影響。
近日,Google的Gemini 人工智慧專案正在透過比較其輸出結果與Anthropic 公司的Claude 模型來提升自身效能。據TechCrunch 獲得的內部通訊記錄顯示,負責Gemini 改進的承包商正在系統地評估這兩種AI 模型的答案。

在AI 行業,模型的性能評估通常是透過行業基準測試來進行,而不是讓承包商逐一比較不同模型的答案。負責Gemini 的承包商需要根據多個標準對模型的輸出進行評分,包括真實性和詳細程度。他們每次有多達30分鐘的時間來判斷Gemini 和Claude 的回答哪個比較好。
最近,這些承包商注意到在他們使用的內部平台上,Claude 的引用頻繁出現。部分顯示給承包商的內容明確表示:「我是由Anthropic 創建的Claude。」 在一次內部聊天中,承包商們還發現Claude 的回答在強調安全性方面表現得更加突出。有承包商指出,Claude 的安全設定在所有AI 模型中是最嚴格的。在某些情況下,Claude 會對它認為不安全的提示選擇不回應,例如角色扮演其他AI 助手。而在另一個案例中,Claude 迴避了某個提示,而Gemini 的回答卻因包含「裸露和綁縛」 內容而被標記為「重大安全違規」。
需要注意的是,Anthropic 的商業服務條款禁止客戶在未經授權的情況下使用Claude 「建立競爭產品或服務」 或「訓練競爭AI 模式」。谷歌則是Anthropic 的主要投資者之一。
GoogleDeepMind 的發言人Shira McNamara 在接受TechCrunch 採訪時未透露谷歌是否獲得了Anthropic 的批准來使用Claude。 McNamara 表示,DeepMind 確實會比較模型輸出進行評估,但並未對Gemini 進行Claude 模型的訓練。她提到:“當然,按照行業標準做法,我們在某些情況下會將模型輸出進行比較。然而,任何關於我們使用Anthropic 模型訓練Gemini 的說法都是不准確的。”
上週,TechCrunch 還獨家報道,谷歌的承包商被要求在自己專業領域以外的領域對Gemini 的AI 回應進行評分。一些承包商在內部通訊中表示擔憂,認為Gemini 可能在敏感主題如醫療保健上產生不準確的資訊。
劃重點:
Gemini 正在與Claude 進行對比測試,以提升自身AI 模型的效能。
承包商負責評分,兩者的回答比較涉及多個標準,包括真實性和安全性。
Anthropic 禁止在未經授權的情況下使用Claude 進行競爭性模型的訓練。
谷歌使用Claude模型來改進Gemini的行為,引發了關於AI模型評估方法、資料使用倫理以及競爭關係的討論。 未來,類似的跨公司AI模型比較是否會成為產業常態,以及如何規範此類行為,都值得進一步關注。 這將對AI產業的發展和監管產生深遠影響。