在最近的一場發布會上,谷歌CEO 桑達爾・皮查伊(Sundar Pichai)宣布了一項重大突破:谷歌開源了其最新的多模態大模型Gemma-3。這一模型以其低成本和高性能的特點,迅速成為科技界的焦點。 Gemma-3的發布標誌著谷歌在人工智能領域的又一次重要進展,尤其是在多模態處理和長上下文處理方面。
Gemma-3提供了四種不同參數規模的選項,分別是10億、40億、120億和270億參數。其中,270億參數的模型僅需一張H100顯卡即可高效推理,這一算力需求僅為同類模型的十分之一。這一突破使得Gemma-3成為目前算力要求最低的高性能模型之一,極大地降低了使用門檻。
根據最新的測試數據,Gemma-3在各類對話模型中的表現非常出色,僅次於知名的DeepSeek 模型,超越了OpenAI 的o3-mini 和Llama3等多個熱門模型。 Gemma-3的架構延續了前兩代的通用解碼器Transformer 設計,但在此基礎上進行了多項創新和優化。為了解決長上下文帶來的內存問題,Gemma-3採用了局部與全局自註意力層交錯的架構,顯著降低了內存佔用。
在上下文處理能力方面,Gemma-3支持的上下文長度擴展到了128Ktoken,為處理長文本提供了更好的支持。此外,Gemma-3還具備多模態能力,能夠同時處理文本和圖像,並集成了基於VisionTransformer 的視覺編碼器,有效減少了圖像處理的計算成本。這些特性使得Gemma-3在復雜任務中表現出色。
在訓練過程中,Gemma-3使用了更多的token 預算,特別是在270億參數模型中使用了14T 的token 量,並引入了多語言數據,以增強模型的語言處理能力。 Gemma-3支持140種語言,其中35種語言可以直接使用。通過先進的知識蒸餾技術,Gemma-3在訓練後期通過強化學習優化模型表現,尤其是在幫助性、推理能力和多語言能力等方面取得了顯著提升。
經過評測,Gemma-3在多模態任務上表現優異,長文本處理能力也令人印象深刻,達到了66% 的準確率。此外,在對話能力評估中,Gemma-3的表現也名列前茅,顯示了其在各項任務中的綜合實力。這些成果使得Gemma-3成為當前最受關注的多模態大模型之一。
Gemma-3的開源地址為:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d。這一開源舉措將進一步推動人工智能技術的發展,為研究者和開發者提供強大的工具和資源。
劃重點:Gemma-3是谷歌最新開源的多模態大模型,參數範圍從10億到270億,且算力需求降低10倍。模型採用創新的架構設計,有效處理長上下文和多模態數據,支持文本與圖像的同時處理。 Gemma-3支持140種語言的處理能力,經過訓練優化後在多項任務中表現優異,展現了強大的綜合能力。