谷歌開源新一代多模態模型Gemma-3：性能卓越、成本降低10 倍- AI文章

作者：Eve Cole 更新時間：2025-05-19 20:50:02

在最近的一場發布會上，谷歌CEO 桑達爾・皮查伊（Sundar Pichai）宣布了一項重大突破：谷歌開源了其最新的多模態大模型Gemma-3。這一模型以其低成本和高性能的特點，迅速成為科技界的焦點。 Gemma-3的發布標誌著谷歌在人工智能領域的又一次重要進展，尤其是在多模態處理和長上下文處理方面。

Gemma-3提供了四種不同參數規模的選項，分別是10億、40億、120億和270億參數。其中，270億參數的模型僅需一張H100顯卡即可高效推理，這一算力需求僅為同類模型的十分之一。這一突破使得Gemma-3成為目前算力要求最低的高性能模型之一，極大地降低了使用門檻。

根據最新的測試數據，Gemma-3在各類對話模型中的表現非常出色，僅次於知名的DeepSeek 模型，超越了OpenAI 的o3-mini 和Llama3等多個熱門模型。 Gemma-3的架構延續了前兩代的通用解碼器Transformer 設計，但在此基礎上進行了多項創新和優化。為了解決長上下文帶來的內存問題，Gemma-3採用了局部與全局自註意力層交錯的架構，顯著降低了內存佔用。

在上下文處理能力方面，Gemma-3支持的上下文長度擴展到了128Ktoken，為處理長文本提供了更好的支持。此外，Gemma-3還具備多模態能力，能夠同時處理文本和圖像，並集成了基於VisionTransformer 的視覺編碼器，有效減少了圖像處理的計算成本。這些特性使得Gemma-3在復雜任務中表現出色。

在訓練過程中，Gemma-3使用了更多的token 預算，特別是在270億參數模型中使用了14T 的token 量，並引入了多語言數據，以增強模型的語言處理能力。 Gemma-3支持140種語言，其中35種語言可以直接使用。通過先進的知識蒸餾技術，Gemma-3在訓練後期通過強化學習優化模型表現，尤其是在幫助性、推理能力和多語言能力等方面取得了顯著提升。

經過評測，Gemma-3在多模態任務上表現優異，長文本處理能力也令人印象深刻，達到了66% 的準確率。此外，在對話能力評估中，Gemma-3的表現也名列前茅，顯示了其在各項任務中的綜合實力。這些成果使得Gemma-3成為當前最受關注的多模態大模型之一。

Gemma-3的開源地址為：https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d。這一開源舉措將進一步推動人工智能技術的發展，為研究者和開發者提供強大的工具和資源。

劃重點：Gemma-3是谷歌最新開源的多模態大模型，參數範圍從10億到270億，且算力需求降低10倍。模型採用創新的架構設計，有效處理長上下文和多模態數據，支持文本與圖像的同時處理。 Gemma-3支持140種語言的處理能力，經過訓練優化後在多項任務中表現優異，展現了強大的綜合能力。

​谷歌開源新一代多模態模型Gemma-3：性能卓越、成本降低10 倍- AI文章

谷歌開源新一代多模態模型Gemma-3：性能卓越、成本降低10 倍- AI文章