最近の発売で、Google CEOのSundar Pichaiは大きなブレークスルーを発表しました。Googleは最新のマルチモーダルモックアップGemma-3を開きます。低コストと高性能で、このモデルはすぐにテクノロジー業界の焦点になりました。 Gemma-3のリリースは、特にマルチモーダル処理と長いコンテキスト処理における人工知能の分野でのGoogleによる別の重要な進歩を示しています。
Gemma-3は、異なるパラメータースケール、すなわち10億、40億、120億、270億のパラメーターに4つのオプションを提供します。その中で、270億個のパラメーターを備えたモデルでは、効率的な推論を行うために1匹のH100グラフィックカードのみが必要であり、このコンピューティングパワー要件は同様のモデルのそれのうち10分の1です。このブレークスルーにより、Gemma-3は、コンピューティング電力要件が最も低い高性能モデルの1つになり、使用のしきい値が大幅に削減されます。
最新のテストデータによると、Gemma-3は、O3-MiniやLlama3などのOpenaiの複数の人気モデルを上回る、よく知られているDeepseekモデルに次ぐさまざまな会話モデルで非常によく機能します。 Gemma-3アーキテクチャは、過去2世代からの汎用デコーダートランスの設計を継続していますが、これに基づいて複数の革新と最適化を実施しています。長いコンテキストによって引き起こされるメモリ問題を解決するために、Gemma-3は、ローカルおよびグローバルな自己関節層のインターリーニングのアーキテクチャを採用しており、これによりメモリの使用が大幅に削減されます。
コンテキスト処理機能の観点から、GEMMA-3によってサポートされるコンテキストの長さは128ktokenに拡張され、長いテキストの処理に適したサポートを提供します。さらに、GEMMA-3にはマルチモーダル機能もあり、テキストと画像を同時に処理し、ビジョン変換ベースのビジョンエンコーダーを統合して、画像処理の計算コストを効果的に削減できます。これらの機能により、Gemma-3は複雑なタスクでうまく機能します。
トレーニングプロセス中、Gemma-3はより多くのトークン予算、特に270億パラメーターモデルで14Tトークンボリュームを使用し、モデルの言語処理機能を強化するために多言語データを導入しました。 Gemma-3は140の言語をサポートしており、そのうち35は直接使用できます。高度な知識蒸留テクノロジーを通じて、GEMMA-3は、特に役立た、推論能力、多言語能力の観点から、トレーニング期間の後半に強化学習を通じてモデルのパフォーマンスを最適化します。
評価後、Gemma-3はマルチモーダルタスクでうまく機能し、その長いテキスト処理機能は印象的で、66%の精度を達成しました。さらに、Gemma-3のパフォーマンスは、ダイアログ能力評価のトップの1つでもあり、さまざまなタスクでの包括的な強みを示しています。これらの結果により、Gemma-3は最も人気のあるマルチモーダルモデルの1つになります。
Gemma-3のオープンソースアドレスは、https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6dd。このオープンソースイニシアチブは、人工知能技術の開発をさらに促進し、研究者と開発者に強力なツールとリソースを提供します。
キーポイント:Gemma-3は、Googleの最新のオープンソースマルチモーダルモデルであり、パラメーターは10億から270億の範囲であり、コンピューティングパワーの需要は10倍削減されます。このモデルは、革新的な建築設計を採用して、長いコンテキストとマルチモーダルデータを効果的に処理し、テキストと画像の同時処理をサポートします。 Gemma-3は、140の言語で処理機能をサポートしています。トレーニングと最適化の後、複数のタスクで優れたパフォーマンスを発揮し、強力な包括的な機能を実証します。