La nouvelle génération de Google de modèle multimodal Gemma-3: excellentes performances et 10 fois le coût inférieur - articles de l'IA

Auteur：Eve Cole Date de mise à jour：2025-05-19 20:50:02

Lors d'un récent lancement, le PDG de Google, Sundar Pichai, a annoncé une percée majeure: Google ouvre sa dernière maquette multimodale Gemma-3. Avec son faible coût et ses performances élevées, ce modèle est rapidement devenu au centre de l'industrie technologique. La libération de GEMMA-3 marque un autre progrès important de Google dans le domaine de l'intelligence artificielle, en particulier dans le traitement multimodal et le traitement de contexte long.

Gemma-3 offre quatre options pour différentes échelles de paramètres, à savoir 1 milliard, 4 milliards, 12 milliards et 27 milliards de paramètres. Parmi eux, un modèle avec un paramètre de 27 milliards ne nécessite qu'une seule carte graphique H100 pour effectuer une inférence efficace, et cette exigence de puissance de calcul n'est qu'un dixième de celle des modèles similaires. Cette percée fait de Gemma-3 l'un des modèles haute performance avec les exigences de puissance de calcul les plus basses, réduisant considérablement le seuil d'utilisation.

Selon les dernières données de test, Gemma-3 fonctionne très bien dans divers modèles de conversation, juste derrière le modèle Deepseek bien connu, dépassant les multiples modèles populaires d'Openai tels que O3-Mini et Llama3. L'architecture GEMMA-3 poursuit la conception du transformateur de décodeur à usage général des deux générations précédentes, mais a effectué de multiples innovations et optimisations sur cette base. Afin de résoudre le problème de la mémoire causé par de longs contextes, Gemma-3 adopte une architecture des couches d'auto-agence d'auto-agence locales et globales, ce qui réduit considérablement l'utilisation de la mémoire.

En termes de capacités de traitement de contexte, la longueur de contexte soutenue par GEMMA-3 est étendue à 128ktoken, offrant une meilleure prise en charge du traitement du texte long. De plus, Gemma-3 a également des capacités multimodales, peut traiter le texte et les images en même temps et intègre un encodeur de vision basé sur les transformateurs de vision, réduisant efficacement le coût de calcul du traitement d'image. Ces fonctionnalités font que Gemma-3 fonctionne bien dans des tâches complexes.

Au cours du processus de formation, GEMMA-3 a utilisé plus de budgets de jetons, en particulier les volumes de jetons 14T dans le modèle de paramètres de 27 milliards de dollars, et a introduit des données multilingues pour améliorer les capacités de traitement du langage du modèle. Gemma-3 prend en charge 140 langues, dont 35 peuvent être utilisées directement. Grâce à la technologie avancée de la distillation des connaissances, Gemma-3 optimise les performances du modèle grâce à l'apprentissage du renforcement plus tard dans la période de formation, en particulier en termes d'aide, de capacité de raisonnement et de capacité multilingue.

Après évaluation, Gemma-3 a bien fonctionné dans les tâches multimodales, et ses longues capacités de traitement du texte étaient impressionnantes, ce qui a atteint une précision de 66%. De plus, la performance de Gemma-3 est également parmi les premiers à l'évaluation des capacités du dialogue, montrant sa force complète dans diverses tâches. Ces résultats font de Gemma-3 l'un des modèles multimodaux les plus populaires.

L'adresse open source de Gemma-3 est: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d. Cette initiative open source favorisera davantage le développement de la technologie de l'intelligence artificielle et fournira aux chercheurs et aux développeurs des outils et des ressources puissants.

Points clés: GEMMA-3 est le dernier modèle multimodal open source de Google, avec des paramètres allant de 1 milliard à 27 milliards, et la demande de puissance informatique est réduite de 10 fois. Le modèle adopte une conception architecturale innovante pour traiter efficacement le contexte long et les données multimodales, soutenant le traitement simultané du texte et des images. Gemma-3 prend en charge les capacités de traitement en 140 langues. Après la formation et l'optimisation, il se comporte parfaitement dans plusieurs tâches et démontre de fortes capacités complètes.