Bei einem kürzlichen Start kündigte Google-CEO Sundar Pichai einen großen Durchbruch an: Google eröffnet das neueste multimodale Mockup Gemma-3. Mit geringen Kosten und hohen Leistung wurde dieses Modell schnell im Mittelpunkt der Technologieindustrie. Die Veröffentlichung von Gemma-3 markiert einen weiteren wichtigen Fortschritt von Google im Bereich der künstlichen Intelligenz, insbesondere in der multimodalen Verarbeitung und der langen Kontextverarbeitung.
Gemma-3 bietet vier Optionen für verschiedene Parameterskalen, nämlich 1 Milliarde, 4 Milliarden, 12 Milliarden und 27 Milliarden Parameter. Unter ihnen erfordert ein Modell mit einem Parameter von 27 Milliarden nur eine H100-Grafikkarte, um effiziente Schlussfolgerung zu erzielen, und diese Rechenleistung ist nur ein Zehntel der ähnlichen Modelle. Dieser Durchbruch macht GEMMA-3 zu einem der Hochleistungsmodelle mit den niedrigsten Rechenleistungspflicht und reduziert den Schwellenwert für die Verwendung erheblich.
Laut den neuesten Testdaten spielt Gemma-3 in verschiedenen Konversationsmodellen sehr gut, wobei das bekannte Deepseek-Modell an zweiter Stelle steht und OpenAs mehrere beliebte Modelle wie O3-Mini und LLAMA3 übertrifft. Die Gemma-3-Architektur setzt das Design des General-Purple-Decoder-Transformators aus den beiden vorherigen Generationen fort, hat jedoch auf dieser Grundlage mehrere Innovationen und Optimierungen durchgeführt. Um das durch lange Kontexte verursachte Gedächtnisproblem zu lösen, nimmt Gemma-3 eine Architektur der Verschachtung lokaler und globaler Selbstbekämpfungsschichten an, die den Speicherverbrauch erheblich reduziert.
In Bezug auf die Kontextverarbeitungsfunktionen wird die von GEMMA-3 unterstützte Kontextlänge auf 128ktoken erweitert, was eine bessere Unterstützung für die Verarbeitung langer Text bietet. Darüber hinaus verfügt GEMMA-3 auch multimodale Funktionen, kann gleichzeitig Text und Bilder verarbeiten und einen VisionTransformer-basierten Visionscodierer integrieren, wodurch die Berechnungskosten der Bildverarbeitung effektiv reduziert werden. Diese Funktionen machen die GEMMA-3 in komplexen Aufgaben gut ab.
Während des Schulungsprozesses verwendete Gemma-3 mehr Token-Budgets, insbesondere 14T-Token-Volumina im 27-Milliarden-Parametermodell und führte mehrsprachige Daten ein, um die Sprachverarbeitungsfunktionen des Modells zu verbessern. Gemma-3 unterstützt 140 Sprachen, von denen 35 direkt verwendet werden können. Durch fortschrittliche Wissensdestillationstechnologie optimiert GEMMA-3 die Modellleistung durch Verstärkungslernen später in der Trainingszeit, insbesondere in Bezug auf Hilfsfähigkeit, Argumentationsfähigkeit und mehrsprachige Fähigkeiten.
Nach der Bewertung hat GEMMA-3 bei multimodalen Aufgaben gut abschnitten, und seine langen Textverarbeitungsfähigkeiten waren beeindruckend und erreichten eine Genauigkeit von 66%. Darüber hinaus gehört die Leistung von GEMMA-3 auch in der Bewertung der Dialogfähigkeiten und zeigt seine umfassende Stärke in verschiedenen Aufgaben. Diese Ergebnisse machen Gemma-3 zu einem der beliebtesten multimodalen Modelle.
Die Open-Source-Adresse von Gemma-3 lautet: https://huggingface.co/collections/google/gemma-3-3-67c6c6f89c4f76621268bb6d. Diese Open -Source -Initiative wird die Entwicklung der Technologie für künstliche Intelligenz weiter fördern und Forschern und Entwicklern leistungsfähige Tools und Ressourcen bieten.
Schlüsselpunkte: Gemma-3 ist das neueste Open-Source-multimodale Open-Source-Modell mit den Parametern zwischen 1 und 27 Milliarden, und die Rechenleistungserfrage wird um das 10-fache verringert. Das Modell nimmt ein innovatives architektonisches Design an, um den langen Kontext und multimodalen Daten effektiv zu verarbeiten, wodurch die gleichzeitige Verarbeitung von Text und Bildern unterstützt wird. Gemma-3 unterstützt die Verarbeitungsfunktionen in 140 Sprachen. Nach dem Training und der Optimierung wird in mehreren Aufgaben hervorragend durchgeführt und zeigt starke umfassende Fähigkeiten.