En un lanzamiento reciente, el CEO de Google, Sundar Pichai, anunció un gran avance: Google abre su última maqueta multimodal Gemma-3. Con su bajo costo y alto rendimiento, este modelo se convirtió rápidamente en el foco de la industria de la tecnología. El lanzamiento de GEMMA-3 marca otro progreso importante de Google en el campo de la inteligencia artificial, especialmente en el procesamiento multimodal y el largo procesamiento de contexto.
GEMMA-3 proporciona cuatro opciones para diferentes escalas de parámetros, a saber, 1 mil millones, 4 mil millones, 12 mil millones y 27 mil millones de parámetros. Entre ellos, un modelo con un parámetro de 27 mil millones solo requiere una tarjeta gráfica H100 para hacer una inferencia eficiente, y este requisito de potencia informática es solo una décima parte del de modelos similares. Este avance hace que Gemma-3 sea uno de los modelos de alto rendimiento con los requisitos de potencia informática más bajos, reduciendo en gran medida el umbral para su uso.
Según los últimos datos de prueba, Gemma-3 funciona muy bien en varios modelos de conversación, solo superado por el conocido modelo Deepseek, superando los múltiples modelos populares de OpenAI como O3-Mini y Llama3. La arquitectura GEMMA-3 continúa el diseño del transformador del decodificador de uso general de las dos generaciones anteriores, pero ha llevado a cabo múltiples innovaciones y optimizaciones sobre esta base. Para resolver el problema de la memoria causado por los largos contextos, Gemma-3 adopta una arquitectura de intercalación de capas de autoatensión locales y globales, lo que reduce significativamente el uso de la memoria.
En términos de capacidades de procesamiento de contexto, la longitud de contexto respaldada por Gemma-3 se extiende a 128kToken, proporcionando un mejor soporte para procesar texto largo. Además, GEMMA-3 también tiene capacidades multimodales, puede procesar texto e imágenes al mismo tiempo e integra un codificador de visión basado en VisionTransformer, reduciendo efectivamente el costo computacional del procesamiento de imágenes. Estas características hacen que Gemma-3 funcione bien en tareas complejas.
Durante el proceso de capacitación, GEMMA-3 utilizó más presupuestos de token, especialmente los volúmenes de token 14T en el modelo de parámetros de 27 mil millones, e introdujeron datos multilingües para mejorar las capacidades de procesamiento del lenguaje del modelo. GEMMA-3 admite 140 idiomas, de los cuales 35 se pueden usar directamente. A través de la tecnología de destilación de conocimiento avanzada, GEMMA-3 optimiza el rendimiento del modelo a través del aprendizaje de refuerzo más adelante en el período de capacitación, especialmente en términos de ayuda, capacidad de razonamiento y capacidad multilingüe.
Después de la evaluación, Gemma-3 funcionó bien en tareas multimodales, y sus largas capacidades de procesamiento de texto fueron impresionantes, logrando una precisión del 66%. Además, el rendimiento de Gemma-3 también se encuentra entre los mejores de la evaluación de la capacidad de diálogo, que muestra su fuerza integral en varias tareas. Estos resultados hacen de Gemma-3 uno de los modelos multimodales más populares.
La dirección de código abierto de Gemma-3 es: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d. Esta iniciativa de código abierto promoverá aún más el desarrollo de la tecnología de inteligencia artificial y proporcionará a los investigadores y desarrolladores herramientas y recursos poderosos.
Puntos clave: Gemma-3 es el último modelo multimodal de código abierto de Google, con parámetros que van desde 1 mil millones a 27 mil millones, y la demanda de energía informática se reduce 10 veces. El modelo adopta un diseño arquitectónico innovador para procesar efectivamente el contexto largo y los datos multimodales, lo que respalda el procesamiento simultáneo de texto e imágenes. GEMMA-3 admite capacidades de procesamiento en 140 idiomas. Después de la capacitación y la optimización, se desempeña excelentemente en múltiples tareas y demuestra fuertes capacidades integrales.