На недавнем запуске генеральный директор Google Sundar Pichai объявил о крупном прорыве: Google открывает свой последний мультимодальный макет Gemma-3. Благодаря своей низкой стоимости и высокой производительности, эта модель быстро стала в центре внимания технологической отрасли. Выпуск GEMMA-3 отмечает еще один важный прогресс Google в области искусственного интеллекта, особенно в мультимодальной обработке и длинной обработке контекста.
GEMMA-3 предоставляет четыре варианта для различных масштабов параметров, а именно 1 миллиард, 4 миллиарда, 12 миллиардов и 27 миллиардов параметров. Среди них модель с параметром 27 миллиардов требует только одной графической карты H100 для эффективного вывода, и это требование вычислительной мощности составляет лишь одну десятую от требований аналогичных моделей. Этот прорыв делает GEMMA-3 одной из высокопроизводительных моделей с самыми низкими требованиями к вычислительной мощности, что значительно снижает порог для использования.
Согласно последним данным тестирования, GEMMA-3 очень хорошо работает в различных моделях разговоров, уступая только известной модели DeepSeek, превосходя несколько популярных моделей OpenAI, таких как O3-Mini и Llama3. Архитектура GEMMA-3 продолжает дизайн трансформатора декодера общего назначения из предыдущих двух поколений, но на этой основе проводила несколько инноваций и оптимизаций. Чтобы решить проблему памяти, вызванную длинным контекстом, GEMMA-3 принимает архитектуру чередующихся локальных и глобальных слоев самосознания, что значительно снижает использование памяти.
С точки зрения возможностей обработки контекста, длина контекста, поддерживаемая GEMMA-3, распространяется на 128KToken, обеспечивая лучшую поддержку для обработки длинного текста. Кроме того, GEMMA-3 также обладает мультимодальными возможностями, может одновременно обрабатывать текст и изображения и интегрировать энкодер зрения на основе VisionTransformer, эффективно снижая вычислительные затраты на обработку изображений. Эти функции заставляют GEMMA-3 хорошо работать в сложных задачах.
Во время учебного процесса GEMMA-3 использовала больше бюджетов токенов, особенно 14T токсов токенов в модели 27 миллиардов параметров, и ввели многоязычные данные для расширения возможностей обработки языка модели. GEMMA-3 поддерживает 140 языков, из которых 35 можно использовать напрямую. Благодаря расширенной технологии дистилляции знаний, GEMMA-3 оптимизирует производительность модели посредством обучения подкреплению позже в период обучения, особенно с точки зрения помощи, способности к мышлению и многоязычных способностей.
После оценки GEMMA-3 хорошо выполняла мультимодальные задачи, а его длительные возможности обработки текста были впечатляющими, достигнув точности 66%. Кроме того, производительность GEMMA-3 также является одной из лучших в оценке диалога, демонстрируя ее полную силу в различных задачах. Эти результаты делают GEMMA-3 одной из самых популярных мультимодальных моделей.
Адрес с открытым исходным кодом GEMMA-3: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d. Эта инициатива с открытым исходным кодом будет способствовать развитию технологий искусственного интеллекта и предоставит исследователям и разработчикам мощные инструменты и ресурсы.
Ключевые моменты: GEMMA-3 является последней мультимодальной моделью Google с открытым исходным кодом, с параметрами в диапазоне от 1 миллиарда до 27 миллиардов, а вычислительный спрос на мощность снижается в 10 раз. Модель использует инновационный архитектурный дизайн для эффективного обработки длинного контекста и мультимодальных данных, поддерживая одновременную обработку текста и изображений. GEMMA-3 поддерживает возможности обработки на 140 языках. После обучения и оптимизации он отлично выполняет многочисленные задачи и демонстрирует сильные комплексные возможности.