최근 출시 된 Google CEO Sundar Pichai는 주요 획기적인 발전을 발표했습니다. Google은 최신 멀티 모달 모형 Gemma-3을 열었습니다. 저렴한 비용과 고성능 으로이 모델은 기술 산업의 초점이되었습니다. Gemma-3의 출시는 인공 지능 분야, 특히 멀티 모달 처리 및 긴 컨텍스트 처리에서 Google의 또 다른 중요한 진보를 나타냅니다.
Gemma-3은 다양한 매개 변수 척도에 대한 4 가지 옵션, 즉 10 억, 40 억, 12 억 및 27 억 매개 변수를 제공합니다. 그 중 270 억 개의 매개 변수를 가진 모델은 효율적인 추론을 위해 하나의 H100 그래픽 카드 만 필요하며,이 컴퓨팅 전력 요구 사항은 유사한 모델의 10 분의 1에 불과합니다. 이 돌파구는 Gemma-3을 컴퓨팅 전력 요구 사항이 가장 낮은 고성능 모델 중 하나로 만들어 사용 임계 값을 크게 줄입니다.
최신 테스트 데이터에 따르면, Gemma-3은 다양한 대화 모델에서 잘 알려져 있으며, 잘 알려진 Deepseek 모델에 이어 O3-MINI 및 LLAMA3과 같은 OpenAI의 여러 인기 모델을 능가합니다. Gemma-3 아키텍처는 이전 2 세대와의 일반 목적 디코더 변압기의 설계를 계속하지만,이를 기반으로 여러 가지 혁신과 최적화를 수행했습니다. 긴 맥락으로 인한 메모리 문제를 해결하기 위해 Gemma-3은 로컬 및 글로벌 자체 변환 계층을 인터리빙하는 아키텍처를 채택하여 메모리 사용을 크게 줄입니다.
컨텍스트 처리 기능 측면에서, Gemma-3에 의해 지원되는 컨텍스트 길이는 128ktoken으로 확장되어 긴 텍스트 처리에 더 나은 지원을 제공합니다. 또한 Gemma-3에는 멀티 모달 기능이 있으며 동시에 텍스트 및 이미지를 처리 할 수 있으며 VisionTransformer 기반 Vision 인코더를 통합하여 이미지 처리의 계산 비용을 효과적으로 줄입니다. 이러한 기능으로 인해 Gemma-3은 복잡한 작업에서 잘 수행합니다.
교육 과정에서 Gemma-3은 270 억 개의 매개 변수 모델에서 더 많은 토큰 예산, 특히 14T 토큰 볼륨을 사용했으며 모델의 언어 처리 기능을 향상시키기 위해 다국어 데이터를 도입했습니다. Gemma-3은 140 개 언어를 지원하며 그 중 35 개는 직접 사용할 수 있습니다. Gemma-3은 고급 지식 증류 기술을 통해 교육 기간의 나중에 강화 학습을 통해 모델 성능을 최적화합니다. 특히 도움, 추론 능력 및 다국어 능력 측면에서.
평가 후 Gemma-3은 멀티 모달 작업에서 잘 수행되었으며 긴 텍스트 처리 기능은 인상적이어서 정확도가 66%를 달성했습니다. 또한 Gemma-3의 성능은 대화 능력 평가의 최고 중 하나이며 다양한 작업에서 포괄적 인 강점을 보여줍니다. 이 결과는 Gemma-3을 가장 인기있는 멀티 모달 모델 중 하나로 만듭니다.
Gemma-3의 오픈 소스 주소는 다음과 같습니다. 이 오픈 소스 이니셔티브는 인공 지능 기술의 개발을 더욱 촉진하고 연구원과 개발자에게 강력한 도구와 리소스를 제공 할 것입니다.
핵심 사항 : Gemma-3은 Google의 최신 오픈 소스 멀티 모드 모델이며, 매개 변수는 10 억에서 27 억이며 컴퓨팅 전력 수요는 10 배 감소합니다. 이 모델은 혁신적인 아키텍처 설계를 채택하여 긴 컨텍스트 및 멀티 모달 데이터를 효과적으로 처리하여 텍스트 및 이미지의 동시 처리를 지원합니다. Gemma-3은 140 개 언어로 처리 기능을 지원합니다. 교육 및 최적화 후 여러 작업에서 훌륭하게 수행되며 강력한 포괄적 인 기능을 보여줍니다.