في إطلاق حديث ، أعلن الرئيس التنفيذي لشركة Google Sundar Pichai عن اختراق كبير: تفتح Google أحدث Mockup Gemma-3. بتكلفة منخفضة وأداء مرتفع ، سرعان ما أصبح هذا النموذج محور صناعة التكنولوجيا. يمثل إصدار GEMMA-3 تقدمًا مهمًا آخر من جوجل في مجال الذكاء الاصطناعي ، وخاصة في المعالجة متعددة الوسائط ومعالجة السياق الطويل.
توفر GEMMA-3 أربعة خيارات لمقاييس المعلمات المختلفة ، وهي مليار ، 4 مليارات ، 12 مليار و 27 مليار معلمة. من بينها ، يتطلب نموذج مع معلمة 27 مليار فقط بطاقة رسومات H100 واحدة فقط لإنشاء استدلال فعال ، ومتطلبات طاقة الحوسبة هذه ليست سوى عُشر نماذج مماثلة. يجعل هذا الاختراق GEMMA-3 أحد طرز الأداء العالي مع أدنى متطلبات طاقة الحوسبة ، مما يقلل بشكل كبير من العتبة للاستخدام.
وفقًا لأحدث بيانات الاختبار ، تعمل GEMMA-3 بشكل جيد للغاية في مختلف نماذج المحادثة ، في المرتبة الثانية بعد نموذج Deepseek المعروف ، متجاوزة النماذج الشائعة المتعددة في Openai مثل O3-Mini و Llama3. تستمر بنية GEMMA-3 في تصميم محول وحدة فك الترميز للأغراض العامة من الجيلين السابقين ، ولكنه قام بإجراء العديد من الابتكارات والتحسينات على هذا الأساس. من أجل حل مشكلة الذاكرة الناجمة عن السياقات الطويلة ، تعتمد GEMMA-3 بنية من طبقات التصلب الذاتي المحلية والعالمية المتشابكة ، مما يقلل بشكل كبير من استخدام الذاكرة.
فيما يتعلق بقدرات معالجة السياق ، يمتد طول السياق المدعوم من GEMMA-3 إلى 128Ktoken ، مما يوفر دعمًا أفضل لمعالجة النص الطويل. بالإضافة إلى ذلك ، لدى GEMMA-3 أيضًا قدرات متعددة الوسائط ، ويمكنها معالجة النصوص والصور في نفس الوقت ، ودمج تشفير الرؤية القائم على الرؤية ، مما يقلل بشكل فعال من التكلفة الحسابية لمعالجة الصور. هذه الميزات تجعل أداء GEMMA-3 جيدًا في المهام المعقدة.
خلال عملية التدريب ، استخدمت GEMMA-3 المزيد من ميزانيات الرمز المميز ، وخاصة أحجام الرمز المميز 14T في نموذج المعلمة البالغ 27 مليار ، وقدمت بيانات متعددة اللغات لتعزيز قدرات معالجة لغة النموذج. تدعم GEMMA-3 140 لغة ، منها 35 يمكن استخدامها مباشرة. من خلال تقنية تقطير المعرفة المتقدمة ، تعمل GEMMA-3 على تحسين أداء النموذج من خلال التعلم التعزيز لاحقًا في فترة التدريب ، وخاصة من حيث المساعدة ، وقدرة التفكير والقدرة متعددة اللغات.
بعد التقييم ، كان أداء GEMMA-3 جيدًا في المهام متعددة الوسائط ، وكانت قدرات معالجة النص الطويلة مثيرة للإعجاب ، حيث حققت دقة 66 ٪. بالإضافة إلى ذلك ، يعد أداء GEMMA-3 أيضًا من بين الأعلى في تقييم قدرة الحوار ، مما يدل على قوته الشاملة في مختلف المهام. هذه النتائج تجعل GEMMA-3 واحدة من أكثر النماذج متعددة الوسائط شعبية.
عنوان المصدر المفتوح لـ GEMMA-3 هو: https://huggingface.co/Collections/Google/gemma-3-release-67c6f89c4f76621268bb6d. ستعزز هذه المبادرة مفتوحة المصدر بشكل أكبر لتطوير تكنولوجيا الذكاء الاصطناعي وتزويد الباحثين والمطورين بأدوات وموارد قوية.
النقاط الرئيسية: GEMMA-3 هو أحدث طراز متعدد الوسائط مفتوح المصدر من Google ، مع معلمات تتراوح من 1 مليار إلى 27 مليار ، ويتم تقليل الطلب على طاقة الحوسبة بمقدار 10 مرات. يتبنى النموذج تصميمًا معماريًا مبتكرًا لمعالجة السياق الطويل والبيانات المتعددة الوسائط الفعالة ، ودعم المعالجة المتزامنة للنص والصور. يدعم GEMMA-3 قدرات المعالجة بـ 140 لغة. بعد التدريب والتحسين ، يعمل بشكل ممتاز في مهام متعددة ويوضح قدرات شاملة قوية.