أصدرت شركة Seattle Startup Moondream نموذج اللغة المرئية المدمجة MoondReam2 ، والذي يحتوي على 1.6 مليار فقط ، ولكنه كان أداءً جيدًا في اختبارات القياس المختلفة ، حتى أفضل من بعض النماذج ذات المعلمات الكبيرة. كنموذج مفتوح المصدر ، يمكن أن يعمل MoondReam2 محليًا على أجهزة منخفضة الأداء مثل الهواتف الذكية ، ولديه إمكانيات قوية لمعالجة الصور والنص ، بما في ذلك Q&A و OCR وعد الكائنات وتصنيفها. درجاتها أكثر من 60 ٪ على docvqa و textvqa و GQA ، مما يدل على قدرته القوية عند تنفيذها محليًا. تلقى Moondream 4.5 مليون دولار في جولات البذور ويستمر في تحديث النموذج لتحسين أدائه.
في الآونة الأخيرة ، أطلقت Moondream ، وهي شركة ناشئة في سياتل ، نموذجًا لغة مرئيًا مدمجًا يسمى Moondream2. على الرغم من صغر حجمه ، فقد كان أداء النموذج جيدًا في المعايير المختلفة وجذب الكثير من الاهتمام. كنموذج مفتوح المصدر ، من المتوقع أن يقوم MoondReam2 بتنفيذ التعرف على الصور المحلي على الهواتف الذكية.

تم إصدار MoondReam2 رسميًا في مارس. منذ إصداره ، قام فريق Moondream بتحديث النموذج بشكل مستمر لتحسين أدائه القياسي باستمرار. أظهرت طبعة يوليو تحسينات كبيرة في OCR وفهم الوثائق ، وخاصة في تحليل البيانات الاقتصادية التاريخية. سجل النموذج أكثر من 60 ٪ على docvqa و textVQA و GQA ، مما يدل على قدرته القوية عند تنفيذها محليًا.
ميزة مميزة لـ MOONDREAM2 هي حجمها المدمج: 1.6 مليار فقط ، مما يجعلها لا تعمل فقط على الخوادم السحابية ، ولكن أيضًا على أجهزة الكمبيوتر المحلية وحتى بعض الأجهزة ذات الأداء المنخفض مثل الهواتف الذكية أو أجهزة الكمبيوتر ذات الألواح الواحدة.
على الرغم من صغر حجمها ، فإن أدائها مماثل لبعض النماذج التنافسية مع مليارات من المعلمات ، وحتى يتفوق على هذه النماذج الأكبر في بعض المعايير.
بالمقارنة مع نماذج اللغة المرئية للأجهزة المحمولة ، أشار الباحثون إلى أنه على الرغم من أن MoondReam2 لديه 170 مليون معلمة فقط ، إلا أن أدائها مشابه لنموذج المعلمة البالغ عددهم 700 مليون ، ولا يؤدي إلا إلى أدنى من مجموعة بيانات SQA. هذا يدل على أنه على الرغم من الأداء الممتاز للنموذج الصغير ، هناك تحديات في فهم سياق معين.

وقال Vikhyat Korrapati ، مطور النموذج ، إن MoondReam2 مبني على نماذج أخرى مثل Siglip و Microsoft PHI-1.5 و LLAVA. يتوفر طراز مفتوح المصدر الآن مجانًا على Github وله إصدار تجريبي على وجه المعانقة. على منصة الترميز ، اجتذبت MoondReam2 أيضًا اهتمامًا واسع النطاق من مجتمع المطورين وحصل على أكثر من 5000 تصنيف نجوم.
جذب النجاح انتباه المستثمرين: نجح Moondream في جمع 4.5 مليون دولار في جولة بذرة بقيادة Felicis Ventures ، وصندوق M12Github من Microsoft و Ascend. عمل الرئيس التنفيذي للشركة Jay Allen في Amazon Web Services (AWS) لسنوات عديدة ويقود بدء التشغيل المتزايد.
يمثل إطلاق MOONDREAM2 ولادة مجموعة من نماذج المصدر المفتوح المحسن بشكل احترافي والتي تتطلب موارد أقل عند توفير أداء مماثل لنماذج أكبر وأكبر. على الرغم من وجود بعض الطرز المحلية الصغيرة في السوق ، مثل مساعد Apple Smart و Gewgle Gemini Nano ، إلا أن هذين المصنعين لا يزالان يستعنون مهامًا أكثر تعقيدًا للسحابة التي لحلها.
Luggingface: https: //huggingface.co/vikhyatk/moondream2
Github: https: //github.com/vikhyat/moondream
النقاط الرئيسية:
أطلقت Moondream MoondReam2 ، وهو نموذج لغة مرئية مع 160 مليون معلمة فقط ، والتي يمكن أن تعمل على أجهزة صغيرة مثل الهواتف الذكية.
يحتوي النموذج على قدرات نصية قوية معالجة الصور والصور ، ويمكنه الإجابة على الأسئلة ، وتنفيذ الكائنات التعريفية التعريفي ، وعدد الكائنات ، وتصنيف المعايير ، وأداء معايير ممتازة.
جمع Moondream بنجاح 4.5 مليون دولار من التمويل ، وعمل الرئيس التنفيذي في Amazon ، واستمر الفريق في تحديث وتحسين أداء النموذج.
جلب ظهور MoondReam2 إمكانيات جديدة لتطبيقات AI المتنقلة ، كما عززت ميزات المصادر المفتوحة المشاركة النشطة وابتكار مجتمع المطورين. في المستقبل ، مع التطور المستمر للتكنولوجيا ، ستلعب نماذج الذكاء الاصطناعى الصغيرة والفعالة مثل Moondream2 دورًا مهمًا في المزيد من المجالات.