حقق أحدث نموذج أساسي مرئي من Microsoft Florence-2 تقدمًا كبيرًا، ويمكن تشغيله محليًا بالكامل في المتصفحات التي تدعم WebGPU دون الاعتماد على الخوادم البعيدة. ويعود الفضل في ذلك إلى Transformers.js وتقنية ONNX Runtime Web، التي تتيح تنفيذ وظائف التعرف المرئي القوية مباشرة في متصفح المستخدم، مما يغير طريقة تشغيل تطبيقات الرؤية المدعومة بالذكاء الاصطناعي تمامًا. يحتوي Florence-2-base-ft على 230 مليون معلمة ويستخدم أسلوبًا يعتمد على التلميح للتعامل مع مجموعة متنوعة من المهام اللغوية المرئية والمرئية، بما في ذلك إنشاء وصف الصورة والتعرف الضوئي على الحروف (OCR) واكتشاف الكائنات وتجزئة الصورة، بينما يشغل مساحة تخزين تبلغ 340 ميجابايت فقط. استمر في العمل مع النماذج المحملة حتى في حالة عدم الاتصال بالإنترنت.
في الآونة الأخيرة، حقق Florence-2، أحدث نموذج أساسي مرئي أطلقته Microsoft، تقدمًا كبيرًا باستخدام تقنية Transformers.js، ويمكن الآن تشغيل النموذج بنسبة 100% محليًا في المتصفحات التي تدعم WebGPU. يجلب هذا الاختراق تغييرات ثورية في تطبيقات رؤية الذكاء الاصطناعي، مما يسمح بتنفيذ وظائف التعرف البصري القوية مباشرة في متصفح المستخدم دون الاعتماد على خادم بعيد.
Florence-2-base-ft هو نموذج أساسي للرؤية مكون من 230 مليون معلمة يستخدم منهجًا قائمًا على الإشارات للتعامل مع مجموعة واسعة من مهام الرؤية واللغة المرئية. يدعم النموذج مجموعة متنوعة من الميزات، بما في ذلك على سبيل المثال لا الحصر:
وصف الصورة: إنشاء تقنية التعرف الضوئي على الحروف (OCR) وتجزئة الصور وكشف الكائنات
يشغل هذا النموذج القوي مساحة تخزين تبلغ 340 ميجابايت فقط، وبمجرد تحميله، سيتم تخزينه مؤقتًا في المتصفح ويمكن استدعاؤه مباشرة عندما يزور المستخدم الصفحة مرة أخرى دون إعادة التنزيل. الأمر الأكثر إثارة للدهشة هو أن العملية برمتها تتم محليًا بالكامل في متصفح المستخدم دون إرسال أي استدعاءات لواجهة برمجة التطبيقات (API) إلى الخادم. وهذا يعني أنه بعد تحميل النموذج، سيظل بإمكان المستخدمين استخدام جميع الوظائف حتى لو قاموا بفصل الاتصال بالإنترنت.
يستفيد التشغيل المحلي لـ Florence-2 من دعم تقنية Transformers.js وONNX Runtime Web. لا يؤدي هذا الاختراق إلى تحسين مستوى حماية خصوصية المستخدم فحسب، بل يقلل أيضًا من تكلفة الاستخدام بشكل كبير، مما يمهد الطريق لتعميم وتطبيق تقنية رؤية الذكاء الاصطناعي.
بالنسبة للمطورين وعشاق التكنولوجيا، أصبح نموذج ONNX الخاص بـ Florence-2 الآن مفتوح الوصول على منصة Hugging Face. يمكن للأصدقاء المهتمين زيارة https://huggingface.co/models?library=transformers.js&other=florence2 لمزيد من التفاصيل. بالإضافة إلى ذلك، تم أيضًا نشر الكود المصدري للمشروع على GitHub، ويمكن للمطورين الحصول عليه من خلال https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu لمزيد من الاستكشاف و تطوير.
لا شك أن هذا الاختراق الذي حققه فلورنس-2 سيعزز التطور السريع والنشر الواسع النطاق لتطبيقات رؤية الذكاء الاصطناعي. يمكننا أن نتوقع المزيد من تطبيقات الرؤية الذكية القائمة على المتصفح لتغيير حياتنا اليومية وطريقة عملنا في المستقبل القريب.
تعمل قدرة التشغيل المحلية لـFlorence-2 على تحسين خصوصية المستخدم وراحته، وتخفض عتبة الاستخدام، وتوفر إمكانيات غير محدودة للتطوير المستقبلي لتطبيقات رؤية الذكاء الاصطناعي. كما توفر نماذجها وأكوادها مفتوحة المصدر للمطورين موارد غنية، ونحن نتطلع إلى ظهور المزيد من التطبيقات المبتكرة.