في مجال علوم الكمبيوتر ، كان معالجة المستندات المعقدة وتحويلها إلى بيانات منظمة دائمًا مشكلة صعبة. تعتمد الطرق التقليدية غالبًا على مجموعات النماذج المعقدة أو نماذج كبيرة متعددة الوسائط ، والتي ، على الرغم من أنها قوية ، غالباً ما تكون لها هلوسة ومكلفة من الناحية الحسابية.

في الآونة الأخيرة ، تعاونت IBM و Hugging Face لإطلاق Smoldocling ، وهو نموذج مفتوح المصدر اللغوي (VLM) مع معلمة 256 مترًا فقط ، مصممة لحل مهام تحويل المستندات متعددة الوسائط من طرف إلى طرف. تعتبر Smoldocling فريدة من نوعها في حجمها المدمج وقدراتها القوية ، مما يقلل بشكل كبير من متطلبات التعقيد الحاسوبية ومتطلبات الموارد.
تعتمد بنية Smoldocling على معانقة SMOLVLM-256M الخاصة بـ Face ، وتحقق انخفاضًا كبيرًا في التعقيد الحسابي من خلال الرمز المميز المحسن وطرق ضغط الميزات البصرية العدوانية. تكمن ميزتها الأساسية في تنسيق الدكتوراه المبتكرة ، والتي يمكن أن تفصل بوضوح عن تخطيط المستندات ، ومحتوى النص ، والمعلومات المرئية مثل الجداول والصيغ ومقتطفات التعليمات البرمجية والمخططات.
للتدريب بشكل أكثر كفاءة ، يتبنى Smoldocling نهج تعلم الدورة التدريبية ، أولاً "تجميد" المشفر البصري ثم ضبطه تدريجياً باستخدام مجموعة بيانات أكثر ثراءً لتعزيز التوافق الدلالي البصري بين عناصر المستندات المختلفة. بفضل كفاءتها ، تقوم Smoldocling بمعالجة صفحة المستندات بأكملها بسرعة كبيرة ، حيث تستغرق 0.35 ثانية فقط لكل صفحة على وحدات معالجة الرسومات المستهلك وتستهلك أقل من 500 ميجابايت من ذاكرة الفيديو.

في اختبار الأداء ، كان أداء Smoldocling جيدًا ، ويتفوق بشكل كبير على العديد من النماذج التنافسية الأكبر. على سبيل المثال ، في مهمة OCR من الوثيقة الكاملة ، حققت Smoldocling دقة أعلى بكثير مقارنة بـ QWEN2.5VL مع 7 مليارات من المعلمات و NOUGAT مع 350 مليون معلمة ، مع انخفاض مسافة التحرير (0.48) ودرجة أعلى من F1 (0.80).
فيما يتعلق بنسخ الصيغة ، بلغت Smoldocling أيضًا درجة F1 قدرها 0.95 ، مماثلة لنماذج أحدث طرازات مثل GOT. الأمر الأكثر جدارة بالثناء هو أن Smoldocling قد وضع معيارًا جديدًا في التعرف على مقتطفات الكود ، مع دقة وتذكر معدلات تصل إلى 0.94 و 0.91 على التوالي.
يختلف Smoldocling عن حلول OCR الأخرى للوثائق من حيث أنها قادرة على التعامل مع العناصر المعقدة المختلفة في وثيقة ، بما في ذلك الكود ، والمخططات ، والصيغ ، والتخطيطات المختلفة. لا تقتصر قدراتها على الأوراق العلمية المشتركة ، ولكنها أيضًا معالجة براءات الاختراع والأشكال والوثائق التجارية الموثوقة.
مع قيام الدكتوراه بتوفير بيانات تعريف شاملة منظمة ، يزيل Smoldocling الغموض المتأصل في تنسيقات مثل HTML أو Markdown ، وبالتالي تحسين توافر المجرى لتحويلات المستندات. يتيح حجمها المدمج أيضًا معالجة الدُفعات على نطاق واسع مع متطلبات الموارد المنخفضة للغاية ، مما يوفر حلولًا فعالة من حيث التكلفة للنشر على نطاق واسع.
باختصار ، يمثل إصدار Smoldocling اختراقًا كبيرًا في تكنولوجيا تحويل المستندات. إنه يوضح بقوة أن النماذج المدمجة لا تتنافس فقط مع نماذج قاعدة كبيرة ، ولكنها تتجاوزها أيضًا بشكل كبير في المهام المهمة. أظهر الباحثون بنجاح أنه من خلال التدريب المستهدف ، وزيادة البيانات المبتكرة ، وتنسيقات الترميز الجديدة مثل الدكتوراه ، يمكن التغلب على القيود المتعلقة بحجم النموذج وتعقيدها. لا يضع المصدر المفتوح لـ Smoldocling معايير جديدة من الكفاءة والتعددات لتكنولوجيا التعرف الضوئي على الحروف ، ولكنها توفر أيضًا موردًا قيماً للمجتمع من خلال مجموعات البيانات المفتوحة والهندسة المعمارية النموذجية الفعالة والضغوط.