في العصر الرقمي ، أصبحت معالجة وتحليل البيانات الجدولية مهمة بشكل خاص. ومع ذلك ، لا تزال العديد من البيانات الجدولية موجودة في النماذج غير المهيكلة ، مثل مسح صور الجدول الإحصائي في المستندات وبيانات التقرير المالي في ملفات PDF. لا يمكن معالجة هذه البيانات مباشرة وتلقائيًا ، مما يشكل تحديًا كبيرًا لتحليل البيانات وفهم الوثائق. من أجل حل هذه المشكلة ، أعلنت Baidu AI عن حل التعرف على التمثيلي المفتوح المصدر PP-TableMagic في 11 مارس ، والذي حقق اختراقًا كبيرًا في مجال استخراج المعلومات المنظم.
يهدف إطلاق PP-TableMagic إلى حل قيود تقنية التعرف على الجدول التقليدية في السيناريوهات المعقدة. من خلال بنية الشبكات المتعددة النماذج المبتكرة ، يدرك هذا الحل التعرف على الجداول الشاملة عالية الدقة ويدعم صقل النموذج المخصص للغاية لجميع السيناريوهات. غالبًا ما تؤدي نماذج التعرف على الجدول التقليدية بشكل سيئ عند مواجهة تنسيقات الجدول المعقدة ويصعب تلبية احتياجات سيناريوهات التطبيق المختلفة. تحقيقًا لهذه الغاية ، أطلق فريق Baidu Paddlepaddle PP-TableMagic ، والذي يعتمد مخططًا متعدد النماذج على شبكات "تصنيف الجدول + التعرف على بنية الجدول + الكشف عن الخلايا" ، مما يحسن بشكل كبير من دقة التعرف على الجدول وقدرة على التكيف.

تكمن الميزة الأساسية لـ PP-TableMagic في تصميمها المعماري المبتكر. يتبنى هذا الحل بنية ثنائية الثنائي ، ويقسم الجداول إلى فئتين: الجداول السلكية والجداول اللاسلكية ، ثم تفكيك مهمة التعرف على الجدول الشامل إلى مهامين فرعيين: الكشف عن الخلايا والتعرف على بنية الجدول. أخيرًا ، يتم إنشاء نتيجة تنبؤات HTML كاملة من خلال خوارزمية الانصهار نتيجة لتحسين الذات. من بينها ، يمكن لتصنيف نموذج تصنيف الجدول الخفيف PP-LCNET_X1_0_TABLE_CLS الذي تم تطويره بواسطة فريق PADDLEPADDLE تصنيف الجداول السلكية والجداول اللاسلكية بدقة عالية ؛ يدرك نموذج الكشف عن خلايا الجدول المفتوح المصدر الأول في الصناعة RT-DETR-L_Table_Cell_DET الموضع الدقيق لخلايا الجدول من أنواع مختلفة ؛ في حين أن نموذج التعرف على هيكل الشبكة التمثيلي الجديد يعمل بشكل ممتاز في تحليل هيكل HTML. بالمقارنة مع النماذج السابقة Slanet و Slanet_Plus ، يستخدم Slanext اختلافًا مع قدرات تمثيل ميزة أقوى كمشفر مرئي ، مما يزيد من دقة التعرف على بنية الجدول.
في التطبيقات العملية ، لا يمكن لـ PP-TableMagic معالجة الجداول مباشرة ، ولكن أيضًا تلبي احتياجات السيناريوهات المختلفة من خلال صقل النموذج المخصص. بالمقارنة مع صياغة نماذج التعرف على الجداول التقليدية ، تتيح بنية الشبكات متعددة الطرازات من PP-TableMagic للمستخدمين ضبط النماذج الرئيسية فقط ، وبالتالي تجنب مشكلة أداء "يرتفع المرء والآخر السقوط" وتقليل عبء عمل توضيح البيانات. بالإضافة إلى ذلك ، بالنسبة لكبار المطورين ، تدعم بنية PP-TableMagic أيضًا التعديلات على مستوى الفرع ، والتي يمكن تحسينها لأنواع محددة من بيانات الجدول ، مما يؤدي إلى تحسين إمكانيات التعرف الشاملة.
لمساعدة المستخدمين على البدء بسرعة ، يوفر PP-TableMagic أدلة تثبيت مفصلة ودروس تعليمية للاستخدام. يمكن للمستخدمين بسهولة الاتصال على النماذج من خلال API Python التي توفرها Paddlex ، وإجراء التعرف على الجدول وتصدير النتائج. بالإضافة إلى ذلك ، يدعم PP-TableMagic أيضًا الاستدلال العالي الأداء والنشر القائم على الخدمة والنشر على الجانب النهائي ، والذي يمكن أن يلبي احتياجات المستخدمين المختلفين. يخطط فريق Baidu Paddlepaddle أيضًا لعقد دورة عبر الإنترنت في 13 مارس لتحليل التفاصيل الفنية لعمق PP-TableMagic وفتح السيناريو الصناعي المعسكر لقيادة المستخدم لتجربة عملية التطوير الكاملة من إعداد البيانات إلى النشر النموذجي.
عنوان مفتوح المصدر العنوان: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md