يحتوي نموذج اللغة الكبير (LLM) على أوجه القصور في بيانات الجدول المعالجة ، وقد طور فريق البحث في معهد ابتكار الحوسبة التابع لجامعة تشجيانغ نموذج TableGPT2 لهذا الغرض. يتيح هذا النموذج التكامل الفعال للبيانات الجدولية ومعالجة البيانات ، مما يجعل إمكانيات جديدة لذكاء الأعمال (BI) والتطبيقات القائمة على البيانات الأخرى. يكمن الابتكار الأساسي لـ TableGPT2 في تشفير الجدول الفريد الخاص به ، والذي يمكنه التقاط معلومات الهيكل ومعلومات محتوى الخلية بشكل فعال ، ويعزز قدرة النموذج على التعامل مع الاستعلامات الغامضة وأسماء الأعمدة المفقودة والجداول غير المنتظمة. من خلال التدريب المسبق على نطاق واسع والصحيفة ، بالإضافة إلى التدريب المستمر (CPT) والضوء الدقيق الخاضع للإشراف (SFT) ، يوضح TableGPT2 قدرات الترميز والتفكير القوية التي يمكنها التعامل مع مهام BI المعقدة.
أحدث صعود نماذج اللغة الكبيرة (LLM) ثورة في استخدام الذكاء الاصطناعي ، لكن لديهم أوجه قصور واضحة في معالجة البيانات الجدولية. أطلق فريق الأبحاث من معهد الابتكار بجامعة Zhejiang نموذجًا جديدًا يسمى TableGPT2 ، والذي يمكنه دمج بيانات الجدول ومعالجته بشكل مباشر وعملية ، والانفتاح على ذكاء الأعمال والتطبيقات التي تعتمد على البيانات.
إن الابتكار الأساسي لـ TableGPT2 هو تشفير الجدول الفريد المصمم خصيصًا لالتقاط البنية ومحتوى الخلية من الجداول ، مما يعزز قدرة النموذج على التعامل مع الاستعلامات الغامضة ، وأسماء الأعمدة المفقودة ، والجداول غير المنتظمة عادة في التطبيقات الواقعية. يعتمد TableGPT2 على بنية QWEN2.5 وقد خضع لتدريب وضوء على نطاق واسع ، والذي يتضمن أكثر من 593800 طاولة و 2.36 مليون جودة عالية الجودة. البيانات في الدراسات السابقة.

لتحسين قدرات الترميز والاستدلال في TableGPT2 ، أجرى الباحثون التدريب المسبق (CPT) ، مع وجود 80 ٪ من البيانات الرمز المشروح بعناية لضمان أن لديها قدرات ترميز قوية. بالإضافة إلى ذلك ، قاموا بجمع كمية كبيرة من بيانات التفكير والكتب المدرسية التي تحتوي على معرفة خاصة بالمجال لتعزيز قدرة التفكير في النموذج. تحتوي بيانات CPT النهائية على 86 مليار رموز الكلمات التي تمت تصفيتها بدقة ، والتي توفر إمكانيات الترميز والتفكير اللازمة لـ TableGPT2 للتعامل مع مهام BI المعقدة والمهام الأخرى ذات الصلة.
لمعالجة القيود المفروضة على TableGPT2 في التكيف مع مهام وسيناريوهات محددة ، قام الباحثون بإعداد ضبط دقيق (SFT). قاموا ببناء مجموعة بيانات تغطي مجموعة متنوعة من السيناريوهات الحرجة والواقعية ، بما في ذلك جولات متعددة من المحادثات ، والتفكير المعقد ، واستخدام الأدوات ، والاستعلامات ذات المنحى التجاري للغاية. تجمع مجموعة البيانات هذه بين التعليق التوضيحي اليدوي وعملية التعليقات التوضيحية التلقائية التي تعتمد على الخبراء لضمان جودة البيانات وأهميتها. تستخدم عملية SFT ما مجموعه 2.36 مليون عينة ، مما يؤدي إلى تحسين النموذج لتلبية الاحتياجات المحددة للبي بيئات متعلقة بالجدول.
قام TableGPT2 أيضًا بإدخال مشفر دلالي جدول يأخذ الجدول بأكمله كمدخل لإنشاء مجموعة مضغوطة من ناقلات التضمين لكل عمود. تم تخصيص هذه الهندسة المعمارية للخصائص الفريدة للبيانات الجدولية ، وتلتقط بشكل فعال العلاقة بين الصفوف والأعمدة من خلال آلية انتباه ثنائية الاتجاه وعملية استخراج الميزة الهرمية. بالإضافة إلى ذلك ، يتم استخدام طريقة تعلم التباين العمودي لتشجيع النموذج على تعلم التمثيلات الدلالية المجدولة ذات معنى هيكل.
لدمج TableGPT2 بسلاسة مع أدوات تحليل البيانات على مستوى المؤسسة ، صمم الباحثون أيضًا إطارًا لوقت سير عمل الوكيل. يحتوي Framework على ثلاثة مكونات أساسية: هندسة وقت التشغيل ، وصندوق الرمل الرملي ، ووحدة التقييم الوكيل ، والتي تعزز بشكل مشترك قدرات وموثوقية الوكيل. يدعم سير العمل مهام تحليل البيانات المعقدة من خلال الخطوات المعيارية (تطبيع المدخلات ، تنفيذ الوكيل ، ومكالمات الأدوات) التي تعمل معًا لإدارة ومراقبة أداء الوكيل. من خلال دمج الجيل المحسّن للبحث (RAG) لاسترجاع السياق الفعال ورمل الرمز للتنفيذ الآمن ، يضمن الإطار أن TableGPT2 يوفر رؤى دقيقة وذات حساسية في المشكلات في العالم الحقيقي.
أجرى الباحثون تقييمات مكثفة لـ TableGPT2 في مجموعة متنوعة من الجداول المستخدمة على نطاق واسع والمعايير العامة ، وتظهر النتائج أن الجدول الزمني كان أداءً جيدًا في فهم الجدول ومعالجته ومعالجته ، مع متوسط تحسين الأداء البالغ 7 مليارات نماذج معلمة بنسبة 35.20 ٪ ، و 720 ٪ زاد متوسط الأداء لنموذج المعلمة 100 مليون بنسبة 49.32 ٪ ، مع الحفاظ على أداء عام قوي. للتقييم العادل ، قاموا بمقارنة TableGPT2 فقط مع نماذج محايدة معايير المصدر المفتوح مثل QWEN و DEEPSEEK ، مما يضمن أداء متوازن ومتعدد الاستخدامات للنموذج في مجموعة متنوعة من المهام دون أن يتفوق على أي اختبار مؤشر واحد. كما قدموا وأصدروا جزئيًا معيارًا جديدًا ، وهو Realtabbench ، والذي يؤكد على الجداول غير التقليدية ، والحقول المجهولة والاستعلامات المعقدة ، والتي تتماشى أكثر مع سيناريوهات الحياة الواقعية.
على الرغم من أن TableGPT2 حقق أداءً أحدث في التجارب ، إلا أن هناك تحديات في نشر LLM على بيئات BI في العالم الحقيقي. أشار الباحثون إلى أن اتجاهات البحث المستقبلية تشمل:
الترميز الخاص بالمجال: يمكّن LLM من التكيف بسرعة مع اللغة الخاصة بالمؤسسة الخاصة بالمجال (DSL) أو الرمز الزائف لتلبية الاحتياجات المحددة للبنية التحتية لبيانات المؤسسة.
تصميم متعدد الوكلاء: استكشف كيفية دمج LLMs المتعددة بشكل فعال في نظام موحد للتعامل مع تعقيد التطبيقات في العالم الحقيقي.
معالجة الجدول متعددة الوظائف: تعمل على تحسين قدرة النماذج على التعامل مع الجداول غير المنتظمة ، مثل الخلايا المدمجة والهياكل غير المتسقة التي توجد عادة في Excel والصفحات للتعامل بشكل أفضل مع البيانات الجدولية في أشكال مختلفة في العالم الحقيقي.
يمثل إطلاق TableGPT2 تقدمًا كبيرًا في LLM في معالجة بيانات جدول ، مما يجعل إمكانيات جديدة لذكاء الأعمال والتطبيقات القائمة على البيانات الأخرى. أعتقد أنه مع استمرار تعميق البحث ، سيلعب TableGPT2 دورًا متزايد الأهمية في مجال تحليل البيانات في المستقبل.
عنوان الورق: https://arxiv.org/pdf/2411.02059v1
وبشكل عام ، حقق TableGPT2 نتائج رائعة في معالجة بيانات جدول ، من خلال أساليب الهندسة المعمارية وطرق التدريب المبتكرة مما يجعلها تبرز عبر معايير متعددة. ستستمر اتجاهات البحث المستقبلية في التركيز على القدرة على التكيف والتطبيق العملي للنماذج لتلبية احتياجات تطبيقات ذكاء الأعمال في العالم الحقيقي بشكل أفضل.