أظهرت الذكاء الاصطناعي قدرات قوية في مختلف المجالات ، ولكن حدودها في التعامل مع القضايا التاريخية المعقدة هي أيضا بارزة بشكل متزايد. أظهرت الدراسات الحديثة أنه حتى نماذج اللغة الكبيرة الأكثر تقدماً لها أوجه قصور واضحة عند التعامل مع التفاصيل التاريخية الدقيقة. قدم هذا البحث تحديات جديدة لموثوقية ونطاق التطبيق لنماذج الذكاء الاصطناعى الحالية ، كما يوفر مراجع قيمة لاتجاه تحسين نماذج الذكاء الاصطناعى في المستقبل.
يظهر آخر الأبحاث أنه على الرغم من أن الذكاء الاصطناعي قد كان أداءً جيدًا في مجالات البرمجة وإنشاء المحتوى ، إلا أنه لا يزال غير كافٍ في التعامل مع المشكلات التاريخية المعقدة. أظهرت دراسة تم الإعلان عنها مؤخرًا في مؤتمر Neups أنه حتى نموذج اللغة الأكبر المتقدم (LLM) يصعب تحقيق نتائج مرضية في اختبارات المعرفة التاريخية.
طور فريق البحث معيار الاختبار الذي يسمى Hist-Llm لتقييم نماذج اللغة الثلاثة العليا لـ Openai's GPT-4 و Meta's Lama و Google's Gemini. يعتمد الاختبار على قاعدة بيانات Seshat Global التاريخية.

أوضحت ماريا ديلريو تشونر ، أستاذة مشاركة في جامعة لندن: "هذه النماذج كانت أداءً جيدًا في الحقائق التاريخية الأساسية ، ولكن عندما تشارك في الأبحاث التاريخية المتعمقة التي تنطوي على مستويات الدكتوراه ، تحدد ما إذا كانت مصر القديمة لديها تكنولوجيا عسكرية محددة أو قوى دائمة في بعض فترات مصر القديمة.
يعتقد الباحثون أن هذا الافتقار إلى الأداء نشأ من نموذج الذكاء الاصطناعي للاستنتاج من الروايات التاريخية السائدة ، ومن الصعب فهم التفاصيل التاريخية الدقيقة بدقة. بالإضافة إلى ذلك ، وجدت الأبحاث أيضًا أن هذه النماذج كانت تؤدي أسوأ عند التعامل مع المشكلات التاريخية في جنوب إفريقيا ومناطق أخرى ، مما يعرض مشكلة التحيز التي قد توجد في بيانات التدريب.
وقال بيتر تورشين ، الشخص المسؤول عن مركز الأبحاث في مركز العلوم المعقدة (CSH) ، إن الاكتشاف يوضح أنه في بعض المجالات المهنية ، لا يمكن أن تحل محل الذكاء الاصطناعى الخبراء البشريين. ومع ذلك ، لا يزال فريق البحث متفائلًا بآفاق تطبيق الذكاء الاصطناعي في الأبحاث التاريخية.
تذكرنا نتائج هذه الدراسة أنه على الرغم من أن تكنولوجيا الذكاء الاصطناعي قد تطورت بسرعة ، إلا أن معرفة وحكم الخبراء البشريين في مجالات معينة لا تزال لا يمكن الاستغناء عنها. في المستقبل ، نحتاج إلى زيادة تحسين نموذج الذكاء الاصطناعى حتى يتمكن من التعامل بشكل أفضل مع المعلومات التاريخية المعقدة وتوفير أدوات مساعدة أكثر فعالية للبحث التاريخي.