تعتمد الأبحاث الأكاديمية على البحث في الأدب الفعال ، ولكن من الصعب تلبية محركات البحث الحالية لاحتياجات الاستعلامات المهنية المعقدة. على سبيل المثال ، تتطلب أبحاث التعلم التعزيز غير الثابتة لخوارزميات معينة (مثل طرق UCB) قدرات بحث وتحليل أقوى. غالبًا ما يقضي الباحثون الكثير من الوقت والجهد في استرداد قواعد البيانات الأكاديمية الضخمة يدويًا. يقدم هذا المقال PASA ، وهو معهد أبحاث Bytedance الذي يتطور إليه ذاتيًا وجامعة بكين ، وهو وكيل بحث أكاديمي مستقل يستند إلى نموذج لغة كبير (LLM) ، بهدف حل هذه المشكلة.
في مجال البحوث الأكاديمية ، يعد البحث في الأدب مهمة معقدة ومهمة للحصول على المعلومات. يحتاج الباحثون إلى أن يكونوا قادرين على التعامل مع مجالات الخبرة المعقدة لقدرات البحث لتلبية احتياجات البحث الدقيقة. ومع ذلك ، فإن منصات البحث الأكاديمي الحالية ، مثل الباحث العلمي من Google ، تكافح في كثير من الأحيان للتعامل مع هذه الاستعلامات البحثية المعقدة. على سبيل المثال ، تتطلب الاستعلامات المهنية للتعلم غير الثابتة باستخدام أساليب UCB حوسبة أقوى وقدرات تحليلية. بالإضافة إلى ذلك ، يحتاج الباحثون غالبًا إلى قضاء الكثير من الوقت والجهد يدويًا في تصفح قواعد بيانات أكاديمية ضخمة عند إجراء مراجعات الأدب.

على الرغم من أن العديد من الدراسات قد استكشفت تطبيق نماذج اللغة الكبيرة (LLMS) في البحث عن الورق الأكاديمي والاكتشاف العلمي ، إلا أن أدوات البحث التقليدية لا تزال تواجه صعوبة في تلبية احتياجات البحث المهنية المعقدة. تركز العديد من الدراسات على تطوير عوامل LLM من خلال أطر التحسين والتقنيات الهندسية الفورية. جاءت فجوة كبيرة.
في الآونة الأخيرة ، اقترح معهد أبحاث Bytedance والباحثين من جامعة بكين بشكل مشترك PASA ، وهو وكيل بحث مبتكر في LLM. يمكن لـ PASA تنفيذ استراتيجيات البحث المعقدة بشكل مستقل ، بما في ذلك مكالمات الأدوات وقراءات الورق والاختيار المرجعي ، بهدف توليد نتائج شاملة ودقيقة للاستعلامات الأكاديمية المعقدة. لتحسين أداء PASA ، أنشأ فريق الأبحاث AutoScholarquery ، وهي مجموعة بيانات اصطناعية تحتوي على 35000 استعلامات أكاديمية دقيقة ، وأنشأ RealScholarquery كمعيار لتقييم الأداء الفعلي للوكيل. يستخدم النظام تقنيات التعلم التعزيز لتعزيز قدرات البحث ، وحل القيود الرئيسية في أساليب البحث الأكاديمي الحالية.
يتكون نظام PASA من اثنين من عوامل LLM: زاحف ومحدد يعمل معًا لإجراء بحث شامل للورق الأكاديمي. يقوم الزاحف أولاً بتحليل استفسارات المستخدم لإنشاء استعلامات بحث متعددة للبحث الحبيبي للحصول على الأوراق ذات الصلة وإضافة هذه الأوراق إلى قائمة انتظار ورقية مخصصة. يقوم الزحفون بمعالجة كل ورقة في قائمة الانتظار ، وتحديد واستكشاف الاستشهادات الرئيسية التي قد توسيع نطاق البحث ، وإضافة الأوراق ذات الصلة المكتشفة حديثًا إلى القائمة. سيقوم المحدد بعد ذلك بتقييم ما إذا كانت كل ورقة تلبي متطلبات الاستعلام الأصلية.
تظهر النتائج التجريبية أن PASA-7B يؤدي بشكل متفوق في اختبارات القياس المتعددة. على مجموعة اختبار AutoScholarquery ، زادت PASA-7B بنسبة 9.64 ٪ في الاستدعاء مقارنة مع PASA-GPT-4O. عند مواجهة المعايير المستندة إلى Google ، زاد معدل استدعاء PASA-7B بين 33.80 ٪ و 42.64 ٪. في سيناريو Realscholarquery الأكثر تحديا ، يُظهر PASA-7B زيادة في استدعاء 30.36 ٪ وزيادة دقة 4.25 ٪.
بشكل عام ، يمثل إطلاق PASA تقدمًا مهمًا في تكنولوجيا البحث عن الورق الأكاديمي ويوفر حلاً فعالاً لاستعادة المعلومات من البحوث الأكاديمية. من خلال الجمع بين نماذج اللغة الكبيرة وتقنيات التعلم التعزيز ، يقلل PASA بشكل كبير من الوقت والجهد الذي يستثمره الباحثون في مراجعات الأدب ، مع تزويدهم أيضًا بأداة فعالة للتعامل مع بيئة أكاديمية كبيرة ومعقدة بشكل متزايد.
الكود: https://github.com/bytedance/pasa
ورقة: https://arxiv.org/abs/2501.10120
نقاط:
** PASA هو وكيل بحث أكاديمي ذكي أطلقت بشكل مشترك من قبل الباحثين في جامعة بيتيانس وبينج. **
** يتكون هذا النظام من اثنين من عوامل LLM ، الزاحف والمحدد ، ويمكنه تنفيذ استراتيجيات البحث المعقدة بشكل مستقل. **
** تظهر النتائج التجريبية أن PASA-7B يؤدي أفضل من طرق البحث الحالية في اختبارات القياس المتعددة ، مما يؤدي بشكل كبير إلى تحسين كفاءة البحث الورقي ودقةه. **
أدى ظهور PASA إلى تغييرات ثورية في البحوث الأكاديمية. في المستقبل ، يستحق التطوير وتطبيق PASA التطلع إليه.