question_generator تنزيل - question_generator تنزيل رمز المصدر

question_generator

شفرة المصدر الأخرى

1.0.0

تنزيل

Question_generator

مولد الأسئلة هو نظام NLP لتوليد أسئلة على غرار القراءة من نصوص مثل المقالات الإخبارية أو صفحات مقتطفات من الكتب. تم تصميم النظام باستخدام نماذج مسبقة من محولات Luggingface. هناك نموذجان: مولد الأسئلة نفسه ، ومقيّم ضمان الجودة الذي يحتل وتصفية أزواج الإجابة على الأسئلة بناءً على قبولها.

تحديث 2021/11/29

نصوص التدريب المحدثة

تم تحديث دفاتر التدريب باستخدام البرامج النصية التدريبية. لتشغيل:

python question_generator/training/qg_train.py

python question_generator/training/qa_eval_train.py

يمكن تغيير أجهزة التحكم في فرط البارامات باستخدام وسيطات سطر الأوامر. راجع البرامج النصية للحصول على قائمة الحجج المتاحة.

تم تحميل مجموعات البيانات إلى Huggingface Hub

تم تحميل مجموعات البيانات إلى Huggingface Hub:

بيانات تدريب ومولد الأسئلة على بيانات التحقق من صحة
بيانات التدريب والتحقق من التقييم في ضمان الجودة

الاستخدام

أسهل طريقة لإنشاء بعض الأسئلة هي استنساخ Github Repo ثم تشغيل qg_run.py مثل هذا:

 git clone https://github.com/amontgomerie/question_generator
cd question_generator
pip install -r requirements.txt -qq
python run_qg.py --text_file articles/twitter_hack.txt

سيؤدي ذلك إلى توليد 10 أزواج من الإجابة عن أسئلة من النمط المختلط (كامل الجملة والاختيار من متعدد) استنادًا إلى المقالة المحددة في- --text_file وطباعتها إلى وحدة التحكم. لمزيد من المعلومات ، راجع دفتر Notebook qg_commandline_example.

يمكن أيضًا إنشاء فئة QuestionGenerator واستخدامها على هذا النحو:

 from questiongenerator import QuestionGenerator
qg = QuestionGenerator ()
qg . generate ( text , num_questions = 10 )

سيؤدي ذلك إلى توليد 10 أسئلة ذات أسلوب مختلط وإرجاع قائمة من القواميس التي تحتوي على أزواج إجابات أسئلة. في حالة أسئلة الاختيار من متعدد ، ستحتوي الإجابة على قائمة بالقواميس التي تحتوي على الإجابات وقيمة منطقية تفيد إذا كانت الإجابة صحيحة أم لا. يمكن طباعة الإخراج بسهولة باستخدام وظيفة print_qa() . لمزيد من المعلومات ، راجع دفتر الملاحظات Question_generation_example.

اختيار عدد الأسئلة

يمكن تمرير العدد المطلوب من الأسئلة كوسيطة لسطر الأوامر باستخدام --num_questions أو كوسيطة عند استدعاء qg.generate(text, num_questions=20 إذا كان العدد المختار كبيرًا جدًا ، فإن النموذج قد لا يكون قادرًا على توليد ما يكفي من الجودة. انخفاض في أعداد أكبر من الأسئلة ، حيث أن تقييم QA يصنف أسئلة ويعيد أفضل الأسئلة.

أنماط الإجابة

يمكن للنظام إنشاء أسئلة ذات إجابات كاملة ( 'sentences' ) ، أو أسئلة ذات إجابات متعددة الخيارات ( 'multiple_choice' ) ، أو مزيج من الاثنين ( 'all' ). يمكن تحديد ذلك باستخدام الوسيطات --answer_style أو qg.generate(answer_style=<style>) .

النماذج

مولد أسئلة

يأخذ نموذج مولد الأسئلة نصًا كمدخلات ويخرج سلسلة من أسئلة وأزواج الإجابة. الإجابات هي الجمل والعبارات المستخرجة من نص الإدخال. يمكن أن تكون العبارات المستخرجة إما جمل كاملة أو كيانات تسميها مستخرجة باستخدام Spacy. يتم استخدام الكيانات المسماة لإجابات الاختيار من متعدد. ستكون الإجابات الخاطئة هي كيانات أخرى من نفس النوع الموجود في النص. يتم إنشاء الأسئلة عن طريق تسلسل الإجابة المستخرجة مع النص الكامل (بحد أقصى 512 رمزًا) كسياق بالتنسيق التالي:

 answer_token <extracted answer> context_token <context>

ثم يتم تشفير السلسلة المتسلسلة وتغذيتها في نموذج مولد الأسئلة. الهندسة المعمارية النموذجية هي t5-base . تم تحطيم النموذج المسبق كنموذج تسلسل إلى تسلسل على مجموعة بيانات تشكل العديد من مجموعات بيانات ضمان الجودة المعروفة (فرقة ، العرق ، CoQA ، و MSMarco). تمت إعادة هيكلة مجموعات البيانات عن طريق تسلسل الحقول الإجابة والسياق في التنسيق المذكور سابقًا. ثم تم استخدام الإجابة المتسلسلة والسياق كمدخل للتدريب ، وأصبح حقل الأسئلة هو الأهداف.

يمكن العثور على مجموعات البيانات هنا.

QA المقيِّم

يأخذ مُقيِّم ضمان الجودة زوج إجابة أسئلة كإدخال ويؤدي إلى إخراج قيمة تمثل تنبؤها حول ما إذا كان الإدخال سؤالًا صحيحًا وزوجًا للإجابة أم لا. النموذج bert-base-cased مع رأس تصنيف تسلسل. تم تحطيم النموذج المسبق على نفس البيانات مثل نموذج مولد الأسئلة ، ولكن تمت إزالة السياق. تم تسلسل السؤال والإجابة 50 ٪ من الوقت. في الـ 50 ٪ الأخرى من الوقت ، تم إجراء عملية فساد (إما تبديل الإجابة لإجابة غير ذات صلة ، أو عن طريق نسخ جزء من السؤال إلى الإجابة). ثم تم تدريب النموذج على التنبؤ بما إذا كان تسلسل الإدخال يمثل أحد أزواج QA الأصلية أو إدخال تالف.

يتبع المدخلات الخاصة بتقييم ضمان الجودة تنسيق BertForSequenceClassification ، ولكن باستخدام السؤال والإجابة كتسلسين. هذا هو التنسيق التالي:

 [CLS] <question> [SEP] <answer [SEP]

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-15
الحجم 40.25KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
Contoso Data Generator V2

2024-11-11
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل