تنزيل NewsQA - تنزيل رمز مصدر NewsQA

NewsQA

كود الذكاء الاصطناعي

1.0.0

تنزيل

NewsQA: مجموعة بيانات الأخبار لجيل ضمان الجودة

يحتوي هذا المستودع على مجموعة بيانات كبيرة من المقالات الإخبارية المكسورة من مختلف مواقع الأخبار الباكستانية. تغطي مجموعة البيانات فئات متنوعة بما في ذلك:

سياسة
الرياضة
الموضة والأناقة
أخبار دولية
الشؤون المنزلية
العلوم والتكنولوجيا

جمع البيانات وتوليد ضمان الجودة

قمنا بتقييم العديد من نماذج اللغة الكبيرة (LLMS) لإنشاء أزواج إجابات أسئلة من المقالات الإخبارية المكثفة:

LLAMA2 : يولد أزواج أسئلة عالية الإجابة على الجودة ولكنه بطيء نسبيًا.
T5-Small : سريع ولكن أقل دقة ، وغالبًا ما ينتج عن أزواج أسئلة-إجابة مكررة.
GPT-3.5 Turbo و GPT-4 : فعالة لتوليد أزواج عالية الجودة إجابتها بكفاءة.

النتائج ومجموعة البيانات

كشفت دراسة الحالة الخاصة بنا أنه على الرغم من أن LLAMA2 تقدم أفضل جودة ، إلا أنها أبطأ مقارنة بنماذج GPT. T5-small ، على الرغم من سريع ، لديها قيود في الدقة والازدواج. وبالتالي ، استخدمنا GPT-3.5 Turbo و GPT-4 لإنشاء مجموعة بيانات أكثر جوهرية.

مجموعة البيانات هذه مفتوحة المصدر ويمكن استخدامها لـ:

صقل LLMS
تقييم أداء النموذج

بالإضافة إلى ذلك ، لدينا LAMA TINE تم ضبطه على مجموعة البيانات هذه.

أمثلة مجموعة بيانات QA التي تم إنشاؤها

Llama2

T5-small

سؤال	إجابة
ما هو الاسم الرسمي لباكستان؟	جمهورية باكستان الإسلامية.
كم من الناس يعيشون في باكستان؟	أكثر من 241.5 مليون اعتبارا من 2023.
ما هي عاصمة باكستان؟	إسلام أباد.
ما هي أكبر مدينة ومركز مالي في باكستان؟	كراتشي.

سؤال	إجابة
ما هي عاصمة السند؟	كراتشي
ما هو سكان كراتشي؟	أكثر من 20 مليون
أين يقع كراتشي؟	الطرف الجنوبي للبلاد على طول ساحل البحر العربي
ما هي عاصمة باكستان؟	إسلام أباد

GPT-3.5 توربو

GPT-4

سؤال	إجابة
ما الذي ألهم تأسيس لفات؟	أول حيوان تم إنقاذه ، ثور حفرة اسمه محظوظ.
كم عدد الكلاب الموجودة حاليًا في لفات؟	ما يقرب من 300 كلب.
كم عدد الحيوانات الضالة التي تم تطعيمها بواسطة لفات حتى الآن؟	أكثر من 5000 حيوان طائش.
كم عدد الكلاب والقطط التي تم تحييدها بواسطة لفات؟	أكثر من 3000 كلب وقطط.

سؤال	إجابة
ما الذي تفعله شركات البذور الاحتكارية للمستهلكين؟	شحن التكاليف الثقيلة.
كيف يتم تسهيل المزارعين في آبار أنبوب التشغيل؟	باستخدام الطاقة الشمسية.
ما هي الخطوات المقترحة لتجسيد ثورة خضراء في البلاد؟	دعم الأسمدة المباشرة ، وتوريد البذور الجودة ، وآبار الأنبوب التي تعمل بالطاقة الشمسية.
كيف ستؤثر الخطوات المذكورة على الإنتاجية؟	سوف الإنتاجية ثلاثة أضعاف في غضون عامين.

GPT3.5-Turbo و GPT4 يولد الاستجابة المطلوبة. نص بديل الشكل. تجريبي باستخدام T5-small

تثبيت

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

إنشاء enviroment افتراضية باستخدام Python Venv

python3 -m venv qa_llm
source qa_llm/bin/activate

بدلاً من ذلك ، يمكنك استخدام مدير حزم Anaconda

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

الآن تثبيت جميع التبعيات المطلوبة

pip install --upgrade pip
pip install -r requirements.txt

الاستخدام

جيل ضمان الجودة ، تأكد من قراءة وفهم التكوينات واستبدال القيم المناسبة كما هو مطلوب.

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

وتشغيل جيل ضمان الجودة

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

وهناك run_qa_llm_repo.ipynb ضمن دليل notebooks لتثبيت QA وتشغيله على Google Colab أو Kaggle أو التدرج أو الجهاز المحلي مع GPU.

إذا وجدت مجموعة البيانات مفيدة لأغراض الضبط والبحث والتطوير ، فيرجى Star & Cite the Repo:

المساهمين

محمد فايزان وسانا ظفر

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}

تودو

جيل مجموعة بيانات QA باستخدام LLAMA2 و T5-SMALL
جيل مجموعة بيانات QA باستخدام GPT-3.5 Turbo و GPT4
إلغاء مقالات إخبارية من قنوات إخبارية مقرها باكستان
إنشاء مجموعة بيانات كبيرة الدقة بتنسيق الألبكة
إضافة تعليمات التثبيت / البيئة الافتراضية
Tiny-llama tiny-llama و Mistral و Llama3 على مجموعة بيانات تم إنشاؤها
تقييم
chatbot كاملة لتوليد ضمان الجودة

شكر وتقدير

[1]. إطار عمل سريع وقوي على شبكة الإنترنت. Scrapy. (اختصار الثاني). https://scrapy.org/

[2]. https://huggingface.co/thebloke/llama-2-70b-ggml. (اختصار الثاني).

[3]. Ushio ، A. ، Alva-Manchego ، F. ، & Camacho-Collados ، J. (2023). مقارنة تجريبية لطرق توليد الأسئلة القائمة على LM. Arxiv preprint Arxiv: 2305.17002.

[4]. Openai's GPT-3.5 Turbo ، platform.openai.com/docs/models/gpt-3-5-turbo. تم الوصول إليه في 28 يوليو 2024.

يوسع

معلومات إضافية