NewsQA ดาวน์โหลด - ดาวน์โหลดซอร์สโค้ด NewsQA

NewsQA

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

NewsQa: ชุดข้อมูลข่าวสำหรับการสร้าง QA

พื้นที่เก็บข้อมูลนี้มีชุดข้อมูลขนาดใหญ่ของบทความข่าวที่คัดลอกมาจากเว็บไซต์ข่าวต่าง ๆ ของปากีสถาน ชุดข้อมูลครอบคลุมหมวดหมู่ที่หลากหลายรวมถึง:

การเมือง
กีฬา
แฟชั่นและสไตล์
ข่าวต่างประเทศ
กิจการในประเทศ
วิทยาศาสตร์และเทคโนโลยี

การรวบรวมข้อมูลและการสร้าง QA

เราประเมินแบบจำลองภาษาขนาดใหญ่หลายแบบ (LLMs) สำหรับการสร้างคู่คำถามตอบคำถามจากบทความข่าวที่ถูกคัดลอกมา:

LLAMA2 : สร้างคู่คำถามที่มีคุณภาพสูง แต่ค่อนข้างช้า
T5-SMALL : เร็ว แต่แม่นยำน้อยกว่ามักจะผลิตคู่ตอบคำถามซ้ำ
GPT-3.5 Turbo และ GPT-4 : มีประสิทธิภาพสำหรับการสร้างคู่คำถามที่มีคุณภาพสูงอย่างมีประสิทธิภาพ

ผลการวิจัยและชุดข้อมูล

กรณีศึกษาของเราเปิดเผยว่าในขณะที่ LLAMA2 มีคุณภาพดีที่สุดมันช้ากว่าเมื่อเทียบกับรุ่น GPT T5-small แม้ว่าจะเร็ว แต่ก็มีข้อ จำกัด ด้านความแม่นยำและการทำซ้ำ ดังนั้นเราจึงใช้ GPT-3.5 Turbo และ GPT-4 เพื่อสร้างชุดข้อมูลที่สำคัญยิ่งขึ้น

ชุดข้อมูลนี้เป็นโอเพ่นซอร์สและสามารถใช้สำหรับ:

ปรับแต่ง LLMS
การประเมินประสิทธิภาพของโมเดล

นอกจากนี้เรายังมี Llama เล็ก ๆ ที่ได้รับการปรับแต่งในชุดข้อมูลนี้

ตัวอย่างชุดข้อมูลที่สร้างขึ้นของ QA

Llama2

T5-small

คำถาม	คำตอบ
ชื่อทางการของปากีสถานคืออะไร?	สาธารณรัฐอิสลามแห่งปากีสถาน
มีกี่คนที่อาศัยอยู่ในปากีสถาน?	มากกว่า 241.5 ล้าน ณ ปี 2566
เมืองหลวงของปากีสถานคืออะไร?	อิสลามาบัด
เมืองและศูนย์กลางทางการเงินที่ใหญ่ที่สุดของปากีสถานคืออะไร?	การาจี

คำถาม	คำตอบ
เมืองหลวงของสินธุคืออะไร?	การาจี
ประชากรการาจีคืออะไร?	มากกว่า 20 ล้าน
การาจีอยู่ที่ไหน?	ปลายสุดของประเทศตามแนวชายฝั่งทะเลอาหรับ
เมืองหลวงของปากีสถานคืออะไร?	กรุงอิสลามาบัด

GPT-3.5-turbo

GPT-4

คำถาม	คำตอบ
อะไรเป็นแรงบันดาลใจให้เกิดการก่อตั้งรอบ?	สัตว์ที่ได้รับการช่วยเหลือครั้งแรกคือวัวหลุมชื่อ Lucky
ปัจจุบันมีสุนัขกี่ตัวที่ Laps?	สุนัขเกือบ 300 ตัว
มีสัตว์จรจัดกี่ตัวที่ได้รับการฉีดวัคซีนโดยรอบ?	สัตว์จรจัดกว่า 5,000 ตัว
มีสุนัขและแมวกี่ตัวที่ถูกทำหมันด้วยรอบ?	สุนัขและแมวมากกว่า 3,000 ตัว

คำถาม	คำตอบ
บริษัท เมล็ดพันธุ์ที่ผูกขาดทำอะไรกับผู้บริโภค?	การชาร์จค่าใช้จ่ายหนัก
เกษตรกรได้รับการอำนวยความสะดวกในบ่อน้ำปฏิบัติการอย่างไร?	โดยใช้พลังงานแสงอาทิตย์
มีขั้นตอนใดที่เสนอให้เกิดการปฏิวัติสีเขียวในประเทศ	เงินอุดหนุนปุ๋ยโดยตรงอุปทานเมล็ดที่มีคุณภาพและหลอดไฟพลังงานแสงอาทิตย์
ขั้นตอนดังกล่าวจะส่งผลกระทบต่อผลผลิตอย่างไร	ผลผลิตจะเพิ่มขึ้นเป็นสามเท่าในอีกไม่กี่ปีข้างหน้า

GPT3.5-Turbo และ GPT4 สร้างการตอบสนองที่ต้องการ ข้อความ alt รูปที่ Gradio Demo โดยใช้ T5-small

การติดตั้ง

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

สร้างสภาพแวดล้อมเสมือนจริงโดยใช้ Python Venv

python3 -m venv qa_llm
source qa_llm/bin/activate

หรือคุณสามารถใช้ Anaconda Package Manager

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

ตอนนี้ติดตั้งการพึ่งพาทั้งหมดที่ต้องการ

pip install --upgrade pip
pip install -r requirements.txt

การใช้งาน

การสร้าง QA ตรวจสอบให้แน่ใจว่าได้อ่านและทำความเข้าใจการกำหนดค่าและแทนที่ค่าที่เหมาะสมตามที่ต้องการ

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

และเรียกใช้รุ่น QA

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

และมี run_qa_llm_repo.ipynb ภายใต้ไดเรกทอรี notebooks เพื่อติดตั้งและเรียกใช้ QA บน Google Colab, Kaggle, GRADIET หรือเครื่องจักรในท้องถิ่นด้วย GPU

หากคุณพบว่าชุดข้อมูลมีประโยชน์สำหรับการปรับจูนการวิจัยและการพัฒนาอย่างละเอียดโปรดแสดงและอ้างอิง repo:

ผู้มีส่วนร่วม

Muhammad Faizan และ Sana Zafar

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}

สิ่งที่ต้องทำ

การสร้างชุดข้อมูล QA โดยใช้ LLAMA2 และ T5-SMALL
การสร้างชุดข้อมูล QA โดยใช้ GPT-3.5 Turbo และ GPT4
การทิ้งบทความข่าวจากช่องข่าวจากปากีสถาน
การสร้างชุดข้อมูลการปรับแต่งขนาดใหญ่ในรูปแบบ Alpaca
เพิ่มคำแนะนำการติดตั้ง / สภาพแวดล้อมเสมือนจริง
Tiny-Llama, Mistral และ Llama3 ที่ดีในชุดข้อมูลที่สร้างขึ้น
การประเมิน
กรอกแชทบ็อตสำหรับรุ่น QA

กิตติกรรมประกาศ

[1]. กรอบการขูดที่รวดเร็วและทรงพลังและการรวบรวมข้อมูลเว็บ การทำลาย (ND) https://scrapy.org/

[2]. https://huggingface.co/thebloke/llama-2-70b-ggml (ND)

[3]. Ushio, A. , Alva-Manchego, F. , & Camacho-Collados, J. (2023) การเปรียบเทียบเชิงประจักษ์ของคำถามและวิธีการสร้างคำตอบที่ใช้ LM arxiv preprint arxiv: 2305.17002

[4]. GPT-3.5 Turbo ของ OpenAi, platform.openai.com/docs/models/gpt-3-5-turbo เข้าถึง 28 กรกฎาคม 2567

ขยาย

ข้อมูลเพิ่มเติม