NewsQA Download - NewsQA Source Code Download

NewsQA

AI-Quellcode

1.0.0

Herunterladen

Newsqa: News -Datensatz für die QA -Generation

Dieses Repository enthält einen großen Datensatz von Nachrichtenartikeln, die von verschiedenen pakistanischen Nachrichten -Websites abgeschafft wurden. Der Datensatz deckt verschiedene Kategorien ab, einschließlich:

Politik
Sport
Mode & Stil
Internationale Nachrichten
Haushaltsangelegenheiten
Wissenschaft und Technologie

Datenerfassung und QS -Generierung

Wir haben mehrere große Sprachmodelle (LLMs) bewertet, um Fragen-Antwortenpaare aus den abgekratzten Nachrichtenartikeln zu generieren:

LLAMA2 : Erzeugt hochwertige Frage-Antwortenpaare, ist aber relativ langsam.
T5-Small : Schnell, aber weniger genau und erzeugt oft doppelte Frage-Antwortenpaare.
GPT-3,5 Turbo und GPT-4 : Wirksam zur effizienten Erzeugung hochwertiger Fragen-Antwortenpaare.

Ergebnisse und Datensatz

Unsere Fallstudie ergab, dass LLAMA2 zwar die beste Qualität bietet, aber im Vergleich zu GPT -Modellen langsamer ist. T5-small hat zwar schnell, aber Einschränkungen bei der Genauigkeit und Duplikation. Infolgedessen haben wir GPT-3.5 Turbo und GPT-4 verwendet, um einen umfangreicheren Datensatz zu generieren.

Dieser Datensatz ist Open-Source und kann verwendet werden für:

Feinabstimmung LLMs
Bewertung der Modellleistung

Darüber hinaus haben wir in diesem Datensatz fein abgestimmte kleine Lama.

QA generierte Datensatzbeispiele

LAMA22

T5-Small

Frage	Antwort
Wie lautet der offizielle Name Pakistans?	Islamische Republik Pakistan.
Wie viele Menschen leben in Pakistan?	Über 241,5 Millionen ab 2023.
Was ist die Hauptstadt Pakistans?	Islamabad.
Was ist das größte Stadt- und Finanzzentrum Pakistans?	Karachi.

Frage	Antwort
Was ist die Hauptstadt Sindh?	Karachi
Was ist die Bevölkerung von Karachi?	über 20 Millionen
Wo befindet sich Karachi?	Südspitze des Landes entlang der Arabischen Küste
Was ist die Hauptstadt Pakistans?	Islamabad

GPT-3,5-Turbo

GPT-4

Frage	Antwort
Was hat die Gründung von Runden inspiriert?	Das erste gerettete Tier, ein Pitbull namens Lucky.
Wie viele Hunde sind derzeit in Runden untergebracht?	Fast 300 Hunde.
Wie viele streunende Tiere wurden bisher von Runden geimpft?	Über 5.000 streunende Tiere.
Wie viele Hunde und Katzen wurden durch Runden kastriert?	Mehr als 3.000 Hunde und Katzen.

Frage	Antwort
Was machen monopolistische Saatgutunternehmen den Verbrauchern?	Starke Kosten laden.
Wie werden die Landwirte in Operationstöhrenbrunnen erleichtert?	Durch Verwendung von Sonnenenergie.
Welche Schritte werden vorgeschlagen, um eine grüne Revolution im Land zu materialisieren?	Direkten Düngersubventionen, Qualitätssamenversorgung und solarbetriebene Röhrchen-Wells.
Wie würden sich die genannten Schritte auf die Produktivität auswirken?	Die Produktivität würde sich in ein paar Jahren verdreifachen.

GPT3.5-Turbo und GPT4 erzeugen die gewünschte Antwort. ALT -Text Abb. Gradio Demo mit T5-small

Installation

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

Erstellen Sie eine virtuelle Umgebung mit Python Venv

python3 -m venv qa_llm
source qa_llm/bin/activate

Alternativ können Sie Anaconda Paket Manager verwenden

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

Installieren Sie nun alle erforderlichen Abhängigkeiten

pip install --upgrade pip
pip install -r requirements.txt

Verwendung

QA -Generierung, lesen Sie die Konfigurationen und ersetzen Sie die geeigneten Werte nach Bedarf.

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

und führen Sie die QA -Generation aus

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

Und es gibt ein run_qa_llm_repo.ipynb unter notebooks -Verzeichnis, um die QA in Google Colab, Kaggle, Gradienten oder lokaler Maschine mit GPU zu installieren und auszuführen.

Wenn Sie den Datensatz für Feinabstimmungen, Forschung und Entwicklungszwecke nützlich finden, sparen Sie bitte das Repo:

Mitwirkende

Muhammad Faizan und Sana Zafar

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}

Todo

QA-Datensatzgenerierung mit LLAMA2 und T5-Small
QA-Datensatzgenerierung mit GPT-3.5 Turbo und GPT4
Schrottnachrichtenartikel von in Pakistan ansässigen Nachrichtenkanälen
Erstellen eines großen Feinabstimmungsdatensatzes im Alpaka-Format
Fügen Sie Installations- / virtuelle Umgebungsanweisungen hinzu
Fein-tägliche Tiny-Llama, Mistral und Lama3 über generiertes Datensatz
Auswertung
Vollständige Chatbot für die QA -Generation

Anerkennung

[1]. Ein schnelles und leistungsstarkes Scraping- und Web -Crawling -Framework. Scrapy. (ND). https://scrapy.org/

[2]. https://huggingface.co/thebloke/llama-2-70b-ggml. (ND).

[3]. A. Ushio, F. Alva-Manchego & J. Camacho-Collados (2023). Ein empirischer Vergleich von LM-basierten Fragen- und Antwortgenerierungsmethoden. Arxiv Preprint Arxiv: 2305.17002.

[4]. OpenAIs GPT-3.5 Turbo, platform.openai.com/docs/models/gpt-3-5-turbo. Zugriff 28. Juli 2024.

Expandieren

Zusätzliche Informationen