Téléchargement NewsQA - Téléchargement du code source NewsQA

NewsQA

Code Source AI

1.0.0

Télécharger

Newsqa: ensemble de données de nouvelles pour la génération d'AQ

Ce référentiel contient un grand ensemble de données d'articles de presse arrachés à partir de divers sites d'information pakistanais. L'ensemble de données couvre diverses catégories, notamment:

Politique
Sportif
Mode et style
Nouvelles internationales
Affaires intérieures
Science et technologie

Collecte de données et génération de QA

Nous avons évalué plusieurs grands modèles de langage (LLMS) pour générer des paires de réponses à des questions à partir des articles de presse racinés:

LLAMA2 : génère des paires de réponses de questions de haute qualité mais est relativement lente.
T5-Small : Fast mais moins précis, produisant souvent des paires de questions-réponses en double.
GPT-3.5 Turbo et GPT-4 : efficace pour générer efficacement les paires de réponses de questions de haute qualité.

Résultats et ensemble de données

Notre étude de cas a révélé que si LLAMA2 offre la meilleure qualité, elle est plus lente par rapport aux modèles GPT. T5-small , bien que rapide, a des limites de précision et de duplication. Par conséquent, nous avons utilisé GPT-3.5 Turbo et GPT-4 pour générer un ensemble de données plus substantiel.

Cet ensemble de données est open-source et peut être utilisé pour:

LLMS à réglage fin
Évaluation des performances du modèle

De plus, nous avons un petit Llama affiné sur cet ensemble de données.

Exemples d'ensemble de données générés par QA

Lama2

T5-petit

Question	Répondre
Quel est le nom officiel du Pakistan?	République islamique du Pakistan.
Combien de personnes vivent au Pakistan?	Plus de 241,5 millions en 2023.
Quelle est la capitale du Pakistan?	Islamabad.
Quelle est la plus grande ville et centre financier du Pakistan?	Karachi.

Question	Répondre
Quelle est la capitale de Sindh?	Karachi
Quelle est la population de Karachi?	plus de 20 millions
Où se trouve Karachi?	pointe sud du pays le long de la côte de la mer d'Oman
Quelle est la capitale du Pakistan?	Islamabad

GPT-3,5-turbo

Gpt-4

Question	Répondre
Qu'est-ce qui a inspiré la fondation des tours?	Le premier animal secouru, un pit-bull nommé Lucky.
Combien de chiens sont actuellement hébergés dans les tours?	Près de 300 chiens.
Combien d'animaux errants ont été vaccinés par des tours jusqu'à présent?	Plus de 5 000 animaux errants.
Combien de chiens et de chats ont été stérilisés par des tours?	Plus de 3 000 chiens et chats.

Question	Répondre
Que font les entreprises de semences monopolistiques aux consommateurs?	Facturer les coûts lourds.
Comment les agriculteurs sont-ils facilités dans des puits de tube de fonctionnement?	En utilisant l'énergie solaire.
Quelles étapes sont proposées pour matérialiser une révolution verte dans le pays?	Subvention directe des engrais, approvisionnement en graines de qualité et puits de tube à énergie solaire.
Comment les étapes mentionnées auraient-elles un impact sur la productivité?	La productivité serait triple en quelques années.

GPT3.5-Turbo et GPT4 génèrent la réponse souhaitée. texte alt Fig. Demo Gradio en utilisant T5-small

Installation

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

Créer un environnement virtuel à l'aide de Python Venv

python3 -m venv qa_llm
source qa_llm/bin/activate

Alternativement, vous pouvez utiliser Anaconda Package Manager

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

Installez maintenant toutes les dépendances requises

pip install --upgrade pip
pip install -r requirements.txt

Usage

Génération d'AQ, assurez-vous de lire et de comprendre les configurations et de remplacer les valeurs appropriées selon les besoins.

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

et exécuter la génération QA

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

Et il y a un répertoire run_qa_llm_repo.ipynb sous notebooks pour installer et exécuter le QA sur Google Colab, Kaggle, Gradient ou Machine local avec GPU.

Si vous trouvez l'ensemble de données utile à des fins de réglage, de recherche et de développement, veuillez jouer et citer le repo:

Contributeurs

Muhammad Faizan et Sana Zafar

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}

Faire

Génération de jeux de données QA utilisant LLAMA2 et T5-Small
Génération de jeux de données QA à l'aide de GPT-3.5 Turbo et GPT4
Déborder des articles de presse provenant des chaînes d'information basées sur le Pakistan
Création d'un grand ensemble de données fins au format alpaca
Ajouter des instructions d'installation / environnement virtuel
Fine-Ting Tiny-Lama, Mistral et Llama3 sur l'ensemble de données généré
Évaluation
Chatbot complet pour la génération d'AQ

Remerciements

[1]. Un cadre de grattage et de rampage Web rapide et puissant. Scrapie. (nd). https://scrapy.org/

[2]. https://huggingface.co/thebloke/llama-2-70b-ggml. (nd).

[3]. Ushio, A., Alva-Manchego, F., et Camacho-Collados, J. (2023). Une comparaison empirique des méthodes de génération de questions et de réponses basées sur LM. ARXIV PRÉALLAGE ARXIV: 2305.17002.

[4]. GPT-3.5 Turbo d'Openai, Platform.openai.com/docs/models/gpt-3-5-turbo. Consulté le 28 juillet 2024.

Développer

Informations supplémentaires