Descarga de NewsQA - Descargar el código fuente NewsQA

NewsQA

Código Fuente de IA

1.0.0

Descargar

Newsqa: conjunto de datos de noticias para la generación de control de calidad

Este repositorio contiene un gran conjunto de datos de artículos de noticias raspados de varios sitios web de noticias paquistaníes. El conjunto de datos cubre diversas categorías que incluyen:

Política
Deportes
Moda y estilo
Noticias internacionales
Asuntos domésticos
Ciencia y tecnología

Recopilación de datos y generación de control de calidad

Evaluamos varios modelos de idiomas grandes (LLM) para generar pares de respuesta de preguntas de los artículos de noticias raspados:

LLAMA2 : genera pares de respuesta-respuesta de alta calidad, pero es relativamente lento.
T5-Small : rápido pero menos preciso, a menudo produciendo pares de preguntas y respuestas duplicadas.
GPT-3.5 Turbo y GPT-4 : efectivo para generar pares de respuesta-respuesta de alta calidad de manera eficiente.

Hallazgos y conjunto de datos

Nuestro estudio de caso reveló que si bien LLAMA2 ofrece la mejor calidad, es más lento en comparación con los modelos GPT. T5-small , aunque rápido, tiene limitaciones en precisión y duplicación. En consecuencia, utilizamos GPT-3.5 Turbo y GPT-4 para generar un conjunto de datos más sustancial.

Este conjunto de datos es de código abierto y puede usarse para:

LLMS ajustado
Evaluación del rendimiento del modelo

Además, hemos ajustado Tiny Llama en este conjunto de datos.

Ejemplos de conjuntos de datos generados por QA

Llama2

T5-pequeña

Pregunta	Respuesta
¿Cuál es el nombre oficial de Pakistán?	República Islámica de Pakistán.
¿Cuántas personas viven en Pakistán?	Más de 241.5 millones a partir de 2023.
¿Cuál es la capital de Pakistán?	Islamabad.
¿Cuál es la ciudad más grande y el centro financiero de Pakistán?	Karachi.

Pregunta	Respuesta
¿Cuál es la ciudad capital de Sindh?	Karachi
¿Cuál es la población de Karachi?	Más de 20 millones
¿Dónde se encuentra Karachi?	El extremo sur del país a lo largo de la costa del mar árabe
¿Cuál es la ciudad capital de Pakistán?	Islamabad

GPT-3.5-TURBO

GPT-4

Pregunta	Respuesta
¿Qué inspiró la fundación de las vueltas?	El primer animal rescatado, un pit bull llamado Lucky.
¿Cuántos perros se encuentran actualmente en las vueltas?	Casi 300 perros.
¿Cuántos animales callejeros han sido vacunados por las vueltas hasta ahora?	Más de 5,000 animales callejeros.
¿Cuántos perros y gatos han sido castrados por las vueltas?	Más de 3.000 perros y gatos.

Pregunta	Respuesta
¿Qué le están haciendo a los consumidores a las compañías de semillas monopolistas?	Cobrar costos fuertes.
¿Cómo se facilitan los agricultores en los pozos de tubo de funcionamiento?	Mediante el uso de energía solar.
¿Qué pasos se proponen para materializar una revolución verde en el país?	Subsidio de fertilizantes directos, suministro de semillas de calidad y pozos de tubo con energía solar.
¿Cómo afectarían los pasos mencionados la productividad?	La productividad se triplicaría en un par de años.

GPT3.5-Turbo y GPT4 genera la respuesta deseada. texto alternativo Fig. Gradio Demo usando T5-small

Instalación

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

Crea un entorno virtual usando Python Venv

python3 -m venv qa_llm
source qa_llm/bin/activate

Alternativamente, puede usar Anaconda Package Manager

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

Ahora instale todas las dependencias requeridas

pip install --upgrade pip
pip install -r requirements.txt

Uso

Generación de QA, asegúrese de leer y comprender las configuraciones y reemplazar los valores apropiados según sea necesario.

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

y ejecutar la generación de control de calidad

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

Y hay un directorio run_qa_llm_repo.ipynb en el directorio notebooks para instalar y ejecutar el control de calidad en Google Colab, Kaggle, Gradiente o Máquina Local con GPU.

Si encuentra el conjunto de datos útil para ajustar, investigación y fines de desarrollo, estrella y cita el repositorio:

Colaboradores

Muhammad Faizan y Sana Zafar

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}

Hacer

Generación de conjuntos de datos de QA usando LLAMA2 y T5-Small
Generación de conjuntos de datos de QA utilizando GPT-3.5 Turbo y GPT4
Descripción de los artículos de noticias de los canales de noticias con sede en Pakistán
Creación de un gran conjunto de datos de ajuste en formato Alpaca
Agregar instrucciones de instalación / entorno virtual
Deline Tiny-Llama, Mistral y Llama3 en el conjunto de datos generado
Evaluación
Chatbot completo para la generación de control de calidad

Expresiones de gratitud

[1]. Un marco rápido y potente de rasguño y rastreo web. Screapy. (Dakota del Norte). https://scrapy.org/

[2]. https://huggingface.co/thebloke/llama-2-70b-ggml. (Dakota del Norte).

[3]. Ushio, A., Alva-Manch con, F. y Camacho-Collados, J. (2023). Una comparación empírica de los métodos de generación de preguntas y respuestas basados en LM. preimpresión ARXIV ARXIV: 2305.17002.

[4]. GPT-3.5 Turbo, plataforma.openai.com/docs/models/gpt-3-5-turbo. Consultado el 28 de julio de 2024.

Expandir

Información adicional