NewsQA 다운로드 - NewsQA 소스 코드 다운로드

NewsQA

AI 소스 코드

1.0.0

다운로드

NewsQA : QA 생성을위한 뉴스 데이터 세트

이 저장소에는 다양한 파키스탄 뉴스 웹 사이트에서 긁힌 뉴스 기사 데이터 세트가 포함되어 있습니다. 데이터 세트는 다음을 포함한 다양한 범주를 다룹니다.

정치
스포츠
패션과 스타일
국제 뉴스
가정 업무
과학 및 기술

데이터 수집 및 QA 생성

우리는 긁힌 뉴스 기사에서 질문 응답 쌍을 생성하기 위해 몇 가지 대형 언어 모델 (LLM)을 평가했습니다.

LLAMA2 : 고품질 질문 응답 쌍을 생성하지만 상대적으로 느립니다.
T5-Small : 빠르고 덜 정확하며 종종 중복 질문 응답 쌍을 생성합니다.
GPT-3.5 Turbo 및 GPT-4 : 고품질 질문 응답 쌍을 효율적으로 생성하는 데 효과적입니다.

결과 및 데이터 세트

우리의 사례 연구에 따르면 LLAMA2는 최상의 품질을 제공하지만 GPT 모델에 비해 느리게 진행됩니다. T5-small 빠르지 만 정확도와 복제에는 한계가 있습니다. 결과적으로, 우리는 GPT-3.5 Turbo 및 GPT-4 사용하여보다 실질적인 데이터 세트를 생성했습니다.

이 데이터 세트는 오픈 소스이며 다음에 사용될 수 있습니다.

미세 조정 LLM
모델 성능 평가

또한이 데이터 세트에 미세 조정 된 작은 라마가 있습니다.

QA 생성 데이터 세트 예제

llama2

T5-Small

질문	답변
파키스탄의 공식 이름은 무엇입니까?	파키스탄 이슬람 공화국.
파키스탄에 얼마나 많은 사람들이 살고 있습니까?	2023 년 현재 2 억 2,500 만 명 이상.
파키스탄의 수도는 무엇입니까?	이슬라마바드.
파키스탄의 가장 큰 도시 및 금융 센터는 무엇입니까?	카라치.

질문	답변
수도 인 신드는 무엇입니까?	카라치
카라치의 인구는 무엇입니까?	2 천만 이상
Karachi는 어디에 있습니까?	아라비아 해안을 따라 나라의 남쪽 끝
파키스탄의 수도는 무엇입니까?	이슬라마바드

GPT-3.5 터보

GPT-4

질문	답변
랩의 창립에 영감을주는 것은 무엇입니까?	최초의 구조 된 동물, Lucky라는 구덩이 황소.
현재 랩에 몇 마리의 개가 수용되어 있습니까?	거의 300 마리의 개.
지금까지 랩으로 백신 접종을 받았습니까?	5,000 명 이상의 길 잃은 동물.
랩으로 얼마나 많은 개와 고양이가 중성화 되었습니까?	3,000 마리 이상의 개와 고양이.

질문	답변
독점 종자 회사는 소비자에게 무엇을하고 있습니까?	많은 비용을 청구합니다.
운영 튜브 우물에서 농민들은 어떻게 촉진되고 있습니까?	태양 에너지를 사용하여.
이 나라의 녹색 혁명을 구체화하기 위해 어떤 조치가 제안됩니까?	직접 비료 보조금, 품질 종자 공급 및 태양열 튜브 웰.
언급 된 단계는 생산성에 어떤 영향을 미칩니 까?	생산성은 몇 년 안에 3 배가 될 것입니다.

GPT3.5-Turbo 및 GPT4 원하는 응답을 생성합니다. 대체 텍스트 T5-small 사용한 Gradio 데모

설치

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

Python Venv를 사용하여 가상 환경을 만듭니다

python3 -m venv qa_llm
source qa_llm/bin/activate

또는 Anaconda 패키지 관리자를 사용할 수 있습니다

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

이제 필요한 모든 종속성을 설치하십시오

pip install --upgrade pip
pip install -r requirements.txt

용법

QA 생성, 구성을 읽고 이해하고 필요에 따라 적절한 값을 교체하십시오.

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

QA 생성을 실행하십시오

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

Google Colab, Kaggle, Gradient 또는 GPU와 함께 로컬 컴퓨터에서 QA를 설치하고 실행할 수있는 notebooks 디렉토리 아래에 run_qa_llm_repo.ipynb 가 있습니다.

미세 조정, 연구 및 개발 목적에 유용한 데이터 세트를 찾으려면 Repo를 Star & Incite를 인용하십시오.

기고자

무하마드 파이잔과 사나 자 파르

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}