NewsQAダウンロードNewsQAソースコードのダウンロード

NewsQA

AI ソースコード

1.0.0

ダウンロード

NewsQA：QA世代のニュースデータセット

このリポジトリには、さまざまなパキスタンのニュースWebサイトから削られたニュース記事の大規模なデータセットが含まれています。データセットは、次のような多様なカテゴリをカバーしています。

政治
スポーツ
ファッションとスタイル
国際ニュース
内政
科学と技術

データ収集とQA生成

スクレイプされたニュース記事から質問回答ペアを生成するために、いくつかの大きな言語モデル（LLM）を評価しました。

LLAMA2 ：高品質の質問回答ペアを生成しますが、比較的遅いです。
T5-Small ：高速ですが、精度が低く、多くの場合、重複した質問回答ペアが生成されます。
GPT-3.5ターボおよびGPT-4 ：高品質の質問回答を効率的に生成するのに効果的です。

調査結果とデータセット

私たちのケーススタディでは、Llama2は最高品質を提供しますが、GPTモデルと比較して遅くなることが明らかになりました。 T5-small 、高速ですが、精度と重複に制限があります。その結果、 GPT-3.5 TurboとGPT-4を使用して、より実質的なデータセットを生成しました。

このデータセットはオープンソースであり、以下に使用できます。

微調整LLMS
モデルのパフォーマンスの評価

さらに、このデータセットには小さなラマが微調整されています。

QA生成されたデータセットの例

llama2

T5-Small

質問	答え
パキスタンの公式名は何ですか？	パキスタンのイスラム共和国。
パキスタンには何人住んでいますか？	2023年現在2億4150万人以上。
パキスタンの首都は何ですか？	イスラマバード。
パキスタンの最大の都市および金融センターは何ですか？	カラチ。

質問	答え
シンドの首都は何ですか？	カラチ
カラチの人口は何ですか？	2000万を超える
カラチはどこにありますか？	アラビア海岸沿いの国の南端
パキスタンの首都は何ですか？	イスラマバード

GPT-3.5-ターボ

GPT-4

質問	答え
ラップの設立に影響を与えたきっかけは何ですか？	最初に救助された動物、ラッキーという名前のピットブル。
現在、ラップで何匹の犬が収容されていますか？	ほぼ300匹の犬。
これまでのところ、何人の野良動物がラップでワクチン接種されましたか？	5,000を超える野良動物。
何人の犬と猫がラップで去勢されましたか？	3,000匹以上の犬と猫。

質問	答え
独占的な種子会社は消費者に何をしていますか？	重いコストの請求。
農民はどのように操作チューブウェルで促進されていますか？	太陽エネルギーを使用する。
国の緑の革命を実現するためにどのようなステップが提案されていますか？	直接肥料補助金、高品質の種子の供給、太陽電池式チューブウェル。
上記のステップは生産性にどのような影響を与えますか？	生産性は数年後に3倍になります。

GPT3.5-TurboとGPT4 、望ましい応答を生成します。 altテキスト図T5-smallを使用したグラデーションデモ

インストール

 git clone https://github.com/faizan1234567/QALLM.git
 cd QALLM

Python venvを使用して仮想環境を作成します

python3 -m venv qa_llm
source qa_llm/bin/activate

または、Anacondaパッケージマネージャーを使用することもできます

conda create -n qa_llm python=3.8.10 -y
conda activate qa_llm

必要なすべての依存関係をインストールします

pip install --upgrade pip
pip install -r requirements.txt

使用法

QA生成、設定を読んで理解し、必要に応じて適切な値を置き換えるようにしてください。

python create_alpaca_format_dataset.py --chunk_size 5000 --dataset < path >

QA生成を実行します

python qa_generator.py --model T5-small --cfg cfg/qa_generator.yaml

また、Google Colab、Kaggle、Gradient、またはGPUを使用してローカルマシンにQAをインストールおよび実行するためのnotebooksディレクトリの下にrun_qa_llm_repo.ipynbがあります。

データセットが微調整、研究、開発の目的に役立つと思う場合は、リポジトリを主演して引用してください。

貢献者

ムハンマド・ファイザンとサナ・ザファー

@misc{QALLM,
    title={NewsQA: News Dataset for QA Generation},
    authors={Muhammad Faizan and Sana Zafar},
    howpublished = { url {https://github.com/faizan1234567/QALLM}},
    year={2024}
}