金融Q&AにおけるRAGおよびLLMのアプリケーション
大規模な言語モデルがさまざまな技術の触媒を加速する時代には、言語モデルの開発サイクルがより短く、より効果的になっています。大規模な言語モデルの出現により、金融業界の巨大で複雑な情報は、もはやコーパスの検索を一般化できないことに対する障害ではなく、徐々に解決されている問題です。この課題は、財政的な質問と回答の分野に焦点を当てており、参加者が使用できる豊富なデータベースを提供します。参加者は、提供されたコーパスからの質問に答えるための正しい情報を見つけるなどの基本的な要件や、正しい言語モデルを生成して正しい回答を生成する能力など、検索結果の精度を改善するためにメカニズムを設計する必要があります。
レポをダウンロードします
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
環境を準備します
noted : GPUとOS環境を確認し、 PytorchのWebサイトにアクセスしてPytorchを最初にインストールしてください。
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
公式ウェブサイトにアクセスしてデータセットをダウンロードします。 (ポリシーのため、データセットを提供することはできません)
スクリプトを直接実行できます
cd scripts
1.download_preliminary_data.bat
または、 ./datasets/ download_preliminary_datasets.pyでスニペットを実行します
cd datasets
python ./download_preliminary_datasets.py
データセットを./Datasetsに配置します。
スクリプトを直接実行してベースラインコードを実行できます
cd scripts
2.run_baseline_code.bat
または、./main_baseline.pyでスニペットを実行します
python ./main_baseline.py
ベースラインコードを実行した後、 ./ output/baseLine.jsonでJSONの結果が生成されます
提出された結果を再現するには、実行できます
cd scripts
3.run_preliminary_results.bat
または、 ./main_preliminary.pyでスニペットを実行します
python ./preliminary_results.py
ベースラインコードを実行すると、 ./ output/preliminary_results.jsonでJSON結果が生成されます
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
ベースラインの結果を取得する例:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json