Aplikasi Rag dan LLM dalam Tanya Jawab Keuangan
Di era ketika model bahasa besar mempercepat katalisis berbagai teknologi, siklus pengembangan model bahasa semakin pendek dan lebih efektif. Dengan munculnya model bahasa besar, informasi besar dan kompleks dalam industri keuangan tidak lagi menjadi hambatan bagi ketidakmampuan untuk menggeneralisasi pengambilan corpus, tetapi masalah yang secara bertahap sedang diselesaikan. Tantangan ini berfokus pada bidang pertanyaan dan jawaban keuangan dan menyediakan database yang kaya untuk digunakan peserta. Peserta perlu merancang mekanisme untuk meningkatkan keakuratan hasil pencarian, termasuk persyaratan dasar seperti menemukan informasi yang benar untuk menjawab pertanyaan dari korpus yang disediakan, serta kemampuan untuk menghasilkan model bahasa besar untuk menghasilkan jawaban yang benar dan lengkap.
Unduh repo
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
Persiapkan lingkungan
❗Noted : Silakan periksa lingkungan GPU dan OS Anda, dan buka situs web Pytorch untuk menginstal Pytorch terlebih dahulu.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
Buka situs web resmi untuk mengunduh dataset. (Karena kebijakan, kami tidak dapat memberikan dataset)
Anda dapat langsung menjalankan skrip
cd scripts
1.download_preliminary_data.bat
Atau jalankan cuplikan di ./datasets/download_preliminary_datasets.py
cd datasets
python ./download_preliminary_datasets.py
Tempatkan dataset di ./datasets.
Anda dapat langsung menjalankan skrip untuk menjalankan kode dasar
cd scripts
2.run_baseline_code.bat
Atau jalankan cuplikan di ./main_baseline.py
python ./main_baseline.py
Setelah menjalankan kode dasar, itu akan menghasilkan hasil JSON di ./output/baseline.json
Untuk mereproduksi hasil yang kami kirimkan, Anda dapat berlari
cd scripts
3.run_preliminary_results.bat
Atau jalankan cuplikan di ./main_preliminary.py
python ./preliminary_results.py
Setelah menjalankan kode dasar, itu akan menghasilkan hasil JSON di ./output/preliminary_results.json
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
Ambil hasil dasar misalnya:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json