Applications de RAG et LLM dans les questions et réponses financières
À l'ère où les modèles de grands langues accélèrent la catalyse de diverses technologies, le cycle de développement des modèles de langue devient plus court et plus efficace. Avec l'avènement des modèles de grande langue, les informations énormes et complexes de l'industrie financière ne sont plus un obstacle à l'incapacité de généraliser la récupération du corpus, mais un problème qui est progressivement résolu. Ce défi se concentre sur le domaine des questions et réponses financières et fournit une base de données riche à l'utilisation des participants. Les participants doivent concevoir des mécanismes pour améliorer la précision des résultats de la recherche, y compris les exigences de base telles que la recherche des informations correctes pour répondre aux questions du corpus fourni, ainsi que la capacité de générer des modèles de langues importants pour produire des réponses correctes et complètes.
Télécharger le repo
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
Préparer l'environnement
❗Né : veuillez consulter votre environnement GPU et OS et allez sur le site Web de Pytorch pour installer Pytorch en premier.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
Accédez au site officiel pour télécharger les ensembles de données. (En raison de la politique, nous ne pouvons pas fournir l'ensemble de données)
Vous pouvez directement exécuter le script
cd scripts
1.download_preliminary_data.bat
ou exécutez l'extrait sur ./datasets/download_preliminary_datasets.py
cd datasets
python ./download_preliminary_datasets.py
Placez l'ensemble de données dans ./datasets.
Vous pouvez directement exécuter le script pour exécuter le code de base
cd scripts
2.run_baseline_code.bat
ou exécutez l'extrait sur ./main_baseline.py
python ./main_baseline.py
Après avoir exécuté le code de base, il générera le résultat JSON sur ./output/baseline.json
Pour reproduire nos résultats soumis, vous pouvez courir
cd scripts
3.run_preliminary_results.bat
ou exécutez l'extrait sur ./main_preliminary.py
python ./preliminary_results.py
Après avoir exécuté le code de base, il générera le résultat JSON sur ./output/preliminary_results.json
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
Prenez le résultat de base par exemple:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json