Bewerbungen von RAG und LLM in Finanz- und Antworten
In der Zeit, in der große Sprachmodelle die Katalyse verschiedener Technologien beschleunigen, wird der Entwicklungszyklus von Sprachmodellen kürzer und effektiver. Mit dem Aufkommen großer Sprachmodelle sind die riesigen und komplexen Informationen in der Finanzbranche kein Hindernis mehr für die Unfähigkeit, das Corpus -Abruf zu verallgemeinern, sondern ein Problem, das allmählich gelöst wird. Diese Herausforderung konzentriert sich auf das Gebiet der finanziellen Frage und der Antworten und bietet eine reichhaltige Datenbank für die Teilnehmer. Die Teilnehmer müssen Mechanismen entwerfen, um die Genauigkeit von Suchergebnissen zu verbessern, einschließlich grundlegender Anforderungen wie der Suche nach den richtigen Informationen, um Fragen aus dem bereitgestellten Korpus zu beantworten, sowie die Fähigkeit, große Sprachmodelle zu generieren, um korrekte und vollständige Antworten zu erstellen.
Laden Sie das Repo herunter
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
Die Umgebung vorbereiten
❗NOTT : Bitte überprüfen Sie Ihre GPU- und OS -Umgebung und besuchen Sie die Pytorch -Website , um Pytorch zuerst zu installieren.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
Gehen Sie zur offiziellen Website , um die Datensätze herunterzuladen. (Aufgrund der Richtlinie können wir den Datensatz nicht bereitstellen)
Sie können das Skript direkt ausführen
cd scripts
1.download_preliminary_data.bat
oder führen Sie den Snippet unter ./datasets/download_preliminary_datasets.py aus
cd datasets
python ./download_preliminary_datasets.py
Platzieren Sie den Datensatz in ./Datasets.
Sie können das Skript direkt ausführen, um den Basiscode auszuführen
cd scripts
2.run_baseline_code.bat
oder führen Sie den Snippet unter ./main_baseline.py aus
python ./main_baseline.py
Nach dem Ausführen des Basiscodes generiert das JSON -Ergebnis auf ./Output/baseline.json
Um unsere eingereichten Ergebnisse zu reproduzieren, können Sie ausführen
cd scripts
3.run_preliminary_results.bat
oder laufen Sie den Ausschnitt unter ./main_preliminary.py
python ./preliminary_results.py
Nach dem Ausführen des Basiscodes generiert das JSON -Ergebnis auf ./Output/preliminary_results.json
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
Nehmen Sie zum Beispiel das Basisergebnis:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json