Aplicaciones de RAG y LLM en preguntas y respuestas financieras
En la época en que los grandes modelos de lenguaje aceleran la catálisis de varias tecnologías, el ciclo de desarrollo de los modelos de lenguaje se está volviendo más corto y más efectivo. Con el advenimiento de los grandes modelos de idiomas, la información enorme y compleja en la industria financiera ya no es un obstáculo para la incapacidad de generalizar la recuperación del corpus, sino un problema que se está resolviendo gradualmente. Este desafío se centra en el campo de las preguntas y respuestas financieras y proporciona una base de datos rica para que los participantes lo usen. Los participantes deben diseñar mecanismos para mejorar la precisión de los resultados de búsqueda, incluidos los requisitos básicos, como encontrar la información correcta para responder preguntas del corpus proporcionado, así como la capacidad de generar grandes modelos de idiomas para producir respuestas correctas y completas.
Descarga el repositorio
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
Preparar el medio ambiente
❗ Notado : consulte su entorno GPU y OS, y vaya al sitio web de Pytorch para instalar Pytorch primero.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
Vaya al sitio web oficial para descargar los conjuntos de datos. (Debido a la política, no podemos proporcionar el conjunto de datos)
Puedes ejecutar directamente el script
cd scripts
1.download_preliminary_data.bat
o ejecute el fragmento en ./datasets/download_preliminary_datasets.py
cd datasets
python ./download_preliminary_datasets.py
Coloque el conjunto de datos en ./datasets.
Puede ejecutar directamente el script para ejecutar el código de línea de base
cd scripts
2.run_baseline_code.bat
o ejecute el fragmento en ./main_baseline.py
python ./main_baseline.py
Después de ejecutar el código de referencia, generará el resultado JSON en ./output/baseline.json
Para reproducir nuestros resultados presentados, puede ejecutar
cd scripts
3.run_preliminary_results.bat
o ejecute el fragmento en ./main_preliminary.py
python ./preliminary_results.py
Después de ejecutar el código de línea de base, generará el resultado JSON en ./output/preliminary_results.json
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
Tome el resultado de la línea de base, por ejemplo:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json