Aplicações de RAG e LLM em perguntas e respostas financeiras
Na época em que os grandes modelos de linguagem aceleram a catálise de várias tecnologias, o ciclo de desenvolvimento dos modelos de linguagem está ficando mais curto e mais eficaz. Com o advento de grandes modelos de idiomas, as informações enormes e complexas no setor financeiro não são mais um obstáculo à incapacidade de generalizar a recuperação do corpus, mas um problema que está sendo resolvido gradualmente. Esse desafio se concentra no campo das perguntas e respostas financeiras e fornece um banco de dados rico para os participantes usarem. Os participantes precisam projetar mecanismos para melhorar a precisão dos resultados da pesquisa, incluindo requisitos básicos, como encontrar as informações corretas para responder a perguntas do corpus fornecido, bem como a capacidade de gerar grandes modelos de linguagem para produzir respostas corretas e completas.
Baixe o repo
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
Prepare o meio ambiente
❗ INOTO : Verifique seu ambiente de GPU e SO e vá ao site da Pytorch para instalar o Pytorch primeiro.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
Vá para o site oficial para baixar os conjuntos de dados. (Devido à política, não podemos fornecer o conjunto de dados)
Você pode executar diretamente o script
cd scripts
1.download_preliminary_data.bat
ou execute o snippet em ./datasets/download_preliminary_datasets.py
cd datasets
python ./download_preliminary_datasets.py
Coloque o conjunto de dados em ./datasets.
Você pode executar diretamente o script para executar o código da linha de base
cd scripts
2.run_baseline_code.bat
ou execute o trecho em ./main_baseline.py
python ./main_baseline.py
Depois de executar o código da linha de base, ele gerará o resultado json em ./output/baseline.json
Para reproduzir nossos resultados enviados, você pode executar
cd scripts
3.run_preliminary_results.bat
ou execute o trecho em ./main_preliminary.py
python ./preliminary_results.py
Depois de executar o código da linha de base, ele gerará o resultado json em ./output/preliminary_results.json
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
Tome o resultado da linha de base, por exemplo:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json