Приложения Rag и LLM в финансовых вопросах и ответах
В эпоху, когда модели крупных языков ускоряют катализ различных технологий, цикл разработки языковых моделей становится короче и эффективнее. С появлением крупных языковых моделей огромная и сложная информация в финансовой индустрии больше не является препятствием для неспособности обобщать поиск корпуса, а проблема, которая постепенно решается. Эта задача фокусируется на области финансового вопроса и ответов и предоставляет богатую базу данных для использования участниками. Участникам необходимо разработать механизмы для повышения точности результатов поиска, включая основные требования, такие как поиск правильной информации, чтобы ответить на вопросы из предоставленного корпуса, а также способность генерировать крупные языковые модели для создания правильных и полных ответов.
Скачать репо
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
Подготовьте окружающую среду
Unoted : Пожалуйста, проверьте свою среду GPU и ОС и перейдите на веб -сайт Pytorch , чтобы сначала установить Pytorch.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
Перейдите на официальный сайт , чтобы загрузить наборы данных. (Из -за политики мы не можем предоставить набор данных)
Вы можете напрямую запустить сценарий
cd scripts
1.download_preliminary_data.bat
или запустите фрагмент по адресу ./datasets/download_preliminary_datasets.py
cd datasets
python ./download_preliminary_datasets.py
Поместите набор данных в ./datasets.
Вы можете напрямую запустить сценарий для запуска базового кода
cd scripts
2.run_baseline_code.bat
или запустите фрагмент по адресу ./main_baseline.py
python ./main_baseline.py
После запуска базового кода он генерирует результат JSON на ./Output/baseline.json
Чтобы воспроизвести наши представленные результаты, вы можете запустить
cd scripts
3.run_preliminary_results.bat
или запустите фрагмент по адресу ./main_preliminary.py
python ./preliminary_results.py
После запуска базового кода он будет генерировать результат JSON на .
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
Возьмите базовый результат, например:
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json