금융 Q & A에서 Rag 및 LLM의 응용
대형 언어 모델이 다양한 기술의 촉매를 가속화 할 때, 언어 모델의 개발주기가 더 짧아지고 효과적입니다. 대형 언어 모델의 출현으로 금융 산업의 거대하고 복잡한 정보는 더 이상 코퍼스 검색을 일반화 할 수 없다는 장애물이 아니라 점차 해결되고있는 문제입니다. 이 과제는 재무 질문과 답변 분야에 중점을두고 참가자가 사용할 수있는 풍부한 데이터베이스를 제공합니다. 참가자는 제공된 코퍼스의 질문에 답변하기 위해 올바른 정보를 찾는 것과 같은 기본 요구 사항, 정확하고 완전한 답변을 만들기 위해 큰 언어 모델을 생성하는 기능을 포함하여 검색 결과의 정확성을 향상시키기 위해 메커니즘을 설계해야합니다.
레포를 다운로드하십시오
git clone https://github.com/FanChiMao/Competition-2024-PyTorch-LLMRAG.git
cd Competition-2024-PyTorch-LLMRAG
git submodule update --init
환경을 준비하십시오
noteded : GPU 및 OS 환경을 확인하고 Pytorch 웹 사이트를 방문하여 먼저 Pytorch를 설치하십시오.
conda create --name LLMRAG python=3.10 # to reproduce the results, you have to install python 3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # take cuda 11.8 as example
pip install -r requirements.txt
데이터 세트를 다운로드하려면 공식 웹 사이트 로 이동하십시오. (정책으로 인해 데이터 세트를 제공 할 수 없습니다)
스크립트를 직접 실행할 수 있습니다
cd scripts
1.download_preliminary_data.bat
또는 스 니펫을 ./datasets/download_preliminary_datasets.py 에서 실행하십시오
cd datasets
python ./download_preliminary_datasets.py
데이터 세트를 ./datasets에 배치하십시오.
스크립트를 직접 실행하여 기준 코드를 실행할 수 있습니다.
cd scripts
2.run_baseline_code.bat
또는 ./main_baseline.py 에서 스 니펫을 실행하십시오
python ./main_baseline.py
기준 코드를 실행하면 ./output/baseline.json 에서 JSON 결과를 생성합니다.
제출 된 결과를 재현하려면 실행할 수 있습니다
cd scripts
3.run_preliminary_results.bat
또는 ./main_preliminary.py 에서 스 니펫을 실행하십시오
python ./preliminary_results.py
기준 코드를 실행하면 ./output/preliminary_results.json 에 JSON 결과가 생성됩니다.
python ./evaluation.py --gt [path of ground_truths_example.json] --rs [path of output json]
예를 들어 기준 결과를 찍습니다.
python ./evaluation.py --gt ./datasets/preliminary/ground_truths_example.json --rs ./outputs/baseline.json