이 repo는 S & P AI 벤치 마크를 통해 모델을 실행하는 방법을 보여줍니다. 구성된 모든 모델은 config.py 에서 볼 수 있습니다. 구성에 자신의 모델을 추가하거나 CommandLine 옵션을 사용하여 HuggingFace 모델을 실행하는 것은 쉽습니다.
S & P AI benchmarks-pipeline/benchmark_questions.json 마크 웹 사이트 제출 페이지에서 질문을 다운로드 하여이 폴더 내에 직접 저장하십시오.
# We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate
# Install the requirements in your local environment
pip install -r requirements.txt
하드웨어 요구 사항 : CPU에서 빠르게 실행할 수있는 대부분의 모델은이 벤치 마크에서 잘 작동하지 않습니다. GPU가있는 시스템을 사용하는 것이 좋습니다. 장치를 설정하려면 --device_map 매개 변수를 사용하십시오.
우리는 평가에 사용하는 프롬프트를 제공합니다. 현재 모든 모델은 주어진 질문 유형에 대해 동일한 프롬프트를 사용합니다. 우리는 모델이 예상 형식으로 답을 생성하려는 여러 시도를 허용합니다. 이 재 시도 단계가 없으면 우리는 일부 모델이 우리의 답변에 의해 과도하게 해를 끼칩니다. 그들은 잘못된 형식으로 정답을 생성합니다. 따라서 최대 10 번의 시도가 예상 형식으로 답을 생성 할 수있는 모델을 허용합니다. 이 repo의 소스 코드는 기본적으로이를 수행하지만 -t, --answer_parsing_tries_alloted 매개 변수로 제어 할 수 있습니다.
config.py 의 오픈 소스 및 프로테이파트 모델 모두에 대한 여러 구성을 제공합니다. 해당 모델 중 하나를 사용하려면 config.py 에 나열된 코드를 사용하십시오. Commandline Args에 의해 Huggingface 모델을 구성 할 수도 있습니다.
python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1 출력 CSV에는 질문 ID에 대한 열이 포함되어 있으며 헤더가없는 답변이 포함되어 있습니다. 예제 출력에 대해서는 results/Mistral-7B-v0.1-cot.csv 참조하십시오.
# A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0
새 모델을 추가하려면 config.py의 _CONFIG 변수에 추가하십시오. 예를 들어, 다음 스 니펫은 사용자 정의 기본값 max_new_tokens 와 함께 Zephyr 모델을 추가합니다. 사용하려는 프롬프트 제작자도 선택해야합니다. 이것은 각 질문에 대해 생성 된 프롬프트를 제어합니다. code_prompt_creater 및 cot_prompt_creator 두 가지를 제공합니다.
_CONFIG = {
...,
"example-zepyhr-code" : lambda : (
HFChatModel (
"HuggingFaceH4/zephyr-7b-beta" ,
device_map = "auto" ,
generation_kwargs = { "max_new_tokens" : 2048 },
),
code_prompt_creator ,
),
}이 특정 모델의 경우 명령 선을 직접 사용할 수있었습니다.
python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto결과를 S & P AI 벤치 마크에 업로드하십시오! 여기 https://benchmarks.kensho.com의 페이지를 참조하십시오.
이 repo는 추가 실험을위한 템플릿으로 사용됩니다!
질문이 있으면 [email protected] 에 문의하십시오.
Copyright 2024-Present Kensho Technologies, LLC.