llm_rules 다운로드 llm_rules 소스 코드 다운로드

llm_rules

기타 소스코드

v2.1.0

다운로드

LLM이 간단한 규칙을 따를 수 있습니까?

2024 년 3 월 7 일 현재, 우리는 새로운 테스트 케이스가 포함 된 개정 된 v2.0 벤치 마크로 리포지기를 업데이트했습니다. 자세한 내용은 업데이트 된 논문을 참조하십시오.

[데모] [웹 사이트] [종이]

이 repo에는 규칙을 따르는 언어 평가 시나리오 : 언어 모델에서 규칙을 따르는 벤치 마크와 같은 규칙 코드가 포함되어 있습니다.

업데이트

2024 년 9 월 26 일 : 문구 및 오타 수정이 프롬프트에 대한 수정이므로 결과는 이전 값과 직접 비교할 수 없습니다. v3.0.0으로 부딪칩니다.
2024 년 6 월 12 일 : SimonSays 및 Questions 시나리오의 고정 평가 버그, Google vertexai API 모델에 대한 지원이 추가되었습니다. python -m llm_rules.scripts.reevaluate 로 기존 결과를 다시 평가하십시오.
2024 년 4 월 25 일 : 스크립트를 llm_rules 라이브러리로 옮겼습니다.
2024 년 4 월 25 일 : Huggingface Tokenizer 구성 파일에 지정된 채팅 템플릿에 대한 지원이 추가되었으며 --conv_template 으로 이름이 --fastchat_template 으로 이름이 바뀌 었습니다.

설정

편집 가능한 패키지로 설치 :

 pip install -e .

API 랩퍼 ( llm_rules/models/* )로 모델을 평가하려면 선택적 종속성을 설치하십시오.

 pip install -e .[models]

OpenAi/Anthropic/Google API 키를 만들고 .env 파일로 작성하십시오.

 OPENAI_API_KEY=<key>
ANTHROPIC_API_KEY=<key>
GEMINI_API_KEY=<key>
GCP_PROJECT_ID=<project_id>

Snapshot_download를 사용하여 LLAMA-2 또는 기타 HUGGINGFACE 모델을 로컬 경로로 다운로드하십시오.

 >>> from huggingface_hub import snapshot_download
>>> snapshot_download(repo_id="meta-llama/Llama-2-7b-chat-hf", local_dir="/my_models/Llama-2-7b-chat-hf", local_dir_use_symlinks=False)

(선택 사항) logs/ 에 평가 로그를 다운로드하여 추출하십시오.

수동 레드 팀

다음과 함께 대화식 세션을 시작하십시오.

 python -m llm_rules.scripts.manual_redteam --provider openai --model gpt-3.5-turbo-0613 --scenario Authentication --stream

테스트 사례를 탐색하십시오

테스트 사례를 시각화합니다.

 python -m llm_rules.scripts.show_testcases --test_suite redteam

평가

우리의 주요 평가 스크립트는 llm_rules/scripts/evaluate.py 이지만 많은 평가 옵션을 지원하기 때문에 코드를 따르기 어려울 수 있습니다. 평가 스크립트의 단순화 된 버전은 llm_rules/scripts/evaluate_simple.py 참조하십시오.

우리는 평가의 용이성을 위해 API 호출을 무제한 재시 도로 랩합니다. 귀하의 요구에 맞게 재 시도 기능을 변경할 수 있습니다.

`redteam` Test Suite에서 평가하십시오

 python -m llm_rules.scripts.evaluate --provider openai --model gpt-3.5-turbo-0613 --test_suite redteam --output_dir logs/redteam

VLLM을 사용하여 로컬 모델 평가 (GPU 필수)

VLLM을 사용하여 모델을 평가할 때 evaluate.py API 서버 내 프로세스를 시작합니다. VLLM 모델의 경우 동시성이 훨씬 더 높아야합니다. 평가 실행 :

 python -m llm_rules.scripts.evaluate --provider vllm --model /path/to/model --fastchat_template llama-2 --concurrency 100

평가 결과 시각화

단일 테스트 스위트에서 자세한 결과를 볼 수 있습니다.

 python -m llm_rules.scripts.read_results --output_dir logs/redteam/gpt-3.5-turbo-0613

세 가지 테스트 스위트 (양성, 기본 및 Redteam) 모두에서 평가 한 후 다음과 함께 집계 규칙을 계산합니다.

 python -m llm_rules.scripts.read_scores --model_name gpt-3.5-turbo-0613

마지막으로, 당신은 다음과 함께 개별 테스트 사례에 대한 응답을 볼 수 있습니다.

 python -m llm_rules.scripts.show_responses --output_dir logs/redteam/gpt-3.5-turbo-0613 --failed_only

GCG 공격 (GPU 필수)

각 반복에서 무작위 시나리오 매개 변수로 GCG 공격을 실행하십시오.

 cd gcg_attack
python main_gcg.py --model /path/to/model --fastchat_template <template_name> --scenario Authentication --behavior withholdsecret

출력 로그는 logs/gcg_attack 에 저장됩니다.

그런 다음 결과 GCG 접미사로 direct_request 테스트 사례의 모델을 평가합니다.

 python -m llm_rules.scripts.evaluate --provider vllm --model /path/to/model --suffix_dir logs/gcg_attack/<model_name> --test_dir data/direct_request --output_dir logs/direct_request_gcg

미세 조정

basic_like 테스트 사례에서 LLAMA-2 7B 채팅으로 미세 조정 실험을 재현하려면 :

 cd finetune
./finetune_llama.sh

우리는 미세 조정 LLAMA-2 7B 채팅 및 MISTRAL 7B 지시에 4X A100-80G GPU를 사용했습니다. 더 작은/적은 GPU에서 실행되도록 딥 스피드 설정을 조정할 수 있습니다.

대화 템플릿

커뮤니티 모델을 평가할 때 llm_rules/templates.py 에 추가 된 몇 가지 사용자 정의 템플릿을 제외하고는 대부분 FastChat 대화 템플릿 ( model_templates.yaml 에 문서화)에 의존합니다.

소환

 @article{mu2023rules,
    title={Can LLMs Follow Simple Rules?},
    author={Norman Mu and Sarah Chen and
            Zifan Wang and Sizhe Chen and David Karamardian and
            Lulwa Aljeraisy and Basel Alomair and
            Dan Hendrycks and David Wagner},
    journal={arXiv},
    year={2023}
}

확장하다

추가 정보

버전 v2.1.0
유형 기타 소스코드
업데이트 시간 2025-03-05
크기 713.98KB
출처 Github

llm_rules

LLM이 간단한 규칙을 따를 수 있습니까?

업데이트

설정

수동 레드 팀

테스트 사례를 탐색하십시오

평가

`redteam` Test Suite에서 평가하십시오

VLLM을 사용하여 로컬 모델 평가 (GPU 필수)

평가 결과 시각화

GCG 공격 (GPU 필수)

미세 조정

대화 템플릿

소환

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

rules_go

rules_distroless

zkwork_aleo_gpu_worker

TensorRT LLM

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

llm_rules

LLM이 간단한 규칙을 따를 수 있습니까?

업데이트

설정

수동 레드 팀

테스트 사례를 탐색하십시오

평가

redteam Test Suite에서 평가하십시오

VLLM을 사용하여 로컬 모델 평가 (GPU 필수)

평가 결과 시각화

GCG 공격 (GPU 필수)

미세 조정

대화 템플릿

소환

`redteam` Test Suite에서 평가하십시오