llm_rules DOWNLOAD - llm_rules Quellcode herunterladen

llm_rules

Anderer Quellcode

v2.1.0

Herunterladen

Können LLMs einfache Regeln befolgen?

Zum 7. März 2024 haben wir das Repo mit einem überarbeiteten V2.0 -Benchmark mit neuen Testfällen aktualisiert. Weitere Informationen finden Sie in unserem aktualisierten Papier.

[Demo] [Website] [Papier]

Dieses Repo enthält den Code für Regeln: Regelverfolgung von Sprachbewertungsszenarien, ein Benchmark für die Bewertung der Regelverfolgung in Sprachmodellen.

Aktualisierungen

26. September 2024 : Formulierungs- und Tippfehler für Eingabeaufforderungen, sodass die Ergebnisse nicht direkt mit früheren Werten vergleichbar sind. Stöbern auf v3.0.0.
12. Juni 2024 : Behobene Bewertungsfehler in SimonSays und Questions , Unterstützung für Google Vertexai -API -Modelle. Bitte bewerten Sie die vorhandenen Ergebnisse mit python -m llm_rules.scripts.reevaluate .
25. April 2024 : Umgezogene Skripte in die Bibliothek llm_rules .
25. April 2024 : Unterstützung für Chat -Vorlagen hinzugefügt, wie in Huggingface -Tokenizer -Konfigurationsdateien angegeben und in --conv_template in --fastchat_template umbenannt.

Aufstellen

Installieren Sie als bearbeitbares Paket:

 pip install -e .

Um Modelle mit unseren API -Wrappern ( llm_rules/models/* ) zu bewerten, installieren Sie die optionalen Abhängigkeiten:

 pip install -e .[models]

Erstellen Sie OpenAI/Anthropic/Google -API -Schlüssel und schreiben Sie sie in eine .env -Datei:

 OPENAI_API_KEY=<key>
ANTHROPIC_API_KEY=<key>
GEMINI_API_KEY=<key>
GCP_PROJECT_ID=<project_id>

Laden Sie LLAMA-2 oder andere Harmgingface-Modelle mit Snapshot_download auf einen lokalen Pfad herunter:

 >>> from huggingface_hub import snapshot_download
>>> snapshot_download(repo_id="meta-llama/Llama-2-7b-chat-hf", local_dir="/my_models/Llama-2-7b-chat-hf", local_dir_use_symlinks=False)

(Optional) Download und extrahieren Sie Bewertungsprotokolle hier, um sich zu logs/ .

Handbuch rotes Teaming

Starten Sie eine interaktive Sitzung mit:

 python -m llm_rules.scripts.manual_redteam --provider openai --model gpt-3.5-turbo-0613 --scenario Authentication --stream

Testfälle untersuchen

Visualisieren Sie Testfälle mit:

 python -m llm_rules.scripts.show_testcases --test_suite redteam

Auswertung

Unser Hauptbewertungsskript ist llm_rules/scripts/evaluate.py , aber da wir viele Bewertungsoptionen unterstützen, ist der Code möglicherweise schwer zu befolgen. Weitere vereinfachte Versionen des Evaluierungsskripts finden Sie unter llm_rules/scripts/evaluate_simple.py .

Wir wickeln API -Anrufe mit unbegrenzten Wiederholungen zur einfachen Bewertung ein. Möglicherweise möchten Sie die Wiederholungsfunktionen so ändern, dass Sie Ihren Anforderungen entsprechen.

Bewerten Sie auf `redteam` Test Suite

 python -m llm_rules.scripts.evaluate --provider openai --model gpt-3.5-turbo-0613 --test_suite redteam --output_dir logs/redteam

Bewerten Sie ein lokales Modell mit VLLM (GPU erforderlich)

Bei der Bewertung von Modellen mit VLLM startet evaluate.py einen API-Server-In-Prozess. Die Parallelität sollte für VLLM -Modelle viel höher eingestellt werden. Auswertung mit:::

 python -m llm_rules.scripts.evaluate --provider vllm --model /path/to/model --fastchat_template llama-2 --concurrency 100

Visualisieren Sie die Bewertungsergebnisse

Detaillierte Ergebnisse einer einzelnen Testsuite mit:

 python -m llm_rules.scripts.read_results --output_dir logs/redteam/gpt-3.5-turbo-0613

Nach der Bewertung aller drei Testsuiten (gutartig, grundlegend und redteam) bewertet die Gesamtregeln mit:

 python -m llm_rules.scripts.read_scores --model_name gpt-3.5-turbo-0613

Schließlich können Sie die Antworten auf einzelne Testgrenzen anzeigen mit:

 python -m llm_rules.scripts.show_responses --output_dir logs/redteam/gpt-3.5-turbo-0613 --failed_only

GCG -Angriff (GPU erforderlich)

Führen Sie den GCG -Angriff mit randomisierten Szenario -Parametern in jeder Iteration aus:

 cd gcg_attack
python main_gcg.py --model /path/to/model --fastchat_template <template_name> --scenario Authentication --behavior withholdsecret

Ausgabeprotokolle werden in logs/gcg_attack gespeichert.

Bewerten Sie dann Modelle in den Testfällen von direct_request mit den daraus resultierenden GCG -Suffixen:

 python -m llm_rules.scripts.evaluate --provider vllm --model /path/to/model --suffix_dir logs/gcg_attack/<model_name> --test_dir data/direct_request --output_dir logs/direct_request_gcg

Feinabstimmung

Um unsere Feinabstimmungsexperimente mit LAMA-2 7B-Chat in den Testerfällen im basic_like zu reproduzieren:

 cd finetune
./finetune_llama.sh

Wir haben den 4x A100-80G GPUs für die Feinabstimmung LLAMA-2 7B CHAT und MISTRAL 7B-Anweisungen verwendet. Möglicherweise können Sie DeepSpeed-Einstellungen so anpassen, dass sie auf kleineren/weniger GPUs ausgeführt werden.

Gesprächsvorlagen

Bei der Bewertung von Community -Modellen verlassen wir uns hauptsächlich auf Fastchat -Konversationsvorlagen (in model_templates.yaml ) mit Ausnahme einiger passender Vorlagen, die zu llm_rules/templates.py hinzugefügt wurden.

Zitat

 @article{mu2023rules,
    title={Can LLMs Follow Simple Rules?},
    author={Norman Mu and Sarah Chen and
            Zifan Wang and Sizhe Chen and David Karamardian and
            Lulwa Aljeraisy and Basel Alomair and
            Dan Hendrycks and David Wagner},
    journal={arXiv},
    year={2023}
}

Expandieren

Zusätzliche Informationen

Version v2.1.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-05
Größe 713.98KB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
rules_go

2024-11-12
rules_distroless

2024-11-11
zkwork_aleo_gpu_worker

2024-11-11
TensorRT LLM

2024-11-10

llm_rules

Können LLMs einfache Regeln befolgen?

Aktualisierungen

Aufstellen

Handbuch rotes Teaming

Testfälle untersuchen

Auswertung

Bewerten Sie auf `redteam` Test Suite

Bewerten Sie ein lokales Modell mit VLLM (GPU erforderlich)

Visualisieren Sie die Bewertungsergebnisse

GCG -Angriff (GPU erforderlich)

Feinabstimmung

Gesprächsvorlagen

Zitat

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

rules_go

rules_distroless

zkwork_aleo_gpu_worker

TensorRT LLM

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

llm_rules

Können LLMs einfache Regeln befolgen?

Aktualisierungen

Aufstellen

Handbuch rotes Teaming

Testfälle untersuchen

Auswertung

Bewerten Sie auf redteam Test Suite

Bewerten Sie ein lokales Modell mit VLLM (GPU erforderlich)

Visualisieren Sie die Bewertungsergebnisse

GCG -Angriff (GPU erforderlich)

Feinabstimmung

Gesprächsvorlagen

Zitat

Bewerten Sie auf `redteam` Test Suite