OpenRedteaming
Unsere Umfrage: Gegen die Achilles -Ferse: Eine Umfrage zum Red -Teaming für Generativmodelle [Papier]
Ein umfassendes Verständnis potenzieller Angriffe auf Genai zu erlangen und robuste Schutzmaßnahmen zu entwickeln. Wir:
- Umfragen Sie über 120 Artikel, decken die Pipeline von Risiko -Taxonomie, Angriffsstrategien, Bewertungsmetriken und Benchmarks bis hin zu defensiven Ansätzen ab.
- Schlagen Sie eine umfassende Taxonomie von LLM-Angriffsstrategien vor, die auf den inhärenten Fähigkeiten von Modellen beruhen, die während der Vorab- und Feinabstimmung entwickelt wurden.
- Implementierte mehr als 30 Methoden für automatische Red Teaming.
Um auf dem neuesten Stand zu bleiben oder unser Redteaming -Tool auszuprobieren, abonnieren Sie unseren Newsletter auf unserer Website oder besuchen Sie uns auf Discord!
Neueste Papiere über das rote Teaming
Umfragen, Taxonomien und mehr
Umfragen
- Persönliche LLM -Agenten: Erkenntnisse und Umfrage über die Fähigkeiten, Effizienz und Sicherheit [Papier]
- Trustllm: Vertrauenswürdigkeit in großen Sprachmodellen [Papier]
- Risiko -Taxonomie-, Minderungs- und Bewertungsbenchmarks von großsprachigen Modellsystemen [Papier]
- Sicherheits- und Datenschutzherausforderungen von Großsprachmodellen: Eine Umfrage [Papier]
Umfragen auf Angriffe
- Robuste Prüfung der Resilienz des KI -Sprachmodells mit neuartigen kontroversen Eingabeaufforderungen [Papier]
- Hören Sie nicht mir zu: Jailbreak -Aufforderungen großer Sprachmodelle zu verstehen und zu erkunden [Papier]
- Abbruch der Verteidigung: Eine vergleichende Übersicht über Angriffe auf große Sprachmodelle [Papier]
- LLM Jailbreak -Angriff gegen Verteidigungstechniken - Eine umfassende Studie [Papier]
- Eine frühzeitige Kategorisierung von schnellen Injektionsangriffen auf Großsprachenmodelle [Papier]
- Umfassende Bewertung von Jailbreak -Angriffen gegen LLMs [Papier]
- "Mach jetzt alles": Charakterisierung und Bewertung von Jailbreak-Aufforderungen im Wildern in großer Sprachmodelle [Papier]
- Übersicht über Schwachstellen in Großsprachenmodellen, die durch kontroverse Angriffe [Papier] aufgedeckt werden, enthüllt
- Ignorieren Sie diesen Titel und Hackaprompt: systemische Sicherheitslücken von LLMs durch einen globalen Skala formuliertem Hacking -Wettbewerb [Papier]
- Gegentliche Angriffe und Abwehrkräfte in Großsprachenmodellen: Alte und neue Bedrohungen [Papier]
- Tricking LLMs in Ungehorsam: Formalisierung, Analyse und Erkennung von Jailbreaks [Papier]
- Beschwören Sie einen Dämon und binden Sie ihn: Eine geerdete Theorie des LLM Red Teaming in der Wildnis [Papier]
- Eine umfassende Übersicht über Angriffstechniken, Implementierung und Minderungsstrategien in Großsprachmodellen [Papier]
- Über Grenzen hinaus: Eine umfassende Übersicht über übertragbare Angriffe auf KI -Systeme [Papier]
- Über Grenzen hinaus: Eine umfassende Übersicht über übertragbare Angriffe auf KI -Systeme [Papier]
Umfragen zu Risiken
- Mapping LLM -Sicherheitslandschaften: Ein umfassender Vorschlag für Risikobewertung des Stakeholders [Papier]
- Sichern großer Sprachmodelle: Bedrohungen, Schwachstellen und verantwortungsbewusste Praktiken [Papier]
- Privatsphäre in Großsprachenmodellen: Angriffe, Verteidigung und zukünftige Anweisungen [Papier]
- Über die Schutzmaßnahmen hinaus: Erforschung der Sicherheitsrisiken von ChatGPT [Papier]
- Auf sicherer generativen Sprachmodelle: Eine Umfrage zu Sicherheitsrisiken, Bewertungen und Verbesserungen [Papier]
- Verwendung von LLMs für illegale Zwecke: Bedrohungen, Präventionsmaßnahmen und Schwachstellen [Papier]
- Von ChatGPT bis droht: Auswirkungen der generativen KI auf Cybersicherheit und Privatsphäre [Papier]
- Identifizierung und Minderung von Schwachstellen in LLM-integrierten Anwendungen [Papier]
- Die Kraft der generativen KI in der Cybersicherheit: Chancen und Herausforderungen [Papier]
Taxonomien
- LLMs zwingen, (fast) alles zu tun und zu enthüllen [Papier]
- Die Geschichte und das Risiko des Verstärkungslernens und des menschlichen Feedbacks [Papier]
- Von Chatbots bis hin zu Phishbots? - Verhinderung von Phishing-Betrügereien, die mit Chatgpt, Google Bard und Claude [Papier] erstellt wurden, verhindern
- Jailbreaking Chatgpt über promptes Engineering: Eine empirische Studie [Papier]
- Erzeugen Sie Phishing -Angriffe mit ChatGPT [Papier]
- Personalisierung innerhalb von Grenzen: Ein Risiko -Taxonomie und ein politisches Rahmen für die Ausrichtung von Großsprachenmodellen mit personalisiertem Feedback [Papier]
- AI -Täuschung: Eine Übersicht über Beispiele, Risiken und potenzielle Lösungen [Papier]
- Eine Sicherheitsrisiko -Taxonomie für Großsprachmodelle [Papier]
Positionen
- Rotteaming für generative KI: Silver Bullet oder Security Theatre? [Papier]
- Die Ethik der Interaktion: Minderung von Sicherheitsbedrohungen in LLMs [Papier]
- Ein sicherer Hafen für die AI -Bewertung und das rote Teaming [Papier]
- Red Teaming Chatgpt über Jailbreak: Voreingenommenheit, Robustheit, Zuverlässigkeit und Toxizität [Papier]
- Das Versprechen und Gefahr künstlicher Intelligenz - Violet Teaming bietet einen ausgewogenen Weg nach vorne [Papier]
Phänomene
- Rotteamsegment Alles Modell [Papier]
- Ein mechanistisches Verständnis von Alignment -Algorithmen: eine Fallstudie zu DPO und Toxizität [Papier]
- Out Out Turn: Sicherheitsfälligkeit von Großsprachmodellen im Multi-Turn-Dialog [Papier]
- Kompromisse zwischen Ausrichtung und Hilfsbereitschaft in Sprachmodellen [Papier]
- Bewertung der Sprödigkeit der Sicherheitsausrichtung durch Beschneiden und Modifikationen mit niedrigem Rang [Papier]
- "Es ist ein faires Spiel, oder untersuchen Sie, wie Benutzer bei der Verwendung von LLM-basierten Konversationsagenten [Papier] in Offenlegungsrisiken und Vorteilen navigieren.
- Ausbeutung des programmatischen Verhaltens von LLMs: Dual-Use durch Standardsicherheitsangriffe [Papier]
- Können Großsprachenmodelle die Benutzerpräferenz kontrovers ändern? [Papier]
- Werden ausgerichtete neuronale Netze kontrovers ausgerichtet? [Papier]
- Gefälschte Ausrichtung: Sind LLMs wirklich gut ausgerichtet? [Papier]
- Kausalitätsanalyse zur Bewertung der Sicherheit großer Sprachmodelle [Papier]
- Übertragung von Angriffen und Verteidigung für große Sprachmodelle für Codierungsaufgaben [Papier]
Angriffsstrategien
Compliance der Fertigstellung
- Nur wenige Gegner-Gegner-prompt-Lernen auf Visionsprachmodellen [Papier]
- Entführungskontext in großen multimodalen Modellen [Papier]
- Großartig, schreiben Sie jetzt einen Artikel darüber: Der Crescendo Multi-Turn LLM Jailbreak Attack [Papier]
- Badchain: Backdoor-Kette des Gedankens für große Sprachmodelle [Papier]
- Universelle Schwachstellen in Großsprachmodellen: Backdoor-Angriffe für das Lernen in Kontext [Papier]
- Nevermind: Überschreibung und Moderation von Anweisungen in Großsprachenmodellen [Papier]
- REDAMING Großsprachmodelle unter Verwendung der Kette von Äußerungen zur Sicherheitsausrichtung [Papier]
- Backdoor-Angriffe für das Lernen in Kontext mit Sprachmodellen [Papier]
- Jailbreak and Guard ausgerichtete Sprachmodelle mit nur wenigen In-Kontext-Demonstrationen [Papier]
- Analyse der inhärenten Reaktionstendenz von LLMs: Real-World-Anweisungen-gesteuerte Jailbreak [Papier]
- Umgang mit der Sicherheitstraining von Open-Source-LLMs mit Priming-Angriffen [Papier]
- Hijacking Großsprachmodelle über kontroverses In-Kontext-Lernen [Papier]
Anweisung Indirektion
- Über die Robustheit großer multimodaler Modelle gegen bildgegnerische Angriffe [Papier]
- Vision-Llms können sich mit selbst erzeugten typografischen Angriffen täuschen [Papier]
- Bilder sind Achilles 'Ferse der Ausrichtung: Ausnutzung visueller Schwachstellen für jailbischende multimodale Großsprachenmodelle [Papier]
- FigStep: Jailbreaking Large Vision-Sprach-Modelle über typografische visuelle Eingabeaufforderungen [Papier]
- Instructa: Anweisungen abgestimmte Angriff für große Sehvermögensmodelle [Papier]
- Missbrauch von Bildern und Klängen für die indirekte Unterrichtsinjektion in multimodalen LLMs [Papier]
- Visuelle widersprüchliche Beispiele Jailbreak haben große Sprachmodelle [Papier] ausgerichtet
- Jailbreak in Stücke: Kompositionelle kontroverse Angriffe auf multimodale Sprachmodelle [Papier]
- Spielen Sie das Ratenspiel mit LLM: Indirekter Jailbreak -Angriff mit impliziten Hinweisen [Papier]
- Fuzzllm: Ein neuartiger und universeller Fuzzing -Rahmen für die proaktiv entdeckte Jailbreak -Schwachstellen in Großsprachenmodellen [Papier]
- GPTFUZZER: RED-Teaming Großsprachenmodelle mit automatisch generierten Jailbreak-Eingabeaufforderungen [Papier]
- Prompt packer: täuschende llms durch kompositionsanweisungen mit versteckten Angriffen [Papier]
- DeepInception: Hypnotisieren Sie großes Sprachmodell als Jailbreaker [Papier]
- Ein Wolf in Schafkleidung: Verallgemeinerte verschachtelte Jailbreak -Eingabeaufforderungen können große Sprachmodelle leicht täuschen [Papier]
- Sicherheitsausrichtung bei NLP-Aufgaben: Schwach ausgerichtete Zusammenfassung als In-Kontext-Angriff [Papier]
- Kognitive Überlastung: Jailbreaking Großsprachenmodelle mit überladenem logischem Denken [Papier]
- Puzzles: schädliche Fragen auf Jailbreak -Großsprachenmodelle aufteilen [Papier]
- Audio ist die Achilles -Ferse: Red Teaming Audio Large Multimodal Modelle [Papier]
Generalisierung Gleit
Sprachen
- Eine Cross-Sprach-Untersuchung zu Jailbreak-Angriffen in großen Sprachmodellen [Papier]
- Die Sprachbarriere: Sicherheitsherausforderungen von LLMs in mehrsprachigen Kontexten analysieren [Papier]
- Sandwich-Angriff: Multisprachiger Mischungsangriff adaptiver Angriff auf LLMs [Papier]
- Backdoor -Angriff auf mehrsprachige maschinelle Übersetzung [Papier]
- Mehrsprachige Jailbreak -Herausforderungen in Großsprachmodellen [Papier]
- Low-Ressourcen-Sprachen Jailbreak GPT-4 [Papier]
Chiffre
- Verwenden von Halluzinationen, um den Filter von GPT4 zu umgehen [Papier]
- Der Schmetterlingseffekt der Änderung der Eingabeaufforderungen: Wie kleine Änderungen und Jailbreaks die Leistung des großsprachigen Modells [Papier] beeinflussen [Papier]
- Sie fragen und antworten: Jailbreak -Großsprachenmodelle in wenigen Abfragen über Verkleidung und Rekonstruktion [Papier]
- PRP: Propagieren von universellen Störungen, um große Sprachmodell-Guard-Rails [Papier] anzugreifen, [Papier]
- GPT-4 ist zu schlau, um sicher zu sein: Stealthy Chat mit LLMs über Cipher [Papier]
- Interpunktion ist wichtig! Stealthy Backdoor -Angriff für Sprachmodelle [Papier]
Personifikation
- Fuß in der Tür: Verständnis des Jailbreaking von großer Sprache über kognitive Psychologie [Papier]
- PSYSAFE: Ein umfassender Rahmen für psychologische Angriffe, Verteidigung und Bewertung der Sicherheit mit mehreren Agenten [Papier]
- Wie Johnny LLMs überreden kann, sie zu jailbreak: Überzeugung überzeugen, die Sicherheit von KI durch Humanisieren von LLMs [Papier] herauszufordern [Papier]
- Skalierbare und übertragbare Black-Box-Jailbreaks für Sprachmodelle über Persona-Modulation [Papier]
- Wer ist Chatgpt? Die psychologische Darstellung von Benchmarking LLMS unter Verwendung von Psychobench [Papier]
- Ausnutzung von Großsprachmodellen (LLMs) durch Täuschungstechniken und Überzeugungsgrundsätze [Papier]
Modellmanipulation
Hintertür -Angriffe
- Shadowcast: Stealthy Data-Vergiftungsangriffe gegen Vision-Sprache-Modelle [Papier]
- Sleeper Agents: Training täuschende LLMs, die durch Sicherheitstraining bestehen [Papier]
- Was ist in Ihren "sicheren" Daten ?: Identifizieren von gutartigen Daten, die die Sicherheit ausbreiten [Papier]
- Datenvergiftungsangriffe auf Off-Policy-Richtlinienbewertungsmethoden [Papier]
- Badedit: Backdooring große Sprachmodelle durch Modellbearbeitung [Papier]
- Best-of-Venom: RLHF angreifen, indem vergiftete Präferenzdaten injiziert werden [Papier]
- Lernen, große Sprachmodelle während des Unterrichts zu vergiften [Papier]
- Erkundung von Schwachstellen von Backdoor von Chat -Modellen [Papier]
- Anweisungen als Hintertüren: Hintertür -Schwachstellen der Anweisungsabstimmung für Großsprachmodelle [Papier]
- Erzwingen Sie generative Modelle, um zu degenerieren: Die Kraft der Datenvergiftungsangriffe [Papier]
- Heimliche und anhaltende Unauszüchtungen auf Großsprachenmodellen über Injektionen im Hintertür [Papier]
- Backdoor-Aktivierungsangriff: Getreide große Sprachmodelle mithilfe von Aktivierungssteuerung für Sicherheitsausrichtung [Papier]
- Über die Ausnutzbarkeit des Verstärkungslernens mit menschlichem Feedback für Großsprachenmodelle [Papier]
- Testzeit Backdoor-Minderung für Black-Box-Großsprachenmodelle mit defensiven Demonstrationen [Papier]
- Universal Jailbreak -Hintertoors aus vergiftetem menschlichem Feedback [Papier]
Feinabstimmungsrisiken
- Lora-as-an-Angriff! Piercing LLM Sicherheit unter dem Share-and-Play-Szenario [Papier]
- Emulierte Abhörung: Sicherheitsausrichtung für Großsprachenmodelle kann nach hinten losgehen! [Papier]
- Lora Fine-abtumt effizient das Sicherheitstraining in Lama 2-Chat 70b [Papier]
- Badllama: Billig Entfernen von Sicherheitsfeine aus Lama 2-chat 13b [Papier]
- Sprachmodell Unauszweigerung: Parametrische Rotteaming zur Enthüllung versteckter Schäden und Vorurteile [Papier]
- Entfernen des RLHF-Schutzes in GPT-4 durch Feinabstimmung [Papier]
- Über die Sicherheit von Open-Sourced-Großsprachenmodellen: Verhindert die Ausrichtung wirklich daran, missbraucht zu werden? [Papier]
- Schattenausrichtung: Die einfache Untergrenze für sicher ausgerichtete Sprachmodelle [Papier]
- Fine-Tuning-ausgerichtete Sprachmodelle beeinträchtigen die Sicherheit, auch wenn Benutzer nicht beabsichtigen! [Papier]
Angriffssuche
Suffix -Suchende
- Aufforderung4Debugging: Rotteaming-Diffusionsmodelle für Text-zu-Image-Modelle durch Finden problematischer Eingabeaufforderungen [Papier]
- Vom Geräusch bis zur Klarheit: Entschlüsseln Sie das kontroverse Suffix großer Sprachmodellangriffe über die Übersetzung von Texteinbettungen [Papier]
- Schnelle kontroverse Angriffe auf Sprachmodelle in einer GPU -Minute [Papier]
- Gradientenbasiertes Sprachmodell Red Teaming [Papier]
- Automatische und universelle Einspritzangriffe gegen große Sprachmodelle [Papier]
- $ textit {linkprompt} $ : Natürliche und universelle kontroverse Angriffe auf prompt-basierte Sprachmodelle [Papier]
- Neural Exec: Lernen (und Lernen von) Ausführungsauslöschern für schnelle Injektionsangriffe [Papier]
- Jailbreaking führende, sicherlich ausgerichtete LLMs mit einfachen adaptiven Angriffen [Papier]
- Schnelle Optimierung für Jailbreaking LLMs über unbewusste Ausbeutung und Echopraxie [Papier]
- Autodan: Interpretierbare Gegnerangriffe auf Großsprachenmodelle [Papier]
- Universelle und übertragbare kontroverse Angriffe auf ausgerichtete Sprachmodelle [Papier]
- Soft-Prompt-Abstimmung für große Sprachmodelle zur Bewertung der Verzerrung [Papier]
- Trojllm: Ein Black-Box-Trojaner-Angriff auf große Sprachmodelle [Papier]
- Autodan: Erzeugen versteckter Jailbreak -Aufforderungen auf ausgerichtete Großsprachmodelle [Papier]
Eingabeaufforderung
Sprachmodell
- Auslösen von Sprachmodellverhalten mithilfe von Reverse Language -Modellen [Papier]
(2023)
- Alles in der Art und Weise, wie Sie danach fragen: Einfache Black-Box-Methode für Jailbreak-Angriffe [Papier]
- Gegentliche Angriffe auf GPT-4 über einfache zufällige Suche [Papier]
- Tastle: Den Models mit großer Sprache für den automatischen Jailbreak -Angriff ablenken [Papier]
- Rote Teaming -Sprachmodelle mit Sprachmodellen [Papier]
- Ein LLM kann sich täuschen: Ein prompt basierter kontroverser Angriff [Papier]
- Jailbreaking Black Box Großsprachenmodelle in zwanzig Abfragen [Papier]
- Baum der Angriffe: Jailbreak Black-Box LLMs automatisch [Papier]
- AART: AI-unterstütztes Rotteaming mit vielfältiger Datenerzeugung für neue LLM-Anträge [Papier]
- Dala: Ein auf Distribution bewusster lora-basierter kontroverser Angriff gegen Sprachmodelle [Papier]
- JAB: Gemeinsame kontrovers Aufforderung und Überzeugung Augmentation [Papier]
- Keine Beleidigung: Offensivität aus Sprachmodellen [Papier] ausgelöst wird
- Loft: lokale Proxy-Feinabstimmung zur Verbesserung der Übertragbarkeit von kontroversen Angriffen gegen das Großsprachmodell [Papier]
Dekodierung
- Schwaches bis zu starkes Jailbreak auf Großsprachmodelle [Papier]
- Cold-Assony: Jailbreak-LLMs mit Steundität und Kontrollierbarkeit [Papier]
Genetischer Algorithmus
- Jailbreak Semantic Mirror: Genetische Algorithmus basierende Jailbreak-Eingabeaufforderungen gegen Open-Source-LLMs [Papier]
- Öffnen Sie den Sesam! Universal Black Box Jailbreaking von großsprachigen Modellen [Papier]
Verstärkungslernen
- SneakyPrompt: Jailbreaking Text-to-Image-Generativmodelle [Papier]
- Rote Teaming-Spiel: Ein spieltheoretischer Rahmen für Red-Teaming-Sprachmodelle [Papier]
- Erforschen, festlegen, nutzen: Red Teaming -Sprachmodelle von Grund auf [Papier]
- Enthüllung der implizite Toxizität in Großsprachenmodellen [Papier]
Verteidigung
Schulungszeitverteidigung
Rlhf
- Konfigurierbare Sicherheitswendung von Sprachmodellen mit synthetischen Präferenzdaten [Papier]
- Verbesserung der LLM -Sicherheit durch eingeschränkte direkte Präferenzoptimierung [Papier]
- Safe RLHF: Sicheres Verstärkungslernen aus menschlichem Feedback [Papier]
- Beavertails: Auf dem Weg zu einer verbesserten Sicherheitsausrichtung von LLM über einen Datensatz von Human-Preference [Papier]
- Safer-incruction: Ausrichtung von Sprachmodellen mit automatisierten Präferenzdaten [Papier]
Feinabstimmung
- SafeGEN: Minderung unsicherer Inhaltsgenerierung in Text-zu-Image-Modellen [Papier]
- Sicherheitsfeineinstellung bei (fast) ohne Kosten: Eine Grundlinie für Sehvermögen große Sprachmodelle [Papier]
- Entwicklung sicherer und verantwortungsbewusstes Großsprachmodelle - ein umfassender Rahmen [Papier]
- Immunisierung gegen schädliche Feinabstimmungsangriffe [Papier]
- Minderung fein abgestimmter Jailbreak-Angriff mit Backdoor Enhanced Ausrichtung [Papier]
- Dialektische Ausrichtung: Lösung der Spannung von 3H und Sicherheitsbedrohungen von LLMs [Papier]
- Beschneidung zum Schutz: Erhöhung der Gefängnisresistenz in ausgerichteten LLMs ohne Feinabstimmung [Papier]
- Radiergummi: Jailbreak -Verteidigung in Großsprachenmodellen durch das Verlernen schädlicher Wissen [Papier]
- Zwei Köpfe sind besser als einer: verschachtelte POE für eine robuste Verteidigung gegen Multi-Backdoors [Papier]
- Verteidigung gegen Gewichtsvergiftungen Backdoor-Angriffe für parametereffiziente Feinabstimmungen [Papier]
- Sicherheitsabgestimmte Lamas: Lehren aus der Verbesserung der Sicherheit großer Sprachmodelle, die den Anweisungen folgen [Papier]
- Verteidigung gegen ausgerichtete Angriffe über robust ausgerichtete LLM [Papier]
- Erfahren Sie, was nicht lernen sollte: Auf dem Weg zu generativer Sicherheit in Chatbots [Papier]
- JATMO: Einheitliche Injektionsverteidigung durch aufgabenspezifische Finetuning [Papier]
Inferenzzeitverteidigung
Aufforderung
- Adashield: Sicherung multimodaler Großsprachenmodelle vor strukturbasiertem Angriff über adaptive Schildanforderung [Papier]
- Break the Breakout: Neu erfinden LM-Verteidigung gegen Jailbreak-Angriffe mit der Selbstdauer [Papier]
- Auf prompt gesteuerter Schutz für Großsprachmodelle [Papier]
- Signiertes Prompt: Ein neuer Ansatz zur Verhinderung von Einspritzangriffen gegen LLM-integrierte Anwendungen [Papier]
Xuchen Suo (2024)
- Die Intention -Analyse macht LLMs zu einem guten Jailbreak -Verteidiger [Papier]
- Verteidigung gegen indirekte schnelle Injektionsangriffe mit Rampenlicht [Papier]
- Sicherstellung sicherer und qualitativ hochwertiger Outputs: Ein Richtlinienbibliotheksansatz für Sprachmodelle [Papier]
- Zielgesteuerter generativer Einspritzangriff auf Großsprachenmodelle [Papier]
- Struq: Verteidigung gegen eine schnelle Injektion mit strukturierten Abfragen [Papier]
- Lerner Bob wehrt sich gegen Jailbreak über eine schnelle kontroverse Stimmung [Papier]
- Selbstwächter: Ermächtigen Sie die LLM, sich selbst zu schützen [Papier]
- Verwenden von In-Kontext-Lernen zur Verbesserung der Dialogsicherheit [Papier]
- Verteidigung großer Sprachmodelle gegen Jailbreak -Angriffe durch Zielpriorisierung [Papier]
- Bergeron: Bekämpfung von kontroversen Angriffen durch ein auf Gewissens basierender Ausrichtungsrahmen [Papier]
Ensemble
- Bekämpfung von kontroversen Angriffen mit Multi-Agent-Debatte [Papier]
- TrustAgent: Auf dem Weg zu sicheren und vertrauenswürdigen LLM-basierten Agenten durch Agentenverfassung [Papier]
- AutodeFense: Multi-Agent-LLM-Verteidigung gegen Jailbreak-Angriffe [Papier]
- Lernen Sie zu verkleiden: Vermeiden Sie die Ablehnungsreaktionen in der Verteidigung von LLM über ein Angreifer-Dis-Dis-Guiser-Spiel mit mehreren Agenten [Papier]
- Jailbreaker im Gefängnis: Verschiebung der Zielverteidigung für Großsprachenmodelle [Papier]
Leitplanken
Guise -Treffer
- UFID: Ein einheitliches Framework für die Erkennung von Backdoor auf Input-Level auf Diffusionsmodellen [Papier]
- Universeller Eingabeaufforderungoptimierer für die Erzeugung der sicheren Text-zu-Image-Erzeugung [Papier]
- Augen geschlossen, Sicherheit auf: Schutz multimodaler LLMs über Bild-zu-Text-Transformation [Papier]
- Augen geschlossen, Sicherheit auf: Schutz multimodaler LLMs über Bild-zu-Text-Transformation [Papier]
- MLLM-Protektor: Sicherstellung der Sicherheit von MLLM, ohne die Leistung zu beeinträchtigen [Papier]
- Zusätzliche Toxizitätsminderung zur Inferenzzeit für multimodale und massiv mehrsprachige Translation [Papier]
- Eine mutationsbasierte Methode zur multimodalen Jailbreaking-Angriffserkennung [Papier]
- Erkennung und Verteidigung gegen prominente Angriffe auf vorkonditionierte LLM-integrierte virtuelle Assistenten [Papier]
- Shieldlm: Ermächtigung von LLMs als ausgerichtete, anpassbare und erklärbare Sicherheitsdetektoren [Papier]
- Übersetzungsverteidigung der Hin- und Rücktrip gegen große Sprachanschläge für Jailbreak -Angriffe [Papier]
- Gradientenmanschette: Jailbreak -Angriffe auf große Sprachmodelle durch Erforschen von Ablehnungsländerlandschaften [Papier]
- Die Verteidigung von Jailbreak-Eingabeaufforderungen über das kontearische Gegnerspiel [Papier]
- SPML: Eine DSL zur Verteidigung von Sprachmodellen gegen schnelle Angriffe [Papier]
- Robuster Sicherheitsklassifizierer für große Sprachmodelle: Gegenteils Schild [Papier]
- KI -Kontrolle: Sicherheit trotz der absichtlichen Subversion [Papier] Verbesserung der Sicherheit
- Maatphor: Automatisierte Variantenanalyse für schnelle Injektionsangriffe [Papier]
Ausgabe Guardrails
- Verteidigung von LLMs gegen Jailbreak -Angriffe über Backtranslation [Papier]
- Robuste sofortige Optimierung für die Verteidigung von Sprachmodellen gegen Jailbreak -Angriffe [Papier]
- Jailbreaking wird am besten per Definition gelöst [Papier]
- LLM Selbstverteidigung: Durch Self Examination, LLMs wissen, dass sie ausgetrickst werden [Papier]
Eingabe- und Ausgabe -Leitplanken
- Rigorllm: Belastische Leitplanken für Großsprachenmodelle gegen unerwünschte Inhalte [Papier]
- NEMO -Leitplanken: Ein Toolkit für steuerbare und sichere LLM -Anwendungen mit programmierbaren Schienen [Papier]
- LLAMA Guard: LLM-basiertes Input-Output-Schutz für Human-AI-Gespräche [Papier]
Gegentliche Suffix -Verteidigung
- Verteidigung großer Sprachmodelle gegen Jailbreak -Angriffe über semantische Glättung [Papier]
- Zertifizierung der LLM -Sicherheit gegen die kontroverse Aufforderung [Papier]
- Grundlinienverteidigung für kontroverse Angriffe gegen ausgerichtete Sprachmodelle [Papier]
- Erkennung von Sprachmodellangriffen mit Verwirrung [Papier]
- Smootllm: Verteidigung großer Sprachmodelle gegen Jailbreak -Angriffe [Papier]
- Token-Level-Konformitätserkennung auf der Basis von Verwirrigkeitsmaßnahmen und kontextbezogenen Informationen [Papier]
Dekodierende Verteidigung
- In Bezug auf Sicherheit und Hilfsmaßnahmen ausgeglichene Antworten über steuerbare Großsprachmodelle [Papier]
- SafedeCoding: Verteidigung gegen Jailbreak-Angriffe durch sicherheitsbewusstes Dekodieren [Papier]
Bewertungen
Bewertungsmetriken
Metriken angreifen
- Ein neuartiger Bewertungsrahmen zur Beurteilung der Widerstandsfähigkeit gegen schnelle Injektionsangriffe in Großsprachmodellen [Papier]
- Attackeval: Wie man die Wirksamkeit von Jailbreak bewertet, die auf Großsprachmodelle angreift [Papier]
- Schauen Sie sich es an! Überdenken, wie man Sprachmodell Jailbreak bewertet [Papier]
Verteidigungsmetriken
- Wie (UN) ethisch sind unterrichtszentrierte Antworten von LLMs? Enthüllung der Schwachstellen von Sicherheitsleitungen zu schädlichen Fragen [Papier]
- Die Kunst der Verteidigung: Eine systematische Bewertung und Analyse von LLM-Verteidigungsstrategien zur Sicherheit und Übergrenzung [Papier]
Bewertungsbenchmarks
- Jailbreakbench: Eine offene Robustheit Benchmark für Jailbreaking großer Sprachmodelle [Papier]
- SafetyPrompts: Eine systematische Überprüfung der offenen Datensätze zur Bewertung und Verbesserung der Sicherheit von Großsprachen [Papier]
- Von repräsentativen Schäden bis hin zu Schäden der Servicequalität: Eine Fallstudie zu Lama 2 Sicherheitssicherung [Papier]
- Salatbank: Ein hierarchischer und umfassender Sicherheitsmaßstab für große Sprachmodelle [Papier]
- Ein starkes Vorsprung für leere Gefängnisstrafe [Papier]
- Harmbench: Ein standardisierter Bewertungsrahmen für automatisiertes rotes Teaming und robuste Ablehnung [Papier]
- SafetyBench: Bewertung der Sicherheit großer Sprachmodelle mit Multiple -Choice -Fragen [Papier]
- XStest: Eine Testsuite zur Identifizierung von übertriebenem Sicherheitsverhalten in Großsprachenmodellen [Papier]
- DO-WAR-EINSWER: Ein Datensatz zur Bewertung von Schutzmaßnahmen in LLMs [Papier]
- Sicherheitsbewertung chinesischer Großsprachmodelle [Papier]
- RED -Teaming -Sprachmodelle zur Reduzierung von Schäden: Methoden, Skalierungsverhalten und Erkenntnisse von Lektionen [Papier]
- DICES -Datensatz: Vielfalt in der Konversations -KI -Bewertung für Sicherheit [Papier]
- Latent Jailbreak: Ein Maßstab für die Bewertung der Textsicherheit und der Ausgabe von Robustheit von Großsprachenmodellen [Papier]
- Tensor Trust: Interpretierbare schnelle Injektionsangriffe aus einem Online -Spiel [Papier]
- Können LLMs einfache Regeln befolgen? [Papier]
- Simplesafetytests: Eine Testsuite zur Identifizierung kritischer Sicherheitsrisiken in Großsprachenmodellen [Papier]
- Benchmarking und Verteidigung gegen indirekte Einspritzangriffe auf große Sprachmodelle [Papier]
- SC-Safety: Eine offene Frage, die offene Sicherheitsbank für Großsprachmodelle in Chinesisch [Papier] ist, eine offene Frage.
- Gehen ein Gretrope-Bewertung großer Sprachmodelle in Hochrisiko-Domänen [Papier]
Anwendungen
Anwendungsdomänen
Agent
- MM-SafetyBench: Ein Benchmark für die Sicherheitsbewertung von multimodalen Großsprachenmodellen [Papier]
- Agent Smith: Ein einzelnes Bild kann eine Million multimodaler LLM -Agenten exponentiell schnell [Papier]
- Wie viele Einhörner sind in diesem Bild? Ein Sicherheitsbewertungs -Benchmark für Vision LLMS [Papier]
- In Richtung rotes Team in multimodaler und mehrsprachiger Übersetzung [Papier]
- Jailbreakv-28K: Ein Maßstab für die Beurteilung der Robustheit multimodaler großer Sprachmodelle gegen Jailbreak-Angriffe [Papier]
- Rote Teaming GPT-4V: Sind GPT-4V gegen UNI/Multi-Modal-Jailbreak-Angriffe sicher? [Papier]
- R-Judge: Benchmarking Sicherheitsrisikobewusstsein für LLM-Agenten [Papier]
- GPT in Schafkleidung: Das Risiko von maßgeschneiderten GPTs [Papier]
- ToolSword: Enthüllung von Sicherheitsproblemen großer Sprache im Werkzeuglernen in drei Phasen [Papier]
- Ein zitterndes Kartenhaus? Zuordnung von kontroversen Angriffen gegen Sprachagenten [Papier]
- Schnelle Einführung, versteckte Risiken: Der doppelte Einfluss der Anpassung des großsprachigen Modells [Papier]
- Zielorientierter Angriff und Sicherheitsbewertung für LLMs [Papier]
- Identifizierung der Risiken von LM-Wirkstoffen mit einem LM-emulierten Sandkasten [Papier]
- Zähler: Messen Sie die Werte chinesischer Großsprachenmodelle von Sicherheit zur Verantwortung [Papier]
- Nutzung neuer GPT-4-APIs [Papier] ausnutzen
- Böse Genies: Eintauchen in die Sicherheit von LLM-basierten Wirkstoffen [Papier]
- Bewertung der Einspritzrisiken in 200+ benutzerdefinierten GPTs [Papier]
Programmierung
- DeceptPrompt: Nutzung der LLM-gesteuerten Codegenerierung durch Anweisungen für kontroverse natürliche Sprache [Papier]
- Vergiftete Chatgpt findet Arbeit für müßige Hände: Erkundung der Codierungspraktiken der Entwickler mit unsicheren Vorschlägen von vergifteten KI -Modellen [Papier]
Anwendungsrisiken
Sofortige Injektion
- Skalierungsverhalten der maschinellen Übersetzung mit großen Sprachmodellen unter schnellen Injektionsangriffen [Papier]
- Von schnellen Injektionen bis hin zu SQL-Injektionsangriffen: Wie geschützt ist Ihre LLM-integrierte Webanwendung? [Papier]
- Nicht das, wofür Sie sich angemeldet haben: Kompromisse bei der realen LLM-integrierten Anwendungen mit indirekter Einspritzung [Papier]
- Einheitlicher Injektionsangriff gegen LLM-integrierte Anwendungen [Papier]
Sofortige Extraktion
- Jailbreaking GPT-4V über selbstadversarische Angriffe mit Systemaufforderungen [Papier]
- Sofortdiebstahl von Angriffen gegen große Sprachmodelle [Papier]
- Effektive Eingabeaufentwicklung von Sprachmodellen [Papier]
Multimodales rotes Teaming
Angriffsstrategien
Compliance der Fertigstellung
- Nur wenige Gegner-Gegner-prompt-Lernen auf Visionsprachmodellen [Papier]
- Entführungskontext in großen multimodalen Modellen [Papier]
Anweisung Indirektion
- Über die Robustheit großer multimodaler Modelle gegen bildgegnerische Angriffe [Papier]
- Bilder sind Achilles 'Ferse der Ausrichtung: Ausnutzung visueller Schwachstellen für jailbischende multimodale Großsprachenmodelle [Papier]
- Vision-Llms können sich mit selbst erzeugten typografischen Angriffen täuschen [Papier]
- Visuelle widersprüchliche Beispiele Jailbreak haben große Sprachmodelle [Papier] ausgerichtet
- Jailbreak in Stücke: Kompositionelle kontroverse Angriffe auf multimodale Sprachmodelle [Papier]
- Missbrauch von Bildern und Klängen für die indirekte Unterrichtsinjektion in multimodalen LLMs [Papier]
- FigStep: Jailbreaking Large Vision-Sprach-Modelle über typografische visuelle Eingabeaufforderungen [Papier]
- Instructa: Anweisungen abgestimmte Angriff für große Sehvermögensmodelle [Papier]
Angriffssucher
Bildsuche
- Diffusionsangriff: Nutzung einer stabilen Diffusion für naturalistisches Bildangriff [Papier]
- Über die kontroverse Robustheit multimodaler Fundamentmodelle [Papier]
- Wie robust ist Googles Barde für kontroverse Bildangriffe? [Papier]
- Testerzeit-Hintertür-Angriffe auf multimodale Großsprachenmodelle [Papier]
Cross -Modalitätssucher
- SA-Angriff: Verbesserung der kontroversen Übertragbarkeit von Sichtsprüche vor der Trainingsmodelle durch Selbstversorgung [Papier]
- MMA-Diffusion: Multimodaler Angriff auf Diffusionsmodelle [Papier]
- Verbesserung der kontroversen Übertragbarkeit visuellsprachiger Vor-Training-Modelle durch kollaborative multimodale Interaktion [Papier]
- Ein Bild ist 1000 Lügen wert: Übertragbarkeit von widersprüchlichen Bildern über Aufforderungen auf die Sichtsprachmodelle [Papier]
Andere
- SneakyPrompt: Jailbreaking Text-to-Image-Generativmodelle [Papier]
- Aufforderung4Debugging: Rotteaming-Diffusionsmodelle für Text-zu-Image-Modelle durch Finden problematischer Eingabeaufforderungen [Papier]
Verteidigung
Wachspiel -Verteidigung
- UFID: Ein einheitliches Framework für die Erkennung von Backdoor auf Input-Level auf Diffusionsmodellen [Papier]
- Universeller Eingabeaufforderungoptimierer für die Erzeugung der sicheren Text-zu-Image-Erzeugung [Papier]
- Augen geschlossen, Sicherheit auf: Schutz multimodaler LLMs über Bild-zu-Text-Transformation [Papier]
- Augen geschlossen, Sicherheit auf: Schutz multimodaler LLMs über Bild-zu-Text-Transformation [Papier]
- MLLM-Protektor: Sicherstellung der Sicherheit von MLLM, ohne die Leistung zu beeinträchtigen [Papier]
- Zusätzliche Toxizitätsminderung zur Inferenzzeit für multimodale und massiv mehrsprachige Translation [Papier]
- Eine mutationsbasierte Methode zur multimodalen Jailbreaking-Angriffserkennung [Papier]
Andere Verteidigung
- SafeGEN: Minderung unsicherer Inhaltsgenerierung in Text-zu-Image-Modellen [Papier]
- Adashield: Sicherung multimodaler Großsprachenmodelle vor strukturbasiertem Angriff über adaptive Schildanforderung [Papier]
- Sicherheitsfeineinstellung bei (fast) ohne Kosten: Eine Grundlinie für Sehvermögen große Sprachmodelle [Papier]
Anwendung
Agenten
- Rote Teaming GPT-4V: Sind GPT-4V gegen UNI/Multi-Modal-Jailbreak-Angriffe sicher? [Papier]
- Jailbreakv-28K: Ein Maßstab für die Beurteilung der Robustheit multimodaler großer Sprachmodelle gegen Jailbreak-Angriffe [Papier]
- Agent Smith: Ein einzelnes Bild kann eine Million multimodaler LLM -Agenten exponentiell schnell [Papier]
- MM-SafetyBench: Ein Benchmark für die Sicherheitsbewertung von multimodalen Großsprachenmodellen [Papier]
- Wie viele Einhörner sind in diesem Bild? Ein Sicherheitsbewertungs -Benchmark für Vision LLMS [Papier]
- In Richtung rotes Team in multimodaler und mehrsprachiger Übersetzung [Papier]
Benchmarks
- Gegenteiler Nibbler: Eine offene Methode zur Identifizierung verschiedener Schäden in der Erzeugung von Text-zu-Image-Erzeugung [Papier]
- Rote Modelle für visuelle Sprachmodelle für visuelle Sprache [Papier]
Zitat
@article{lin2024achilles,
title={Against The Achilles' Heel: A Survey on Red Teaming for Generative Models},
author={Lizhi Lin and Honglin Mu and Zenan Zhai and Minghan Wang and Yuxia Wang and Renxi Wang and Junjie Gao and Yixuan Zhang and Wanxiang Che and Timothy Baldwin and Xudong Han and Haonan Li},
year={2024},
journal={arXiv preprint, arXiv:2404.00629},
primaryClass={cs.CL}
}