Download ConvRe - ConvRe Download überzeugen

ConvRe

Anderer Quellcode

1.0.0

Herunterladen

? Überzeugen?

? Daten ｜? Code ｜? Umarmung der Rangliste ｜? Papier ｜ ♣ ️ Zitat

? Überzeugen ? ist der in unserem EMNLP 2023 Hauptkonferenzpapier vorgeschlagene Benchmark: Eine Untersuchung der Ineffizität von LLMs beim Verständnis der Überzeugung . Ziel ist es, die Fähigkeit von LLMs zu bewerten, umgekehrte Beziehungen zu verstehen. Die umgekehrte Beziehung ist definiert als das Gegenteil der semantischen Beziehung, während die Oberflächenform des Dreifach unverändert bleibt. Zum Beispiel wird das Triple (x, has part, y) als "x hat einen Teil y" in normaler Beziehung interpretiert, während "y einen Teil X" in umgekehrter Beziehung namens X hat?

Die Experimente in unserem Artikel deuteten darauf hin, dass LLMs häufig auf Abkürzung (oder oberflächliche Korrelationen) zurückgreifen und dennoch vor Herausforderungen bei unserem überzeugen stehen? Benchmark sogar für mächtige Modelle wie GPT-4. Das folgende Bild zeigt die Leistungen von GPT-Modellen unter Null-Shot-Easy/Hard-Einstellungen auf unserem Benchmark. Es kann beobachtet werden, dass GPT-Modelle sowohl in Re2Text als auch in Text2Re Aufgaben einen positiven Skalierungs-Trend unter leichtem Festlegen und inversen Skalierungstrend unter hartem Festlegen aufweisen. Bitte überprüfen Sie unser Papier. oder Umarmung der Rangliste? Für detailliertere und umfassendere Ergebnisse.

Lesen Sie dies in 中文.

? Was ist neu

[2023/10/09] Convre Benchmark hat veröffentlicht?.
[2023/10/08] Convre wurde von EMNLP 2023 akzeptiert.

? Daten

Convre Benchmark besteht aus 17 Beziehungen und 1240 Tripel aus fünf weit verbreiteten Wissensgraphendatensätzen: WN18RR, FB15K-237, Nell-One, Wikidata5M, ICEWS14, CONCECTNET5. Die detaillierte Anzahl von Dreier für jede Beziehung im Benchmark ist unten aufgeführt.

Beziehung	# Dreifach	Quelle
Hypernym	80	WN18RR
hat einen Teil	78	WN18RR
Organisation, Organisationsbeziehung, Kind	75	FB15K-237
Ort, Ort, teilweise enthält	77	FB15K-237
Athlet schlug Athlet	80	Nell-eins
Elternteil von	145	Nell-One & Wikidata5m
vertreten durch	79	Wikidata5m
Nebenwirkung	8	Wikidata5m
hat Einrichtung	62	Wikidata5m
beeinflusst von	65	Wikidata5m
im Besitz von	51	Wikidata5m
konsultieren	73	ICEWS14
Lob oder befürworten	78	ICEWS14
gemacht aus	80	Conceptnet5
verwendet von	79	Conceptnet5
hat Eigentum	55	Conceptnet5
hat Subenevent	75	Conceptnet5
Gesamt	1240

Die Datensatzdateien finden Sie im data . Hier ist die Beschreibung jeder Datei.

re2text_relations.json : Die normale und umgekehrte Beziehungsdefinition und entsprechende Auswahlmöglichkeiten jeder Beziehung für re2text -Aufgabe.
re2text_examples.json : Die wenigen Aufgaben Beispiele für re2text -Aufgabe, einschließlich normal Einstellung und hint+cot -Einstellung.
text2re_relations : Die normale und umgekehrte Beziehungsdefinition und entsprechende Auswahlmöglichkeiten jeder Beziehung für text2re -Aufgabe.
text2re_examples.json : Die wenigen Schussbeispiele für re2text -Aufgabe, einschließlich normal Einstellung und hint+cot -Einstellung.
triple_dataset : Voller Datensatz des Benchmarks, einschließlich Dreifachungen und korrekten Antworten.
triple_subset : Die Teilmenge, die wir in unserem Papier verwendet haben, enthält 328 Dreifach und ihre entsprechenden korrekten Antworten.

? Unterstützte Modelle

Die unten aufgeführten Modelle werden getestet und können direkt unter Verwendung des Skripts in Inferenz ausgeführt werden.

GPT -Textmodelle

Claude -Modelle

Claude-1.3
Claude-Instant-1.1

FLAN-T5-Modelle

LAMA2 CHAT -Modelle

LAMA-2-7B-CHAT-HF
LAMA-2-13B-CHAT-HF
LAMA-2-70B-CHAT-HF

Qwen Chat -Modelle

QWEN-7B-CHAT
QWEN-14B-CHAT

Internlmmodelle

Internlm-chat-7b
Internlm-Chat-20b

? Inferenz mit Umarmungsface -Datensatz (empfohlen)

Unser Benchmark ist bei Huggingface erhältlich? (Link). Sie können die Inferenz einfach mit main_hf.py ausführen und die folgenden drei Argumente angeben.

model_name : Der Name des großen Sprachmodells siehe unsere unterstützte Modellliste.
task : Die Subtask von Convre Benchmark: text2re oder re2text .
setting : Eingabeaufforderung für den aktuellen Lauf (Eingabeaufforderung1-Prompt 12) finden Sie in unserem Artikel (Link) für weitere Informationen zu jeder Einstellung.

Beispiel

Hier ist das Skript, um prompt4 der re2text Aufgabe in text-davinci-003 auszuführen?

python3 main_hf.py --model_name text-davinci-003 --task re2text --setting prompt4

? Inferenz auf flexiblere Weise

Wir bieten auch eine flexiblere Möglichkeit, die Experimente durchzuführen. Es gibt echte Argumente, die Sie angeben müssen.

model_name : Der Name des großen Sprachmodells, das Sie verwenden möchten, siehe unsere unterstützte Modellliste.
task : Die Subtask von Convre Benchmark: text2re oder re2text .
data_dir : Das Verzeichnis, in dem der Datensatz gespeichert ist.
prompt : Die Art der Eingabeaufforderung im Experiment: normal , hint oder hint+cot .
relation : Der im Experiment zu verwendende Beziehungstyp: normal für normale Beziehung und converse für die umgekehrte Beziehung.
n_shot : Wenig-Shot-Nummern, wählen Sie eine Zahl in [0, 1, 2, 3, 4, 5, 6].
example_type : Die Art der wenigen Schussbeispiele, hard oder regular .
text_type : Die Art des Textes, der im Experiment regular oder hard verwendet wird.

Die Argumenteinstellungen für jede der in unserem Papier verwendeten Eingabeaufforderung finden Sie unten.

Prompt ID	prompt	Beziehung	n_shot	Beispiel_Type	text_type
Re2Text 1##	Normal	Normal	0	regulär	regulär
text2re 1##	Normal	Normal	0	regulär	hart
Re2Text 2#	Normal	Normal	0	regulär	hart
text2re 2#	Normal	Normal	0	regulär	regulär
Re2Text 3#	Normal	umgekehrt	0	regulär	regulär
text2re 3#	Normal	umgekehrt	0	regulär	hart
Re2Text 4#	Normal	umgekehrt	0	regulär	hart
text2re 4#	Normal	umgekehrt	0	regulär	regulär
Re2Text 5#	Hinweis	umgekehrt	0	regulär	regulär
text2re 5#	Hinweis	umgekehrt	0	regulär	hart
Re2Text 6#	Hinweis	umgekehrt	0	regulär	hart
text2re 6#	Hinweis	umgekehrt	0	regulär	regulär
7#	Normal	umgekehrt	3	hart	hart
8#	Tipp+COT	umgekehrt	3	hart	hart
9#	Normal	umgekehrt	6	hart	hart
10#	Normal	umgekehrt	3	regulär	hart
11#	Tipp+COT	umgekehrt	3	regulär	hart
12#	Normal	umgekehrt	6	regulär	hart

Beispiel

Hier ist das Skript zum Ausführen von prompt3 der text2re -Aufgabe in gpt-3.5-turbo-0301 ?

python3 main.py --model_name gpt-3.5-turbo-0301 --task text2re --data_dir data --prompt normal --relation converse --n_shot 0 --example_type regular --text_type hard

? Auswertung

Bei der Ausführung des Bewertungsskripts müssen drei Argumente angegeben werden.

file_path : Der path der Ergebnisdatei?.
model_family : Die Modellfamilie der Ergebnisdatei, die zum Auswählen des entsprechenden Bewerters verwendet wird. Sie sollten aus flan-t5 , claude , gpt-text , gpt-chat , llama2 , qwen , internlm wählen.
mode : Wir bieten zwei Bewertungsmodus: strict und auto . strict Modus erhöht Fehler, wenn die Antwort des Modells nicht mit dem übereinstimmt, was wir wollen. In diesem Fall sollten Sie die Antwort des Modells manuell überprüfen. auto -Modus ignoriert nur die inkonsistenten Antworten. Die im auto -Modus berechnete Leistung ist möglicherweise niedriger als strict Modus, ist jedoch sehr bequem und benötigt keine menschliche Unterstützung. Die Fähigkeit, sich auf die Anfrage des Benutzers auszurichten, ist auch ein sehr wichtiger Indikator für die Fähigkeit von LLMs.

? Neue Modelle und Beziehungen

Bewertung neuer Modelle?

Erstens sollten Sie eine neue Klasse erstellen, die LanguageModels in llms_interface.py erben und dann die completion gemäß den Merkmalen (wie der Struktur der API des neuen Modells) Ihres Modells implementieren.

Nachdem Sie das Ergebnis erhalten haben, sollten Sie eine neue Klasse erstellen, die BaseEvaluator in llms_evaluator.py erben und dann die evaluate -Methode gemäß dem Muster der Antwort Ihres Modells implementieren.

Neue Beziehungen hinzufügen?

Um eine neue Beziehung in den Benchmark hinzuzufügen, sollten Sie zunächst prüfen, ob die Beziehung die Anforderungen in Section 2.5 unseres Papiers entspricht. Dann sollten Sie die entsprechenden Eingabeaufforderungen sowohl für Re2Text als auch für Text2Re -Aufgaben schreiben.

Re2Text

Hinweis: In dieser Aufgabe werden alle Frage nach der Haupteinheit gestellt.

normal : Die normal Anweisung der Beziehung.
converse : Die converse Anweisung des Relitons.
normal-regular : Die regular Beschreibung für die Frage in normal Beziehung.
normal-hard : Die hard Beschreibung für die Frage in normal Beziehung.
converse-regular : Die regular Beschreibung für die Frage unter converse .
converse-hard : Die hard Beschreibung für die Frage unter converse Beziehung.

Text2re

normal : Die normal Anweisung der Beziehung.
converse : Die converse Anweisung des Relatons.
hard : Die hard Beschreibung der Frage.
regular : Die regular Beschreibung der Frage.
normal-correct : Die correct Wahl unter normal Beziehung.
normal-wrong : Die wrong Wahl unter normal Verhältnis.
converse-correct : Die correct Wahl unter converse .
converse-wrong : Die wrong Wahl unter converse Beziehung.

Fühlen Sie sich frei, neue Modelle und Beziehungen zu unserem Benchmark hinzuzufügen?

? Zitat

 @misc{qi2023investigation,
      title={An Investigation of LLMs' Inefficacy in Understanding Converse Relations}, 
      author={Chengwen Qi and Bowen Li and Binyuan Hui and Bailin Wang and Jinyang Li and Jinwang Wu and Yuanjun Laili},
      year={2023},
      eprint={2310.05163},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Expandieren

Zusätzliche Informationen