ConvRe Download - Загрузка исходного кода ConvRe

ConvRe

Другой исходный код

1.0.0

Скачать

? Convre?

? Данные ｜? Код ｜? Таблица лидеров объятия ｜? Бумага ｜ ♣ ️ Цитирование

? Convre ? Является ли эталон , предложенный в нашем основном документе EMNLP 2023: расследование неэффективности LLMS в понимании убеждений . Он стремится оценить способность LLMS в понимании конверсических отношений. Отношение обратной связи определяется как противоположность семантическому соотношению при сохранении поверхностной формы тройной неизменной. Например, тройной (x, has part, y) интерпретируется как «x имеет часть, называемую Y» в нормальной связи, в то время как «y имеет часть, называемую x», в обращении?

Эксперименты в нашей статье предполагали, что LLM часто прибегают к краткому обучению (или поверхностным корреляциям) и все еще сталкиваются с проблемами в нашем «Convre»? Clarkmark Даже для мощных моделей, таких как GPT-4. На следующей картине показаны характеристики моделей GPT под нулевым выстрелом, простыми/жесткими настройками на нашем эталонном этапе. Можно наблюдать, что как в задачах Re2Text , так и в Text2Re модели GPT демонстрируют положительную тенденцию масштабирования при легком установлении и тренде обратного масштабирования при твердых. Пожалуйста, проверьте нашу газету? Или таблица лидеров объятия? Для более подробных и всесторонних результатов.

Прочитайте это в 中文.

? Что нового

[2023/10/09] Convre Benchmark выпустил?.
[2023/10/08] Convre был принят EMNLP 2023.

? Данные

Convre Benchmark состоит из 17 отношений и 1240 тройков из пяти широко используемых наборов графиков знаний: WN18RR, FB15K-237, Nell-One, Wikidata5m, ICEWS14, ConceptNet5. Подробное количество тройков для каждого соотношения в эталоне перечислено ниже.

Связь	# Тройки	Источник
гипернам	80	Wn18rr
имеет часть	78	Wn18rr
организация, организационные отношения, ребенок	75	FB15K-237
местоположение, местоположение, частично содержит	77	FB15K-237
Спортсмен победил спортсмена	80	Нелл-один
родитель	145	Nell-One & Wikidata5m
представлено	79	Wikidata5m
побочный эффект	8	Wikidata5m
имеет объект	62	Wikidata5m
под влиянием	65	Wikidata5m
принадлежащий	51	Wikidata5m
консультироваться	73	ICEWS14
хвала или одобрить	78	ICEWS14
сделанный из	80	ConceptNet5
используется из	79	ConceptNet5
имеет собственность	55	ConceptNet5
имеет подвласть	75	ConceptNet5
Общий	1240

Файлы набора данных можно найти в каталоге data . Вот описание каждого файла.

re2text_relations.json : нормальное и обратное определение отношения и соответствующие варианты каждого отношения для задачи re2text .
re2text_examples.json : несколько примеров выстрела задачи re2text , включая normal настройку подсказки и настройку hint+cot .
text2re_relations : Определение нормального и обратного соотношения и соответствующие варианты каждого отношения для задачи text2re .
text2re_examples.json : несколько примеров выстрела задачи re2text , включая normal настройку подсказки и настройку hint+cot .
triple_dataset : полный набор данных контрольного знака, включая тройки и правильные ответы.
triple_subset : подмножество, которое мы использовали в нашей статье, он содержит 328 тройки и их соответствующие правильные ответы.

? Поддерживаемые модели

Модели, перечисленные ниже, протестированы и могут быть запущены непосредственно, используя сценарий по выводу.

Text Models GPT

Клод модели

Клод-1,3
Claude-Instant-1.1

Модели FLAN-T5

Llama2 чата модели

Llama-2-7b-Chat-HF
Лама-2-13B-чат-Х.Ф.
Лама-2-70B-чат-Х.Ф.

Qwen Chat Models

Qwen-7b-чат
QWEN-14B-чат

Internlm модели

Internlm-Chat-7b
Internlm-Chat-20b

? Вывод с набором данных HuggingFace (рекомендуется)

Наш тест доступен на Huggingface? (связь). Вы можете легко запустить вывод, используя main_hf.py и указав следующие три аргумента.

model_name : имя модели большой языка, см. Наш поддерживаемый список моделей.
task : подзадача Convre Benchmark: text2re или re2text .
setting : Настройка приглашения для текущего запуска (reffice1-prompt 12), пожалуйста, обратитесь к нашей статье (ссылке) для получения более подробной информации о каждом настройке.

Пример

Вот скрипт для запуска prompt4 задачи re2text на text-davinci-003 ?

python3 main_hf.py --model_name text-davinci-003 --task re2text --setting prompt4

? Вывод более гибким способом

Мы также предоставляем более гибкий способ управления экспериментами. There are ️eight arguments you need to specify.

model_name : имя модели большой языка, которую вы хотите использовать, см. Наш поддерживаемый список моделей.
task : подзадача Convre Benchmark: text2re или re2text .
data_dir : каталог, где хранится набор данных.
prompt : тип подсказки для использования в эксперименте: normal , hint или hint+cot .
relation : тип отношения к использованию в эксперименте: normal для нормальной связи и converse для обратного отношения.
n_shot : несколько выстрелов, выберите число в [0, 1, 2, 3, 4, 5, 6].
example_type : тип нескольких примеров, hard или regular .
text_type : тип текста, который можно использовать в эксперименте, regular или hard .

Настройки аргумента для каждой из 12 предложений, используемых в нашей статье, указаны ниже.

Приглашение идентификатора	быстрый	связь	n_shot	example_type	text_type
Re2text 1#	нормальный	нормальный	0	обычный	обычный
Text2re 1#	нормальный	нормальный	0	обычный	жесткий
Re2text 2#	нормальный	нормальный	0	обычный	жесткий
Text2re 2#	нормальный	нормальный	0	обычный	обычный
Re2text 3#	нормальный	обратный	0	обычный	обычный
Text2re 3#	нормальный	обратный	0	обычный	жесткий
Re2text 4#	нормальный	обратный	0	обычный	жесткий
Text2re 4#	нормальный	обратный	0	обычный	обычный
Re2text 5#	намекать	обратный	0	обычный	обычный
Text2re 5#	намекать	обратный	0	обычный	жесткий
Re2text 6#	намекать	обратный	0	обычный	жесткий
Text2re 6#	намекать	обратный	0	обычный	обычный
7#	нормальный	обратный	3	жесткий	жесткий
8#	Подсказка+COT	обратный	3	жесткий	жесткий
9#	нормальный	обратный	6	жесткий	жесткий
10#	нормальный	обратный	3	обычный	жесткий
11#	Подсказка+COT	обратный	3	обычный	жесткий
12#	нормальный	обратный	6	обычный	жесткий

Пример

Вот скрипт для запуска prompt3 задачи text2re на gpt-3.5-turbo-0301 ?

python3 main.py --model_name gpt-3.5-turbo-0301 --task text2re --data_dir data --prompt normal --relation converse --n_shot 0 --example_type regular --text_type hard

? Оценка

При запуске сценария оценки необходимо указать три аргумента.

file_path : path файла результата?
model_family : семейство моделей файла результата, используемое для выбора соответствующего оценщика. Вы должны выбрать из flan-t5 , claude , gpt-text , gpt-chat , llama2 , qwen , internlm .
mode : мы предоставляем два режима оценки: strict и auto . strict режим поднимет ошибки, если ответ модели не соответствует тому, что мы хотим. В этом случае вы должны проверить ответ модели вручную. auto режим просто игнорирует противоречивые ответы. Производительность, рассчитанная в auto режиме, может быть ниже, чем strict режим, но он очень удобен и не нуждается в поддержке человека. Возможность соответствовать запросу пользователя также является очень важным показателем возможности LLMS.

? Новые модели и отношения

Оценка новых моделей?

Во -первых, вы должны создать новый класс, который наследует LanguageModels в llms_interface.py , а затем реализовать метод completion в соответствии с характеристиками (такими как структура API новой модели) вашей модели.

После получения результата вы должны создать новый класс, который наследует BaseEvaluator в llms_evaluator.py , а затем реализовать метод evaluate в соответствии с шаблоном ответа вашей модели.

Добавление новых отношений?

Чтобы добавить новое соотношение в эталон, вы должны сначала проверить, соответствует ли отношение требования в Section 2.5 нашей статьи. Затем вам следует написать соответствующие подсказки как для задач Re2Text , так и Text2Re .

Re2text

Примечание. В этой задаче весь вопрос задает главную организацию.

normal : normal обучение отношения.
converse : converse обучение Relaiton.
normal-regular : regular описание вопроса под normal отношением.
normal-hard : hard описание вопроса под normal отношением.
converse-regular : regular описание вопроса в соответствии converse .
converse-hard : hard описание вопроса в отношении converse Community.

Text2re

normal : normal обучение отношения.
converse : converse обучение относительно режима.
hard : hard описание вопроса.
regular : regular описание вопроса.
normal-correct : correct выбор под normal отношением.
normal-wrong : wrong выбор под normal отношением.
converse-correct : correct выбор под converse отношением.
converse-wrong : wrong выбор под converse отношением.

Не стесняйтесь добавлять новые модели и отношения к нашему эталону?

? Цитирование

 @misc{qi2023investigation,
      title={An Investigation of LLMs' Inefficacy in Understanding Converse Relations}, 
      author={Chengwen Qi and Bowen Li and Binyuan Hui and Bailin Wang and Jinyang Li and Jinwang Wu and Yuanjun Laili},
      year={2023},
      eprint={2310.05163},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Расширять

Дополнительная информация