Потрясающее семантическое текстовое сходство: кураторский список семантического/предложения текстовое сходство (STS) в моделях крупных языков и в поле NLP
Этот репозиторий, называемый удивительным семантическим текстовым сходством , содержит коллекцию ресурсов и документов по сходству с семантическим/предложением (STS) в крупных языковых моделях и NLP .
« Если вы не можете измерить это, вы не можете улучшить его ». - Британский физик Уильям Томсон
Добро пожаловать, чтобы поделиться своими статьями, мыслями и идеями, отправив проблему!

Предложение Текстовое сходство: обзор эволюции модели
Shuyue Jia, надежная вычислительная лаборатория, Бостонский университет
[Связь]
Октябрь 2023 г.
Пожалуйста, проверьте здесь и здесь, чтобы загрузить все базы данных Benchmark ниже.
STS12 :
Semeval-2012 Задача 6: Пилот по семантическому текстовому сходству
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre
Semeval 2012, [Paper] [Скачать]
07 июня 2012 года
STS13 :
*SEM 2013 Общая задача: семантическое текстовое сходство
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo
*SEM 2013, [Paper] [Скачать]
13 июня 2013 года
STS14 :
Semeval-2014 Задача 10: Многоязычное семантическое текстовое сходство
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Rada Mihalcea, немецкая Ригау, Janyce Wiebe
Semeval 2014, [Paper] [Скачать]
23 августа 2014
STS15 :
Semeval-2015 Задача 2: Семантическое текстовое сходство, английский, испанский и пилот по интерпретации
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Iñigo Lopez-Gazpio, Montse Maritxalar, Rada Mihalcea, Герман Ригау, Larraitz Uria, Janyce Wiebe
Semeval 2015, [Paper] [Скачать]
04 июня 2015 года
STS16 :
Semeval-2016 Задача 1: Семантическое текстовое сходство, одноязычная и межязычная оценка
Eneko Agirre, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, немецкая Ригау, Janyce Wiebe
Semeval 2016, [Paper] [Скачать]
16 июня 2016 года
STS BEDRAMMAMAM (STSB) :
Semeval-2017 Задача 1: Семантическое текстовое сходство Многоязычная и сфокусированная оценка кросслинга
Даниэль Чер, Мона Диаб, Энеко Агирре, Иньиго Лопес-Газпио, Люсия Спекция
Semeval 2017, [Paper] [Скачать]
03 августа 2017 года
Больное лекарство от оценки семантических моделей распределения композиции
Марко Марелли, Стефано Менини, Марко Барони, Луиса Бентивогли, Раффаэлла Бернарди, Роберто Зампарелли
Lrec 2014, [Paper] [Скачать]
26 мая 2014 года
Перчатка: глобальные векторы для представления слов
Джеффри Пеннингтон, Ричард Сочер, Кристофер Мэннинг
EMNLP 2014, [Paper] [GitHub]
25 октября 2014 года
Пропустить векторы
Райан Кирос, Юкун Чжу, Руслан Салахутдинов, Ричард С. Земель, Антонио Торралба, Ракель Уртасун, Санджа Фидлер
Neurips 2015, [Paper] [GitHub]
22 июня 2015 года
Контролируемое изучение универсальных представлений о предложении из данных о естественном языке
Алексис Конно, Дуве Киела, Хольгер Швенк, Лоик Барраулт, Антуан Бордс
EMNLP 2017, [Paper] [GitHub]
07 сентября 2017 года
Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка
Джейкоб Девлин, Мин-Вей Чанг, Кентон Ли, Кристина Тутанова
NAACL-HLT 2019, [Paper] [GitHub]
24 мая 2019 года
Bertscore: оценка генерации текста с помощью Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [Paper] [GitHub]
24 февраля 2020 года
Bleurt: обучение надежным показателям для генерации текста
Тибо Селлам, Дипанджан Дас, Анкур Парих
ACL 2020, [Paper] [GitHub]
05 июля 2020 года
Плотный отрывок для ответа на вопрос об открытом домене ответа
Владимир Карпухин, Барлас Огуз, Сьюон Мин, Патрик Льюис, Леделл Ву, Сергей Эдунов, Данки Чен, Вен-Тау Йи
EMNLP 2020, [Paper] [GitHub]
16 ноября 2020 года
Универсальный предложенный кодер
Даниэль Чер, Ийнфей Ян, Шенг-Йи Конг, Нан Хуа, Николь Лимтиако, Ромни Сент
Arxiv 2018, [Paper] [GitHub]
12 апреля 2018 года
Приговор-Берт: встраивание приговора с использованием сиамских берт-сети
Nils Reimers, Iryna Gurevych
EMNLP 2019, [Paper] [GitHub]
27 августа 2019
Пары моделирования взаимодействия с глубокими нейронными сетями для измерения семантического сходства
Хуа он, Джимми Лин
NAACL 2016, [Paper]
12 июня 2016 года
Сопоставление текста как распознавание изображений
Лян Панг, Янян Лан, Цзяфенг Го, Джун Сюй, Шенгксиан Ван, Сюэки Ченг
AAAI 2016, [Paper] [GitHub]
20 февраля 2016 года
Multigancnn: архитектура для общего сопоставления текстовых кусков на нескольких уровнях гранулярности
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
IJCNLP 2015, [Paper]
26 июля 2015 года
Простой и эффективный текст сопоставление с более богатыми функциями выравнивания
Ранки Ян, Цзянхай Чжан, Син Гао, Фэн Цзи, Хайкин Чен
ACL 2019, [Paper] [GitHub]
01 августа 2019
Семантическое предложение, соответствующее плотно связанной рецидивируемой и совместной информации
Seonhoon Kim, Inho Kang, Nojun Kwak
AAAI 2019, [Paper] [GitHub (неофициальный)]
27 января 2019 года
Многолетние сетям внимания для моделирования паров предложений
Чуанки Тан, Фуру Вей, Венхуи Ван, Вайфенг Л.В., Мин Чжоу
IJCAI 2018, [Paper] [GitHub]
13 июля 2018 года
Вывод естественного языка в отношении пространства взаимодействия
Йихен Гонг, Хенг Луо, Цзянь Чжан
EMNLP 2017, [Paper] [GitHub]
13 сентября 2017 года
Сеть межусобленной выравнивания для моделирования пары предложений
Gehui Shen, Yunlun Yang, Zhi-Hong Deng
EMNLP 2017, [Paper]
07 сентября 2017 года
ДИСТОКАТИЧЕСКОЕ ОТДЫХ КОГДА
Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi
ICLR 2017, [Paper] [Web -Page] [GitHub]
24 апреля 2017 года
Структурированное самообладающее предложение внедряет
Zhouhan Lin, Minwei Feng, Cicero Nogueira Dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio
EMNLP 2017, [Paper] [GitHub]
09 марта 2017 года
Сходство сходства предложений лексическим разложением и композицией
Чжигуо Ван, Хайтао Ми, Авраам Иттихерия
Coling 2016, [Paper] [GitHub]
11 декабря 2016 года
Модель разложения внимания для вывода естественного языка
Анкур Парих, Оскар Тякстром, Дипанджан Дас, Якоб Ускорет
EMNLP 2016, [Paper] [GitHub]
01 ноября 2016 года
Рассуждение о завязанности с нейронным вниманием
Тим Рокташель, Эдвард Грефенстетт, Карл Мориц Херманн, Томаш Кочиски, Фил Блунсом
ICLR 2016, [Paper] [GitHub]
1 марта 2016 года
DLS@CU: сходство предложения от выравнивания слов и семантического векторного композиции
MD Арафат Султан, Стивен Бетхард, Тамара Самнер
Semeval 2015, [Paper]
04 июня 2015 года
Вернуться к основам для одноязычного выравнивания: использование сходства слов и контекстных доказательств
MD Арафат Султан, Стивен Бетхард, Тамара Самнер
TACL 2014, [Paper]
01 мая 2014 года
Улучшение дистанции Word Mover за счет использования матрицы самоуправления
Hiroaki Yamagiwa, Sho yokoi, Hidetoshi Shimodaira
EMNLP 2023 Результаты, [Paper] [GitHub]
02 ноября 2023 года
На пути к интерпретируемому семантическому текстовому сходству с помощью оптимального транспортного контрастного обучения предложения обучение
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [Paper] [GitHub]
22 мая 2022 года
Расстояние ротатора слов
Sho yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui
EMNLP 2020, [Paper] [GitHub]
16 ноября 2020 года
Moverscore: генерация текста, оцененная с контекстуализированными встроениями и расстоянием земли
Вэй Чжао, Максим Пейрард, Фей Лю, Ян Гао, Кристиан М. Мейер, Штеффен Эгер
EMNLP 2019, [Paper] [GitHub]
03 ноября 2019 года
От встроенных слов до документов расстояния
Мэтт Куснер, Ю Сан, Николас Колкин, Килиан Вайнбергер
ICML 2015, [Paper] [GitHub]
06 июля 2015 года
Неконтролируемые случайные предложения внедрения: сильная, но простая базовая линия
Kawin Ethayarajh
Repl4nlp 2018, [Paper] [GitHub]
20 июля 2018 года
Эффективная основа для представлений о обучении предложения
Lajanugen Logeswaran, Honglak Lee
ICLR 2018, [Paper] [GitHub]
30 апреля 2018 года
Универсальный предложенный кодер
Даниэль Чер, Ийнфей Ян, Шенг-Йи Конг, Нан Хуа, Николь Лимтиако, Ромни Сент
Arxiv 2018, [Paper] [GitHub]
12 апреля 2018 года
Контролируемое изучение универсальных представлений о предложении из данных о естественном языке
Алексис Конно, Дуве Киела, Хольгер Швенк, Лоик Барраулт, Антуан Бордс
EMNLP 2017, [Paper] [GitHub]
07 сентября 2017 года
Простая, но сложная базовая линия для внедрения предложений
Санджив Арора, Йиню Лян, Тенгю Ма
ICLR 2017, [Paper] [GitHub]
06 февраля 2017 года
Обучение распределенным представлениям предложений из немапендированных данных
Феликс Хилл, Кюнхён Чо, Анна Корхонен
NAACL 2016, [Paper] [GitHub (неофициальный)]]
12 июня 2016 года
Пропустить векторы
Райан Кирос, Юкун Чжу, Руслан Салахутдинов, Ричард С. Земель, Антонио Торралба, Ракель Уртасун, Санджа Фидлер
Neurips 2015, [Paper] [GitHub]
22 июня 2015 года
Распределенные представления предложений и документов
Quoc V. Le, Tomas Mikolov
ICML 2014, [Paper]
21 июня 2014 года
Отбеливание предложений для лучшей семантики и более быстрого поиска
Цзянлин Су, Джирун Цао, Вейджи Лю, Янгивен Оу
Arxiv 2021, [Paper] [Github (tensorflow)] [Github (pytorch)]]
29 марта 2021 года
В предложении встроенных из предварительно обученных языковых моделей
Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li
EMNLP 2020, [Paper] [GitHub]
02 ноября 2020 года
Sbert-WK: метод встраивания предложения путем рассечения моделей слов на основе Берта
Bin Wang, C.-C. Джей Куо
IEEE/ACM T-ASLP, [Paper] [GitHub]
29 июля 2020 года
Приговор-Берт: встраивание приговора с использованием сиамских берт-сети
Nils Reimers, Iryna Gurevych
EMNLP 2019, [Paper] [GitHub]
27 августа 2019
Bleurt: обучение надежным показателям для генерации текста
Тибо Селлам, Дипанджан Дас, Анкур Парих
ACL 2020, [Paper] [GitHub]
05 июля 2020 года
Bertscore: оценка генерации текста с помощью Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [Paper] [GitHub]
24 февраля 2020 года
На пути к интерпретируемому семантическому текстовому сходству с помощью оптимального транспортного контрастного обучения предложения обучение
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [Paper] [GitHub]
22 мая 2022 года
Simcse: простое контрастное обучение встроенных предложений
Tianyu Gao, Xingcheng Yao, Danqi Chen
EMNLP 2021, [Paper] [GitHub]
03 июня 2021 года
Самостоятельное контрастное обучение для представлений о берт-предложении
Taeuk Kim, Kang Min Yoo, Sang-Goo Lee
ACL 2021, [Paper] [GitHub]
03 июня 2021 года
Consert: контрастная рамка для самоотверженного передачи представления предложения
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
ACL 2021, [Paper] [GitHub]
25 мая 2021 года
Семантическая настройка с контрастным напряжением
Фредрик Карлссон, Амару Куба Джилленстен, Евангелия Гогулу, Эрик Илипая Хелквист, Магнус Сахлгрен
ICLR 2021, [Paper] [GitHub]
03 мая 2021 года
Ясно: контрастное обучение для представления предложения
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao Ma
Arxiv 2020, [Paper]
31 декабря 2020 года
Эволюция семантического сходства - опрос
Dhivya Chandrasekaran, Vijay Mago
ACM Computing Survey 2021, [Paper]
18 февраля 2021 года
Распределения меры семантической дистанции: опрос
Саиф М. Мохаммед, Грэм Херст
Arxiv 2012, [Paper]
8 марта 2012 года
Коэффициент линейной корреляции Пирсона - измерить точность прогноза
где
Коэффициент корреляции рядового порядка Спирмена-измерить монотонность прогнозирования
где
Если вы найдете наш список полезным, пожалуйста, рассмотрите возможность ссылаться на наш репо и инструментарий в своих публикациях. Мы предоставляем запись Bibtex ниже.
@misc { JiaAwesomeSTS23 ,
author = { Jia, Shuyue } ,
title = { Awesome Semantic Textual Similarity } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}
@misc { JiaAwesomeLLM23 ,
author = { Jia, Shuyue } ,
title = { Awesome {LLM} Self-Consistency } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}
@misc { JiaPromptCraft23 ,
author = { Jia, Shuyue } ,
title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}