Impressionante similaridade textual semântica: uma lista com curadoria de similaridade textual semântica/sentença (STS) em modelos de idiomas grandes e no campo NLP
Este repositório, chamado de similaridade textual semântica impressionante , contém uma coleção de recursos e artigos sobre similaridade textual semântica/sentença (STS) em grandes modelos de idiomas e PNL .
" Se você não pode medir, não pode melhorá -lo ." - Físico britânico William Thomson
Bem -vindo ao compartilhar seus documentos, pensamentos e idéias enviando um problema!

Sentença Similaridade Textual: Visão geral da evolução do modelo
Shuyue Jia, Laboratório de Computação Confiável, Universidade de Boston
[Link]
Outubro de 2023
Verifique aqui e aqui para baixar todos os bancos de dados de benchmark abaixo.
STS12 :
Semeval-2012 Tarefa 6: Um piloto sobre similaridade textual semântica
ENEKO AGIRRE, DANIEL CER, MONA DIAB, AITOR GONZALEZ-AGIRRE
Semeval 2012, [Paper] [Download]
07 de junho de 2012
STS13 :
*MEST 2013 Tarefa compartilhada: similaridade textual semântica
ENEKO AGIRRE, DANIEL CER, MONA DIAB, AITOR GONZALEZ-AGIRRE, WEIWEI GUO
*SEM 2013, [Paper] [Download]
13 de junho de 2013
STS14 :
Semeval-2014 Tarefa 10: similaridade textual semântica multilíngue
ENEKO AGIRRE, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Rada Mihalcea, Rigau alemão, Janyce Wiebe
Semeval 2014, [Paper] [Download]
23 de agosto de 2014
STS15 :
Semeval-2015 Tarefa 2: similaridade textual semântica, inglês, espanhol e piloto sobre interpretabilidade
ENEKO AGIRRE, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Iñigo Lopez-Gazpio, Montse Maritxalar, Rada Mihalcea, Rigau German, Larraito, Janyce Wiebe
Semeval 2015, [Paper] [Download]
04 de junho de 2015
STS16 :
Semeval-2016 Tarefa 1: similaridade textual semântica, avaliação monolíngue e cruzada
ENEKO AGIRRE, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, Rigau alemão, Janyce Wiebe
Semeval 2016, [Paper] [Download]
16 de junho de 2016
Benchmark STS (STSB) :
Semeval-2017 Tarefa 1: Similaridade Textual Semântica Avaliação Focada Focada Crosslingual
Daniel Cer, Mona Diab, Eneko Agirre, Iñigo Lopez-Gazpio, Lucia Specia
Semeval 2017, [Paper] [Download]
03 de agosto de 2017
Uma cura doente para a avaliação de modelos semânticos de distribuição composicional
Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, Roberto Zamparelli
LREC 2014, [Paper] [Download]
26 de maio de 2014
Luva: vetores globais para representação de palavras
Jeffrey Pennington, Richard Socher, Christopher Manning
EMNLP 2014, [Paper] [Github]
25 de outubro de 2014
Vetores de pule-pensado
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [Paper] [Github]
22 de junho de 2015
Aprendizagem supervisionada de representações universais de sentenças de dados de inferência de linguagem natural
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barroult, Antoine Bordes
EMNLP 2017, [Paper] [Github]
07 de setembro de 2017
Bert: pré-treinamento de transformadores bidirecionais profundos para compreensão de idiomas
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
NAACL-HLT 2019, [Paper] [Github]
24 de maio de 2019
BertScore: Avaliando a geração de texto com Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [Paper] [Github]
24 de fevereiro de 2020
Bleurt: Aprendendo métricas robustas para geração de texto
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [Paper] [Github]
05 de julho de 2020
Recuperação densiva de passagem para respostas de perguntas ao domínio aberto
Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-Tau Yih
EMNLP 2020, [Paper] [Github]
16 de novembro de 2020
Codificador de frase universal
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaca, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil,
ARXIV 2018, [Paper] [Github]
12 de abril de 2018
Sentença-Bert: incorporações de sentença usando Siamese Bert-Networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [Paper] [Github]
27 de agosto de 2019
Modelagem de interação com palavras em pares com redes neurais profundas para medição semântica de similaridade
Hua ele, Jimmy Lin
NAACL 2016, [papel]
12 de junho de 2016
Correspondência de texto como reconhecimento de imagem
Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, Xueqi Cheng
AAAI 2016, [Paper] [Github]
20 de fevereiro de 2016
Multigrancnn: Uma arquitetura para a correspondência geral de pedaços de texto em vários níveis de granularidade
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
IJCNLP 2015, [Paper]
26 de julho de 2015
Correspondência de texto simples e eficaz com recursos de alinhamento mais ricos
Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji, Haiqing Chen
ACL 2019, [Paper] [Github]
01 de agosto de 2019
Frases semânticas correspondentes a informações recorrentes e co-atentas densamente conectadas
Seonhoon Kim, Ino Kang, Nojun Kwak
AAAI 2019, [Paper] [Github (não oficial)]
27 de janeiro de 2019
Redes de atenção multi -via para modelar pares de frases
Chuanqi Tan, Furu Wei, Wenhui Wang, Weifeng LV, Ming Zhou
IJCAI 2018, [Paper] [Github]
13 de julho de 2018
Inferência de linguagem natural sobre o espaço de interação
Yichen Gong, Heng Luo, Jian Zhang
EMNLP 2017, [Paper] [Github]
13 de setembro de 2017
Rede de alinhamento inter-ponderada para modelagem de pares de frases
Gehui Shen, Yunlun Yang, Zhi-Hong Deng
EMNLP 2017, [Paper]
07 de setembro de 2017
Fluxo de atenção bidirecional para compreensão da máquina
Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi
ICLR 2017, [Paper] [Página da Web] [Github]
24 de abril de 2017
Uma sentença auto-atenta estruturada incorporando
Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio
EMNLP 2017, [Paper] [Github]
09 de março de 2017
Aprendizagem de similaridade da frase por decomposição e composição lexical
Zhiguo Wang, Haitao MI, Abraham IttyCheriah
Coling 2016, [Paper] [Github]
11 de dezembro de 2016
Um modelo de atenção decomposição para inferência de linguagem natural
Ankur Parikh, Oscar Täckström, Dipanjan Das, Jakob Uszkoreit
EMNLP 2016, [Paper] [Github]
01 de novembro de 2016
Raciocínio sobre a falta de atenção neural
Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Phil Blunsom
ICLR 2016, [Paper] [Github]
1 de março de 2016
DLS@Cu: similaridade da frase do alinhamento de palavras e composição vetorial semântica
MD Arafat Sultan, Steven Bethard, Tamara Sumner
Semeval 2015, [artigo]
04 de junho de 2015
De volta ao básico para o alinhamento monolíngue: explorando a similaridade das palavras e evidências contextuais
MD Arafat Sultan, Steven Bethard, Tamara Sumner
TACL 2014, [Paper]
01 de maio de 2014
Melhorando a distância do Mover de palavras, alavancando a matriz de auto-ataque
Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira
EMNLP 2023 ACLUTAS, [Paper] [GitHub]
02 de novembro de 2023
Rumo à similaridade textual semântica interpretável por meio de aprendizado ideal de frases contrastivas baseadas em transporte
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [Paper] [Github]
22 de maio de 2022
Distância do rotador de palavras
Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui
EMNLP 2020, [Paper] [Github]
16 de novembro de 2020
MoverScore: geração de texto avaliando com incorporações contextualizadas e distância da terra
Wei Zhao, Maxime Peyard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger
EMNLP 2019, [Paper] [Github]
03 de novembro de 2019
De incorporações de palavras para documentar distâncias
Matt Kusner, Yu Sun, Nicholas Kolkin, Kilian Weinberger
ICML 2015, [Paper] [Github]
06 de julho de 2015
Sentença de caminhada aleatória não supervisionada: uma linha de base forte, mas simples, mas simples
Kawin Etayarajh
Repl4nlp 2018, [Paper] [Github]
20 de julho de 2018
Uma estrutura eficiente para representações de sentenças de aprendizado
Lajanugen Logeswaran, Honglak Lee
ICLR 2018, [Paper] [Github]
30 de abril de 2018
Codificador de frase universal
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaca, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil,
ARXIV 2018, [Paper] [Github]
12 de abril de 2018
Aprendizagem supervisionada de representações universais de sentenças de dados de inferência de linguagem natural
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barroult, Antoine Bordes
EMNLP 2017, [Paper] [Github]
07 de setembro de 2017
Uma linha de base simples, mas difícil de vencer para incorporações de sentença
Sanjeev Arora, Yingyu Liang, Tengyu MA
ICLR 2017, [Paper] [Github]
06 de fevereiro de 2017
Aprendizagem distribuída Representações de frases de dados não marcados
Felix Hill, Kyunghyun Cho, Anna Korhonen
NAACL 2016, [Paper] [Github (não oficial)]
12 de junho de 2016
Vetores de pule-pensado
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [Paper] [Github]
22 de junho de 2015
Representações distribuídas de frases e documentos
Quoc V. Le, Tomas Mikolov
ICML 2014, [Paper]
21 de junho de 2014
Representações de sentenças de clareamento para melhor semântica e recuperação mais rápida
Jianlin Su, Jiarun Cao, Weijie Liu, Yangyiwen ou
Arxiv 2021, [Paper] [Github (Tensorflow)] [Github (Pytorch)]
29 de março de 2021
Nas incorporações da frase de modelos de idiomas pré-treinados
Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li
EMNLP 2020, [Paper] [Github]
02 de novembro de 2020
Sbert-WK: Um método de incorporação de frase dissecando modelos de palavras baseados em Bert
Bin Wang, C.-C. Jay Kuo
IEEE/ACM T-ASLP, [Paper] [GitHub]
29 de julho de 2020
Sentença-Bert: incorporações de sentença usando Siamese Bert-Networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [Paper] [Github]
27 de agosto de 2019
Bleurt: Aprendendo métricas robustas para geração de texto
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [Paper] [Github]
05 de julho de 2020
BertScore: Avaliando a geração de texto com Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [Paper] [Github]
24 de fevereiro de 2020
Rumo à similaridade textual semântica interpretável por meio de aprendizado ideal de frases contrastivas baseadas em transporte
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [Paper] [Github]
22 de maio de 2022
SIMCSE: Aprendizagem contrastiva simples de incorporações de sentença
Tianyu Gao, Xingcheng Yao, Danqi Chen
EMNLP 2021, [Paper] [Github]
03 de junho de 2021
Aprendizagem contrastiva autoguiada para representações de frases de Bert
Taeuk Kim, Kang Min Yoo, Sang-Goo Lee
ACL 2021, [Paper] [Github]
03 de junho de 2021
Consert: Uma estrutura contrastiva para transferência de representação de sentença auto-supervisionada
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
ACL 2021, [Paper] [Github]
25 de maio de 2021
Re-ajuste semântico com tensão contrastiva
Fredrik Carlsson, Amaru Cuba Gyllensten, Evangelia Gogoulou, Erik Ylipä Hellqvist, Magnus Sahlgren
ICLR 2021, [Paper] [Github]
03 de maio de 2021
Claro: aprendizado contrastante para representação de frases
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao Ma
Arxiv 2020, [papel]
31 de dezembro de 2020
Evolução da similaridade semântica - uma pesquisa
Dhivya Chandrasekaran, Vijay Mago
Pesquisa de Computação ACM 2021, [Paper]
18 de fevereiro de 2021
Medidas de distribuição de distância semântica: uma pesquisa
Saif M. Mohammad, Graeme Hirst
Arxiv 2012, [artigo]
8 de março de 2012
Coeficiente de correlação linear Pearson - Meça a precisão da previsão
onde
O coeficiente de correlação de ordem de Spearman-meça a monotonicidade da previsão
onde
Se você achar útil nossa lista, considere citar nosso repositório e kit de ferramentas em suas publicações. Fornecemos uma entrada Bibtex abaixo.
@misc { JiaAwesomeSTS23 ,
author = { Jia, Shuyue } ,
title = { Awesome Semantic Textual Similarity } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}
@misc { JiaAwesomeLLM23 ,
author = { Jia, Shuyue } ,
title = { Awesome {LLM} Self-Consistency } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}
@misc { JiaPromptCraft23 ,
author = { Jia, Shuyue } ,
title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}