Awesome Semantic Textual similitude: une liste organisée de similitude textuelle sémantique / phrase (STS) dans les modèles de grande langue et le champ NLP
Ce référentiel, appelé similitude textuelle sémantique impressionnante , contient une collection de ressources et de papiers sur la similitude textuelle sémantique / phrase (STS) dans les modèles de grande langue et la PNL .
" Si vous ne pouvez pas le mesurer, vous ne pouvez pas l'améliorer ." - Physicien britannique William Thomson
Bienvenue pour partager vos papiers, vos pensées et vos idées en soumettant un problème!

Similitude textuelle de la phrase: aperçu de l'évolution du modèle
Shuyue Jia, laboratoire informatique fiable, Université de Boston
[Lien]
Octobre 2023
Veuillez vérifier ici et ici pour télécharger toutes les bases de données de référence ci-dessous.
STS12 :
SEMEVAL-2012 Tâche 6: un pilote sur la similitude textuelle sémantique
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre
Semeval 2012, [Paper] [Téléchargement]
07 juin 2012
STS13 :
* Tâche partagée SEM 2013: similitude textuelle sémantique
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo
* SEM 2013, [Paper] [Téléchargement]
13 juin 2013
STS14 :
SEMEVAL-2014 Tâche 10: similitude textuelle sémantique multilingue
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Rada Mihalcea, German Rigau, Janyce Wiebe
Semeval 2014, [Paper] [Téléchargement]
23 août 2014
STS15 :
SEMEVAL-2015 Tâche 2: similitude textuelle sémantique, anglais, espagnol et pilote sur l'interprétabilité
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Iñigo Lopez-Gazpio, Montse Maritxalar, Rada Mihalcea, German Rigau, Larraitz Uria, Janyce Wiebebe
Semeval 2015, [Paper] [Téléchargement]
04 juin 2015
STS16 :
SEMEVAL-2016 Tâche 1: similitude textuelle sémantique, évaluation monolingue et inter-greatrice
Eneko Agirre, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, allemand Rigau, Janyce Wiebe
Semeval 2016, [Paper] [Téléchargement]
16 juin 2016
Benchmark STS (STSB) :
SEMEVAL-2017 Tâche 1: similitude textuelle sémantique Évaluation axée sur les multilingues et les crosslingues
Daniel Cer, Mona Diab, Eneko Agirre, Iñigo Lopez-Gazpio, Lucia Specia
Semeval 2017, [Paper] [Téléchargement]
03 août 2017
Un remède malade pour l'évaluation des modèles sémantiques distributionnels de composition
Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, Roberto Zamparelli
LREC 2014, [Paper] [Téléchargement]
26 mai 2014
Gant: vecteurs mondiaux pour la représentation des mots
Jeffrey Pennington, Richard Socher, Christopher Manning
EMNLP 2014, [papier] [GitHub]
25 octobre 2014
Vecteurs à saut
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neirips 2015, [papier] [github]
22 juin 2015
Apprentissage supervisé des représentations de phrases universelles à partir des données d'inférence du langage naturel
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
EMNLP 2017, [papier] [Github]
07 septembre 2017
Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
NAACL-HLT 2019, [Paper] [GitHub]
24 mai 2019
Bertscore: évaluation de la génération de texte avec Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [papier] [GitHub]
24 février 2020
Bleurt: Apprendre des mesures robustes pour la génération de texte
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [papier] [GitHub]
05 juillet 2020
Récupération de passage dense pour répondre aux questions du domaine ouvert
Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-Tau Yih
EMNLP 2020, [papier] [github]
16 novembre 2020
Encodeur de phrases universel
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Ccespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
Arxiv 2018, [papier] [Github]
12 avril 2018
Phrase-bert: phrase incorpores utilisant siamois bert-networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [papier] [GitHub]
27 août 2019
Modélisation d'interaction par paires avec des réseaux de neurones profonds pour une mesure de similitude sémantique
Hua He, Jimmy Lin
NAACL 2016, [papier]
12 juin 2016
Correspondant au texte comme reconnaissance d'image
Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, Xueqi Cheng
AAAI 2016, [papier] [Github]
20 février 2016
Multigrancnn: une architecture pour l'appariement général des morceaux de texte à plusieurs niveaux de granularité
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
IJCNLP 2015, [papier]
26 juillet 2015
Correspondant de texte simple et efficace avec des fonctionnalités d'alignement plus riches
Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji, Haiqing Chen
ACL 2019, [papier] [GitHub]
01 août 2019
Assortissement de phrase sémantique avec des informations récurrentes et co-affirmées densément connectées
Seonhoon Kim, Inho Kang, Nojun Kwak
AAAI 2019, [Paper] [GitHub (non officiel)]
27 janvier 2019
Réseaux d'attention multi-voies pour la modélisation des paires de phrases
Chuanqi Tan, Furu Wei, Wenhui Wang, Weifeng LV, Ming Zhou
Ijcai 2018, [papier] [Github]
13 juillet 2018
Inférence du langage naturel sur l'espace d'interaction
Yichen Gong, Heng Luo, Jian Zhang
EMNLP 2017, [papier] [Github]
13 septembre 2017
Réseau d'alignement pondéré pour la modélisation des paires de phrases
Gehui Shen, Yunlun Yang, Zhi-Hong Deng
EMNLP 2017, [papier]
07 septembre 2017
Flux d'attention bidirectionnel pour la compréhension de la machine
Minjoon SEO, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi
ICLR 2017, [Paper] [Web] [GitHub]
24 avril 2017
Une phrase auto-attentive structurée incorporant
Zhouhan Lin, Minwei Feng, Cicéron Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio
EMNLP 2017, [papier] [Github]
09 mars 2017
Apprentissage de la similitude des phrases par décomposition et composition lexicale
Zhiguo Wang, Haitao MI, Abraham Ittycheriah
Coling 2016, [papier] [Github]
11 décembre 2016
Un modèle d'attention décomposable pour l'inférence du langage naturel
Ankur Parikh, Oscar Täckström, Dipanjan Das, Jakob Uszkoreit
EMNLP 2016, [papier] [GitHub]
01 novembre 2016
Raisonnement sur l'implication de l'attention neuronale
Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Phil Blunsom
ICLR 2016, [papier] [GitHub]
1 mars 2016
Dls @ cu: similitude de phrase à partir de l'alignement des mots et de la composition vectorielle sémantique
MD Arafat Sultan, Steven Bethard, Tamara Sumner
Semeval 2015, [papier]
04 juin 2015
Retour aux bases pour l'alignement monolingue: exploiter la similitude des mots et les preuves contextuelles
MD Arafat Sultan, Steven Bethard, Tamara Sumner
TACL 2014, [papier]
01 mai 2014
Améliorer la distance de Word Mover en tirant parti de la matrice d'auto-agencement
Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira
Résultats EMNLP 2023, [papier] [github]
02 novembre 2023
Vers une similitude textuelle sémantique interprétable via l'apprentissage optimal des phrases contrastées basées sur le transport
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [papier] [github]
22 mai 2022
Distance du rotateur des mots
Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui
EMNLP 2020, [papier] [github]
16 novembre 2020
Moverscore: Génération de texte évaluant avec des incorporations contextualisées et une distance de déménageur de terre
Wei Zhao, Maxime Peyrard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger
EMNLP 2019, [papier] [GitHub]
03 novembre 2019
Des intégres de mots pour documenter les distances
Matt Kusner, Yu Sun, Nicholas Kolkin, Kilian Weinberger
ICML 2015, [papier] [GitHub]
06 juillet 2015
Intégration de phrases aléatoires non surveillées: une base de base forte mais simple
Kawin Ethayarajh
REPL4NLP 2018, [Paper] [GitHub]
20 juillet 2018
Un cadre efficace pour l'apprentissage des représentations de phrases
Lajanugen Logeswaran, Honglak Lee
ICLR 2018, [papier] [Github]
30 avril 2018
Encodeur de phrases universel
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Ccespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
Arxiv 2018, [papier] [Github]
12 avril 2018
Apprentissage supervisé des représentations de phrases universelles à partir des données d'inférence du langage naturel
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
EMNLP 2017, [papier] [Github]
07 septembre 2017
Une base de référence simple mais difficile à rythmer pour les intérêts des phrases
Sanjeev Arora, Yingyu Liang, Tengyu MA
ICLR 2017, [papier] [GitHub]
06 février 2017
Apprentissage des représentations distribuées des phrases à partir de données non marquées
Felix Hill, Kyunghyun Cho, Anna Korhonen
NAACL 2016, [Paper] [GitHub (non officiel)]
12 juin 2016
Vecteurs à saut
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neirips 2015, [papier] [github]
22 juin 2015
Représentations distribuées des phrases et des documents
Quoc V. LE, Tomas Mikolov
ICML 2014, [papier]
21 juin 2014
Blantir les représentations des phrases pour une meilleure sémantique et une récupération plus rapide
Jianlin Su, Jiarun Cao, Weijie Liu, Yangyiwen OU
Arxiv 2021, [papier] [github (TensorFlow)] [github (pytorch)]
29 mars 2021
Sur les intérêts de phrase à partir de modèles de langue pré-formés
Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li
EMNLP 2020, [papier] [github]
02 novembre 2020
SBERT-WK: Une méthode d'incorporation de phrase en disséquant des modèles de mots basés sur Bert
Bin Wang, C.-C. Jay Kuo
IEEE / ACM T-ASLP, [papier] [GitHub]
29 juillet 2020
Phrase-bert: phrase incorpores utilisant siamois bert-networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [papier] [GitHub]
27 août 2019
Bleurt: Apprendre des mesures robustes pour la génération de texte
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [papier] [github]
05 juillet 2020
Bertscore: évaluation de la génération de texte avec Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [papier] [GitHub]
24 février 2020
Vers une similitude textuelle sémantique interprétable via l'apprentissage optimal des phrases contrastées basées sur le transport
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [papier] [github]
22 mai 2022
SIMCSE: Apprentissage contrastif simple des intérêts des phrases
Tianyu Gao, Xingcheng Yao, Danqi Chen
EMNLP 2021, [papier] [github]
03 juin 2021
Apprentissage contrastif autoguidé pour les représentations de phrases bert
Taeuk Kim, Kang Min Yoo, Sang-Goo Lee
ACL 2021, [papier] [github]
03 juin 2021
Consert: un cadre contrastif pour le transfert de représentation de phrases auto-supervisé
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
ACL 2021, [papier] [github]
25 mai 2021
Repassement sémantique avec tension contrastive
Fredrik Carlsson, Amaru Cuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren
ICLR 2021, [papier] [GitHub]
03 mai 2021
Clear: apprentissage contrastif pour la représentation des phrases
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao MA
Arxiv 2020, [papier]
31 décembre 2020
Évolution de la similitude sémantique - une enquête
Dhivya Chandrasekaran, Vijay Mago
ACM Computing Survey 2021, [document]
18 février 2021
Mesures de distribution de la distance sémantique: une enquête
Saif M. Mohammad, Graeme Hirst
Arxiv 2012, [papier]
8 mars 2012
Coefficient de corrélation linéaire de Pearson - mesure la précision de prédiction
où
Coefficient de corrélation d'ordre de rang de Spearman - Mesurez la monotonie de prédiction
où
Si vous trouvez notre liste utile, veuillez envisager de citer notre référentiel et notre boîte à outils dans vos publications. Nous fournissons une entrée Bibtex ci-dessous.
@misc { JiaAwesomeSTS23 ,
author = { Jia, Shuyue } ,
title = { Awesome Semantic Textual Similarity } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}
@misc { JiaAwesomeLLM23 ,
author = { Jia, Shuyue } ,
title = { Awesome {LLM} Self-Consistency } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}
@misc { JiaPromptCraft23 ,
author = { Jia, Shuyue } ,
title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}