Fantastische semantische textuelle Ähnlichkeit: Eine kuratierte Liste der semantischen/Satztexte textuelle Ähnlichkeit (STS) in Großsprachenmodellen und im NLP -Feld
Dieses Repository, das als Awesome Semantic Textual -Ähnlichkeit bezeichnet wird, enthält eine Sammlung von Ressourcen und Papieren zur Semantik-/Satztextenzusgleichheit (STS) in Großsprachenmodellen und NLP .
" Wenn Sie es nicht messen können, können Sie es nicht verbessern ." - Britischer Physiker William Thomson
Willkommen, Ihre Papiere, Gedanken und Ideen zu teilen, indem Sie ein Problem einreichen!

Satztextähnlichkeit: Modellentwicklungsübersicht
Shuyue Jia, zuverlässiges Computerlabor, Universität Boston
[Link]
Okt 2023
Bitte überprüfen Sie hier und hier, um alle Benchmark -Datenbanken unten herunterzuladen.
STS12 :
Semeval-2012 Aufgabe 6: Ein Pilot für semantische textuelle Ähnlichkeit
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre
Semeval 2012, [Papier] [Download]
07. Juni 2012
STS13 :
*SEM 2013 Shared Task: Semantische textuelle Ähnlichkeit
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo
*REM 2013, [Papier] [Download]
13. Juni 2013
STS14 :
Semeval-2014 Aufgabe 10: Mehrsprachige semantische textuelle Ähnlichkeit
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Rada Mihalcea, Deutsche Rigau, Janyce Wiebe
Semeval 2014, [Papier] [Download]
23. August 2014
STS15 :
Semeval-2015 Aufgabe 2: Semantische textuelle Ähnlichkeit, Englisch, Spanisch und Pilot für die Interpretierbarkeit
Eneko Agirre, Carmen BANEA, CLAIRE CARDIE, DANIEL CER, MONA Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Iñigo Lopez-Gazpio, Montse Maritxalar, Rada Mihalcea, achnungsvoll
Semeval 2015, [Papier] [Download]
04. Juni 2015
STS16 :
Semeval-2016 Aufgabe 1: Semantische textuelle Ähnlichkeit, einsprachige und bringliche Bewertung
Eneko Agirre, Carmen Banea, Daniel CER, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, Deutsche Rigau, Janyce Wiebe
Semeval 2016, [Papier] [Download]
16. Juni 2016
STS -Benchmark (STSB) :
Semeval-2017 Aufgabe 1: Semantische textuelle Ähnlichkeit Mehrsprachiger und Kreuzungsfokussierter Bewertung
Daniel Cer, Mona Diab, Eneko Agirre, Iñigo Lopez-Gazpio, Lucia Specia
Semeval 2017, [Papier] [Download]
03. August 2017
Ein krankes Heilmittel für die Bewertung von semantischen Modellen der Zusammensetzung verteilte sich
Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, Roberto Zamparelli
LREC 2014, [Papier] [Download]
26. Mai 2014
Handschuh: Globale Vektoren für Wortrepräsentation
Jeffrey Pennington, Richard Socker, Christopher Manning
EMNLP 2014, [Papier] [GitHub]
25. Oktober 2014
Vektoren überspringen
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [Papier] [Github]
22. Juni 2015
Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barault, Antoine Bordes
EMNLP 2017, [Papier] [GitHub]
07. September 2017
Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
NAACL-HLT 2019, [Papier] [GitHub]
24. Mai 2019
Bertscore: Bewertung der Textgenerierung mit Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav artzi
ICLR 2020, [Papier] [GitHub]
24. Februar 2020
BLEURT: Lernen robuste Metriken für die Textgenerierung
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [Papier] [Github]
05. Juli 2020
Dichte Durchgangsabruf für die Beantwortung von Fragen zur Beantwortung offener Domänen
Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-Tau Yih
EMNLP 2020, [Papier] [GitHub]
16. November 2020
Universeller Satz Encoder
Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
ARXIV 2018, [Papier] [Github]
12. April 2018
Satzbert: Satz Einbettungen mit siamesischer Bert-Networks
Nils Reimer, Iryna Gurevych
EMNLP 2019, [Papier] [GitHub]
27. August 2019
Paarweise Word -Interaktionsmodellierung mit tiefen neuronalen Netzwerken für die messung der semantischen Ähnlichkeit
Hua er, Jimmy Lin
NAACL 2016, [Papier]
12. Juni 2016
Textübereinstimmung als Bilderkennung
Liang Pang, Yanyan Lan, Jifeng Guo, Jun Xu, Shengxian Wan, Xueqi Cheng
AAAI 2016, [Papier] [Github]
20. Februar 2016
Multigrancnn: Eine Architektur für die allgemeine Übereinstimmung von Textbrocken auf mehreren Granularitätsebenen
Myeongjun Jang, Deuk Sin Kwon, Thomas LukaSiewicz
IJCNLP 2015, [Papier]
26. Juli 2015
Einfache und effektive Textübereinstimmung mit reicheren Ausrichtungsfunktionen
Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji, Haiqing Chen
ACL 2019, [Papier] [Github]
01. August 2019
Semantische Satzung mit dicht vernetzten wiederkehrenden und ko-achtenden Informationen
Seonhoon Kim, Inho Kang, Nojun Kwak
AAAI 2019, [Papier] [Github (inoffiziell)]
27. Januar 2019
Multiway -Aufmerksamkeitsnetzwerke zum Modellieren von Satzpaaren
Chuanqi Tan, Furu Wei, Wenhui Wang, Weifeng LV, Ming Zhou
IJCAI 2018, [Papier] [GitHub]
13. Juli 2018
Inferenz der natürlichen Sprache über Interaktionsraum
Yichen Gong, Heng Luo, Jian Zhang
EMNLP 2017, [Papier] [GitHub]
13. September 2017
Inter-gewichteter Ausrichtungsnetzwerk für die Satzpaarmodellierung
Gehui Shen, Yunlun Yang, Zhi-Hong Deng
EMNLP 2017, [Papier]
07. September 2017
Bidirektionaler Aufmerksamkeitfluss für das Maschinenverständnis
Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi
ICLR 2017, [Papier] [Webseite] [GitHub]
24. April 2017
Eine strukturierte selbstattentive Satzeinbettung
Zhouhan Lin, Minwei Feng, Cicero Nogueira Dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio
EMNLP 2017, [Papier] [GitHub]
09. März 2017
Lernen der Satz Ähnlichkeit durch lexikalische Zerlegung und Zusammensetzung
Zhiguo Wang, Haitao MI, Abraham Ittycheriah
Coling 2016, [Papier] [Github]
11. Dezember 2016
Ein dezentierbares Aufmerksamkeitsmodell für die Inferenz für natürliche Sprache
Ankur Parikh, Oscar Täckström, Dipanjan Das, Jakob Uszkoreit
EMNLP 2016, [Papier] [GitHub]
01. November 2016
Argumentation über die Einbeziehung der neuronalen Aufmerksamkeit
Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiskett, Phil Blunsom
ICLR 2016, [Papier] [GitHub]
1. März 2016
DLS@CU: Satz Ähnlichkeit aus Wortausrichtung und semantische Vektorzusammensetzung
MD Arafat Sultan, Steven Bethard, Tamara Sumner
Semeval 2015, [Papier]
04. Juni 2015
Zurück zu den Grundlagen für einsprachige Ausrichtung: Ausnutzung von Wort Ähnlichkeit und kontextbezogenen Beweisen
MD Arafat Sultan, Steven Bethard, Tamara Sumner
TACL 2014, [Papier]
01. Mai 2014
Verbesserung der Distanz von Word Mover durch Nutzung der Selbstbekämpfung Matrix
Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira
EMNLP 2023 Befunde, [Papier] [GitHub]
02 Nov 2023
Auf dem Weg zu interpretierbarem semantischen textuellen Ähnlichkeit durch optimales transportbasiertes kontrastives Satzlernen
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [Papier] [GitHub]
22. Mai 2022
Abstand des Wortrotators
Sho Yokoi, Ryo Takahashi, Reina Akamama, Jun Suzuki, Kentaro Inui
EMNLP 2020, [Papier] [GitHub]
16. November 2020
MOVERSCORE: Textgenerierung mit kontextualisierten Einbettungen und Erdbohrerentfernung bewertet
Wei Zhao, Maxime Pyrard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger
EMNLP 2019, [Papier] [GitHub]
03. November 2019
Aus Word -Einbettungen, um Entfernungen zu dokumentieren
Matt Kusner, Yu Sun, Nicholas Kolkin, Kilian Weinberger
ICML 2015, [Papier] [GitHub]
06. Juli 2015
Unbeaufsichtigtes Zufalls Walk -Satz Einbettung: Eine starke, aber einfache Grundlinie
Kawin Ethayarajh
Repl4NLP 2018, [Papier] [GitHub]
20. Juli 2018
Ein effizienter Rahmen für Lernsatzdarstellungen
Lajanugen Logeswaran, Honglak Lee
ICLR 2018, [Papier] [GitHub]
30. April 2018
Universeller Satz Encoder
Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
ARXIV 2018, [Papier] [Github]
12. April 2018
Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barault, Antoine Bordes
EMNLP 2017, [Papier] [GitHub]
07. September 2017
Eine einfache, aber schwer zu tragende Grundlinie für Satzeinbettungen
Sanjeev Arora, Yingyu Liang, Tengyu Ma
ICLR 2017, [Papier] [GitHub]
06. Februar 2017
Lernen verteilte Darstellungen von Sätzen aus unbeschriebenen Daten
Felix Hill, Kyunghyun Cho, Anna Korhonen
NAACL 2016, [Papier] [Github (inoffiziell)]
12. Juni 2016
Vektoren überspringen
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [Papier] [Github]
22. Juni 2015
Verteilte Darstellungen von Sätzen und Dokumenten
Quoc V. Le, Tomas Mikolov
ICML 2014, [Papier]
21. Juni 2014
Whitening -Satzrepräsentationen für bessere Semantik und schnelleres Abruf
Jianlin Su, Jiarun Cao, Weijie Liu, Yangyiwen OU
ARXIV 2021, [Papier] [Github (TensorFlow)] [Github (Pytorch)]
29 März 2021
Auf dem Satz Einbettung von vorgeborenen Sprachmodellen
Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li
EMNLP 2020, [Papier] [GitHub]
02 Nov 2020
Sbert-WK: Eine Satzverbindungsmethode durch Präparieren von Bert-basierten Wortmodellen
Bin Wang, C.-C. Jay Kuo
IEEE/ACM T-ASLP, [Papier] [GitHub]
29. Juli 2020
Satzbert: Satz Einbettungen mit siamesischer Bert-Networks
Nils Reimer, Iryna Gurevych
EMNLP 2019, [Papier] [GitHub]
27. August 2019
BLEURT: Lernen robuste Metriken für die Textgenerierung
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [Papier] [Github]
05. Juli 2020
Bertscore: Bewertung der Textgenerierung mit Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav artzi
ICLR 2020, [Papier] [GitHub]
24. Februar 2020
Auf dem Weg zu interpretierbarem semantischen textuellen Ähnlichkeit durch optimales transportbasiertes kontrastives Satzlernen
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [Papier] [GitHub]
22. Mai 2022
SIMCSE: Einfach kontrastives Lernen von Satzeinbettungen
Tianyu Gao, Xingcheng Yao, Danqi Chen
EMNLP 2021, [Papier] [GitHub]
03 Jun 2021
Selbstgeführtes kontrastives Lernen für Bert-Satzdarstellungen
Taeuk Kim, Kang Min Yoo, Sang-Goo Lee
ACL 2021, [Papier] [GitHub]
03 Jun 2021
Konsert: Ein kontrastiver Rahmen für die Übertragung der selbstbewerteten Satzdarstellung
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
ACL 2021, [Papier] [GitHub]
25. Mai 2021
Semantische Wiedereinstellung mit kontrastiven Spannungen
Fredrik Carlsson, Amaru Kuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren
ICLR 2021, [Papier] [GitHub]
03. Mai 2021
Klar: Kontrastives Lernen für die Satzrepräsentation
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao MA
ARXIV 2020, [Papier]
31. Dezember 2020
Entwicklung der semantischen Ähnlichkeit - eine Umfrage
Dhivya Chandrasekaran, Vijay Mago
ACM Computing Survey 2021, [Papier]
18. Februar 2021
Verteilungsmaßnahmen der semantischen Entfernung: Eine Umfrage
Saif M. Mohammad, Graeme Hirst
Arxiv 2012, [Papier]
8. März 2012
Pearson Linear Korrelationskoeffizient - Messen Sie die Vorhersagegenauigkeit
Wo
Spearmans Korrelationskoeffizient von Rangreihenfolge-Messen Sie die Vorhersagemonotonizität
Wo
Wenn Sie unsere Liste nützlich finden, erwägen Sie bitte unser Repo und Toolkit in Ihren Veröffentlichungen. Wir bieten unten einen Bibtex -Eintrag.
@misc { JiaAwesomeSTS23 ,
author = { Jia, Shuyue } ,
title = { Awesome Semantic Textual Similarity } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}
@misc { JiaAwesomeLLM23 ,
author = { Jia, Shuyue } ,
title = { Awesome {LLM} Self-Consistency } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}
@misc { JiaPromptCraft23 ,
author = { Jia, Shuyue } ,
title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}