Kesamaan tekstual semantik yang luar biasa: Daftar kesamaan tekstual semantik/kalimat (STS) dalam model bahasa besar dan bidang NLP
Repositori ini, yang disebut kesamaan tekstual semantik yang luar biasa , berisi kumpulan sumber daya dan makalah tentang kesamaan tekstual semantik/kalimat (STS) dalam model bahasa besar dan NLP .
" Jika Anda tidak dapat mengukurnya, Anda tidak dapat memperbaikinya ." - Fisikawan Inggris William Thomson
Selamat datang untuk membagikan makalah, pemikiran, dan ide Anda dengan mengirimkan masalah!

Kalimat Kesamaan Tekstual: Tinjauan Evolusi Model
Shuyue Jia, Laboratorium Komputasi Tergantung, Universitas Boston
[Link]
Oktober 2023
Silakan periksa di sini dan di sini untuk mengunduh semua database benchmark di bawah ini.
STS12 :
Tugas Semeval-2012 6: Pilot tentang Kesamaan Tekstual Semantik
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre
Semeval 2012, [kertas] [Unduh]
07 Juni 2012
STS13 :
*SEM 2013 Tugas Bersama: Kesamaan tekstual semantik
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo
*SEM 2013, [kertas] [Unduh]
13 Juni 2013
STS14 :
SEMEVAL-2014 Tugas 10: Kesamaan tekstual semantik multibahasa
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Rada Mihalcea, Jerman Rigau, Janyce Wiebe
Semeval 2014, [kertas] [Unduh]
23 Agustus 2014
STS15 :
SEMEVAL-2015 Tugas 2: Kesamaan tekstual semantik, Inggris, Spanyol dan pilot tentang interpretabilitas
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Iñigo Lopez-Gazpio, Montse Maritxalar, Rada Mihalcea, German Rigau, Larraitz Uria, Janyce Wiebe
Semeval 2015, [kertas] [Unduh]
04 Juni 2015
STS16 :
SEMEVAL-2016 Tugas 1: Kesamaan tekstual semantik, evaluasi monolingual dan lintas-bahasa
Eneko Agirre, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, Jerman Rigau, Janyce Wiebe
Semeval 2016, [kertas] [Unduh]
16 Juni 2016
STS Benchmark (STSB) :
SEMEVAL-2017 Tugas 1: Evaluasi Kesamaan Tekstual Semantual Multilingual dan Crosslingual Fokus
Daniel Cer, Mona Diab, Eneko Agirre, Iñigo Lopez-Gazpio, Lucia Specia
Semeval 2017, [kertas] [Unduh]
03 Agustus 2017
Obat yang sakit untuk evaluasi model semantik distribusi komposisi
Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, Roberto Zamparelli
LREC 2014, [kertas] [Unduh]
26 Mei 2014
Sarung Tangan: Vektor Global untuk Representasi Kata
Jeffrey Pennington, Richard Socher, Christopher Manning
EMNLP 2014, [kertas] [GitHub]
25 Okt 2014
Vektor Skip-berpikir
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [kertas] [GitHub]
22 Juni 2015
Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
EMNLP 2017, [kertas] [GitHub]
07 September 2017
Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
NAACL-HLT 2019, [kertas] [GitHub]
24 Mei 2019
Bertscore: Mengevaluasi Pembuatan Teks dengan Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [kertas] [GitHub]
24 Feb 2020
Bleurt: Belajar metrik yang kuat untuk pembuatan teks
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [kertas] [GitHub]
05 Juli 2020
Pengambilan bagian yang padat untuk menjawab pertanyaan domain terbuka
Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-Tau Yih
EMNLP 2020, [kertas] [GitHub]
16 Nov 2020
Encoder Kalimat Universal
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
ARXIV 2018, [kertas] [GitHub]
12 Apr 2018
Kalimat-Bert: Embeddings Kalimat Menggunakan Siames Bert-Networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [kertas] [GitHub]
27 Agustus 2019
Pemodelan interaksi kata berpasangan dengan jaringan saraf dalam untuk pengukuran kesamaan semantik
Hua He, Jimmy Lin
NAACL 2016, [kertas]
12 Juni 2016
Pencocokan teks sebagai pengenalan gambar
Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, Xueqi Cheng
Aaai 2016, [kertas] [GitHub]
20 Feb 2016
Multigrancnn: Arsitektur untuk Pencocokan Umum Potongan Teks pada Berbagai Tingkat Granularity
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
IJCNLP 2015, [kertas]
26 Juli 2015
Pencocokan teks sederhana dan efektif dengan fitur perataan yang lebih kaya
Runqi Yang, Jianhai Zhang, Xing Gao, Feng JI, Haiqing Chen
ACL 2019, [kertas] [GitHub]
01 Agustus 2019
Pencocokan kalimat semantik dengan informasi berulang dan co-perhatian yang terhubung padat
Seonhoon Kim, Inho Kang, Nojun Kwak
AAAI 2019, [kertas] [GitHub (tidak resmi)]
27 Januari 2019
Jaringan Perhatian Multiway untuk Pemodelan Pasangan Kalimat
Chuanqi Tan, Furu Wei, Wenhui Wang, Weifeng LV, Ming Zhou
IJCAI 2018, [kertas] [GitHub]
13 Juli 2018
Kesimpulan bahasa alami atas ruang interaksi
Yichen Gong, Heng Luo, Jian Zhang
EMNLP 2017, [kertas] [GitHub]
13 Sep 2017
Jaringan Penyelarasan Antar-Berwerean untuk Pemodelan Pasangan Kalimat
Gehui Shen, Yunlun Yang, Zhi-Hong Deng
EMNLP 2017, [kertas]
07 September 2017
Aliran perhatian dua arah untuk pemahaman mesin
Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi
ICLR 2017, [kertas] [halaman web] [GitHub]
24 Apr 2017
Sebuah kalimat yang terstruktur melahirkan diri
Zhouhan Lin, Minwei Feng, Cicero Nogueira Dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio
EMNLP 2017, [kertas] [GitHub]
09 Mar 2017
Kalimat Kesamaan Pembelajaran dengan dekomposisi dan komposisi leksikal
Zhiguo Wang, Haitao MI, Abraham Ittycheriah
Coling 2016, [kertas] [GitHub]
11 Des 2016
Model perhatian yang dapat diuraikan untuk inferensi bahasa alami
Ankur Parikh, Oscar Täckström, Dipanjan Das, Jakob Uszkoreit
EMNLP 2016, [kertas] [GitHub]
01 Nov 2016
Alasan tentang usaha dengan perhatian saraf
Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Phil Blunsom
ICLR 2016, [kertas] [GitHub]
1 Mar 2016
Dls@cu: kesamaan kalimat dari perataan kata dan komposisi vektor semantik
MD Arafat Sultan, Steven Bethard, Tamara Sumner
Semeval 2015, [kertas]
04 Juni 2015
Kembali ke Dasar -Dasar untuk Penyelarasan Monolingual: Memanfaatkan Kesamaan Kata dan Bukti Kontekstual
MD Arafat Sultan, Steven Bethard, Tamara Sumner
TACL 2014, [kertas]
01 Mei 2014
Meningkatkan Jarak Penggerak Kata dengan Memanfaatkan Matriks Kesehatan Mandiri
Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodara
Temuan EMNLP 2023, [kertas] [GitHub]
02 Nov 2023
Menuju kesamaan tekstual semantik yang dapat ditafsirkan melalui pembelajaran kalimat kontras berbasis transportasi yang optimal
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [kertas] [GitHub]
22 Mei 2022
Jarak Word Rotator
Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui
EMNLP 2020, [kertas] [GitHub]
16 Nov 2020
Moverscore: Generasi Teks Mengevaluasi dengan Embeddings Kontekstual dan Jarak Penggerak Bumi
Wei Zhao, Maxime Peyrard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger
EMNLP 2019, [kertas] [GitHub]
03 Nov 2019
Dari kata embeddings ke jarak mendokumentasikan
Matt Kusner, Yu Sun, Nicholas Kolkin, Kilian Weinberger
ICML 2015, [kertas] [GitHub]
06 Juli 2015
Embeddings Kalimat Jalan Acak Tidak Diawasi: Baseline yang Kuat tapi Sederhana
Kawin Ethayarajh
REPL4NLP 2018, [kertas] [GitHub]
20 Juli 2018
Kerangka kerja yang efisien untuk representasi kalimat belajar
Lajanugen Logeswaran, Honglak Lee
ICLR 2018, [kertas] [GitHub]
30 Apr 2018
Encoder Kalimat Universal
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
ARXIV 2018, [kertas] [GitHub]
12 Apr 2018
Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
EMNLP 2017, [kertas] [GitHub]
07 September 2017
Baseline yang sederhana namun tangguh
Sanjeev Arora, Yingyu Liang, Tengyu MA
ICLR 2017, [kertas] [GitHub]
06 Feb 2017
Mempelajari representasi kalimat yang didistribusikan dari data yang tidak berlabel
Felix Hill, Kyunghyun Cho, Anna Korhonen
NAACL 2016, [kertas] [GitHub (tidak resmi)]
12 Jun 2016
Vektor Skip-berpikir
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [kertas] [GitHub]
22 Juni 2015
Representasi kalimat dan dokumen yang didistribusikan
Quoc V. Le, Tomas Mikolov
ICML 2014, [kertas]
21 Juni 2014
Representasi kalimat pemutih untuk semantik yang lebih baik dan pengambilan lebih cepat
Jianlin Su, Jiarun Cao, Weijie Liu, Yangyiwen Ou
ARXIV 2021, [kertas] [GitHub (TensorFlow)] [GitHub (Pytorch)]]
29 Mar 2021
Pada kalimat embeddings dari model bahasa pra-terlatih
Bohan Li, Hao Zhou, Junxian HE, Mingxuan Wang, Yiming Yang, Lei Li
EMNLP 2020, [kertas] [GitHub]
02 Nov 2020
Sbert-WK: Metode penyematan kalimat dengan membedah model kata berbasis Bert
Bin Wang, C.-C. Jay Kuo
IEEE/ACM T-ASLP, [kertas] [GitHub]
29 Juli 2020
Kalimat-Bert: Embeddings Kalimat Menggunakan Siames Bert-Networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [kertas] [GitHub]
27 Agustus 2019
Bleurt: Belajar metrik yang kuat untuk pembuatan teks
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [kertas] [GitHub]
05 Juli 2020
Bertscore: Mengevaluasi Pembuatan Teks dengan Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [kertas] [GitHub]
24 Feb 2020
Menuju kesamaan tekstual semantik yang dapat ditafsirkan melalui pembelajaran kalimat kontras berbasis transportasi yang optimal
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [kertas] [GitHub]
22 Mei 2022
Simcse: Pembelajaran Kontras Sederhana dari Kalimat Embeddings
Tianyu Gao, Xingcheng Yao, Danqi Chen
EMNLP 2021, [kertas] [GitHub]
03 Jun 2021
Pembelajaran kontras yang dipandu sendiri untuk representasi kalimat Bert
Taeuk Kim, Kang Min Yoo, Sang-Goo Lee
ACL 2021, [kertas] [GitHub]
03 Jun 2021
Consert: Kerangka kerja yang kontras untuk transfer representasi kalimat yang di-swadaya
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
ACL 2021, [kertas] [GitHub]
25 Mei 2021
Penyetelan ulang semantik dengan ketegangan kontras
Fredrik Carlsson, Amaru Kuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren
ICLR 2021, [kertas] [GitHub]
03 Mei 2021
Jelas: Pembelajaran Kontras untuk Representasi Kalimat
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao MA
Arxiv 2020, [kertas]
31 Desember 2020
Evolusi kesamaan semantik - survei
Dhivya Chandrasekaran, Vijay Mago
Survei Komputasi ACM 2021, [kertas]
18 Februari 2021
Ukuran distribusi jarak semantik: survei
Saif M. Mohammad, Graeme Hirst
Arxiv 2012, [kertas]
8 Mar 2012
Koefisien Korelasi Linier Pearson - Ukur akurasi prediksi
Di mana
Koefisien Korelasi Peringkat Peringkat Spearman-Ukur Prediksi Monotonisitas
Di mana
Jika Anda menemukan daftar kami berguna, silakan pertimbangkan mengutip repo dan toolkit kami di publikasi Anda. Kami menyediakan entri Bibtex di bawah ini.
@misc { JiaAwesomeSTS23 ,
author = { Jia, Shuyue } ,
title = { Awesome Semantic Textual Similarity } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}
@misc { JiaAwesomeLLM23 ,
author = { Jia, Shuyue } ,
title = { Awesome {LLM} Self-Consistency } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}
@misc { JiaPromptCraft23 ,
author = { Jia, Shuyue } ,
title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}