Unduhan Awesome Semantic Textual Similarity - Unduhan Kode Sumber Awesome Semantic Textual Similarity

Awesome Semantic Textual Similarity

Kode Sumber AI

1.0.0

Unduh

Kesamaan tekstual semantik yang luar biasa (STS)

Kesamaan tekstual semantik yang luar biasa: Daftar kesamaan tekstual semantik/kalimat (STS) dalam model bahasa besar dan bidang NLP

Repositori ini, yang disebut kesamaan tekstual semantik yang luar biasa , berisi kumpulan sumber daya dan makalah tentang kesamaan tekstual semantik/kalimat (STS) dalam model bahasa besar dan NLP .

" Jika Anda tidak dapat mengukurnya, Anda tidak dapat memperbaikinya ." - Fisikawan Inggris William Thomson

Selamat datang untuk membagikan makalah, pemikiran, dan ide Anda dengan mengirimkan masalah!

Isi

Tinjauan Evolusi Model
Presentasi
Tolok ukur
- STS
- Terkait sakit
Dokumen
- Garis dasar
- Metode berbasis matriks
- Metode penyelarasan/berbasis perhatian
- Metode berbasis jarak-kata
- Metode berbasis embedding kalimat
Pengukuran jarak
Metrik evaluasi
- Korelasi Pearson
- Korelasi Peringkat Spearman
Kutipan

Tinjauan Evolusi Model

Presentasi

Kalimat Kesamaan Tekstual: Tinjauan Evolusi Model
Shuyue Jia, Laboratorium Komputasi Tergantung, Universitas Boston
[Link]
Oktober 2023

Tolok ukur

Silakan periksa di sini dan di sini untuk mengunduh semua database benchmark di bawah ini.

STS

STS12 :
Tugas Semeval-2012 6: Pilot tentang Kesamaan Tekstual Semantik
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre
Semeval 2012, [kertas] [Unduh]
07 Juni 2012

STS13 :
*SEM 2013 Tugas Bersama: Kesamaan tekstual semantik
Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo
*SEM 2013, [kertas] [Unduh]
13 Juni 2013

STS14 :
SEMEVAL-2014 Tugas 10: Kesamaan tekstual semantik multibahasa
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Rada Mihalcea, Jerman Rigau, Janyce Wiebe
Semeval 2014, [kertas] [Unduh]
23 Agustus 2014

STS15 :
SEMEVAL-2015 Tugas 2: Kesamaan tekstual semantik, Inggris, Spanyol dan pilot tentang interpretabilitas
Eneko Agirre, Carmen Banea, Claire Cardie, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Weiwei Guo, Iñigo Lopez-Gazpio, Montse Maritxalar, Rada Mihalcea, German Rigau, Larraitz Uria, Janyce Wiebe
Semeval 2015, [kertas] [Unduh]
04 Juni 2015

STS16 :
SEMEVAL-2016 Tugas 1: Kesamaan tekstual semantik, evaluasi monolingual dan lintas-bahasa
Eneko Agirre, Carmen Banea, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, Rada Mihalcea, Jerman Rigau, Janyce Wiebe
Semeval 2016, [kertas] [Unduh]
16 Juni 2016

STS Benchmark (STSB) :
SEMEVAL-2017 Tugas 1: Evaluasi Kesamaan Tekstual Semantual Multilingual dan Crosslingual Fokus
Daniel Cer, Mona Diab, Eneko Agirre, Iñigo Lopez-Gazpio, Lucia Specia
Semeval 2017, [kertas] [Unduh]
03 Agustus 2017

Terkait sakit

Obat yang sakit untuk evaluasi model semantik distribusi komposisi
Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, Roberto Zamparelli
LREC 2014, [kertas] [Unduh]
26 Mei 2014

Dokumen

Garis dasar

Sarung Tangan: Vektor Global untuk Representasi Kata
Jeffrey Pennington, Richard Socher, Christopher Manning
EMNLP 2014, [kertas] [GitHub]
25 Okt 2014

Vektor Skip-berpikir
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [kertas] [GitHub]
22 Juni 2015

Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
EMNLP 2017, [kertas] [GitHub]
07 September 2017

Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
NAACL-HLT 2019, [kertas] [GitHub]
24 Mei 2019

Bertscore: Mengevaluasi Pembuatan Teks dengan Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [kertas] [GitHub]
24 Feb 2020

Bleurt: Belajar metrik yang kuat untuk pembuatan teks
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [kertas] [GitHub]
05 Juli 2020

Pengambilan bagian yang padat untuk menjawab pertanyaan domain terbuka
Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-Tau Yih
EMNLP 2020, [kertas] [GitHub]
16 Nov 2020

Encoder Kalimat Universal
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
ARXIV 2018, [kertas] [GitHub]
12 Apr 2018

Kalimat-Bert: Embeddings Kalimat Menggunakan Siames Bert-Networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [kertas] [GitHub]
27 Agustus 2019

Metode berbasis matriks

Pemodelan interaksi kata berpasangan dengan jaringan saraf dalam untuk pengukuran kesamaan semantik
Hua He, Jimmy Lin
NAACL 2016, [kertas]
12 Juni 2016

Pencocokan teks sebagai pengenalan gambar
Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, Xueqi Cheng
Aaai 2016, [kertas] [GitHub]
20 Feb 2016

Multigrancnn: Arsitektur untuk Pencocokan Umum Potongan Teks pada Berbagai Tingkat Granularity
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz
IJCNLP 2015, [kertas]
26 Juli 2015

Metode berbasis penyelarasan

Mekanisme perhatian

Pencocokan teks sederhana dan efektif dengan fitur perataan yang lebih kaya
Runqi Yang, Jianhai Zhang, Xing Gao, Feng JI, Haiqing Chen
ACL 2019, [kertas] [GitHub]
01 Agustus 2019

Pencocokan kalimat semantik dengan informasi berulang dan co-perhatian yang terhubung padat
Seonhoon Kim, Inho Kang, Nojun Kwak
AAAI 2019, [kertas] [GitHub (tidak resmi)]
27 Januari 2019

Jaringan Perhatian Multiway untuk Pemodelan Pasangan Kalimat
Chuanqi Tan, Furu Wei, Wenhui Wang, Weifeng LV, Ming Zhou
IJCAI 2018, [kertas] [GitHub]
13 Juli 2018

Kesimpulan bahasa alami atas ruang interaksi
Yichen Gong, Heng Luo, Jian Zhang
EMNLP 2017, [kertas] [GitHub]
13 Sep 2017

Jaringan Penyelarasan Antar-Berwerean untuk Pemodelan Pasangan Kalimat
Gehui Shen, Yunlun Yang, Zhi-Hong Deng
EMNLP 2017, [kertas]
07 September 2017

Aliran perhatian dua arah untuk pemahaman mesin
Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi
ICLR 2017, [kertas] [halaman web] [GitHub]
24 Apr 2017

Sebuah kalimat yang terstruktur melahirkan diri
Zhouhan Lin, Minwei Feng, Cicero Nogueira Dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio
EMNLP 2017, [kertas] [GitHub]
09 Mar 2017

Kalimat Kesamaan Pembelajaran dengan dekomposisi dan komposisi leksikal
Zhiguo Wang, Haitao MI, Abraham Ittycheriah
Coling 2016, [kertas] [GitHub]
11 Des 2016

Model perhatian yang dapat diuraikan untuk inferensi bahasa alami
Ankur Parikh, Oscar Täckström, Dipanjan Das, Jakob Uszkoreit
EMNLP 2016, [kertas] [GitHub]
01 Nov 2016

Alasan tentang usaha dengan perhatian saraf
Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Phil Blunsom
ICLR 2016, [kertas] [GitHub]
1 Mar 2016

Metode tradisional

Dls@cu: kesamaan kalimat dari perataan kata dan komposisi vektor semantik
MD Arafat Sultan, Steven Bethard, Tamara Sumner
Semeval 2015, [kertas]
04 Juni 2015

Kembali ke Dasar -Dasar untuk Penyelarasan Monolingual: Memanfaatkan Kesamaan Kata dan Bukti Kontekstual
MD Arafat Sultan, Steven Bethard, Tamara Sumner
TACL 2014, [kertas]
01 Mei 2014

Metode berbasis jarak kata

Meningkatkan Jarak Penggerak Kata dengan Memanfaatkan Matriks Kesehatan Mandiri
Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodara
Temuan EMNLP 2023, [kertas] [GitHub]
02 Nov 2023

Menuju kesamaan tekstual semantik yang dapat ditafsirkan melalui pembelajaran kalimat kontras berbasis transportasi yang optimal
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [kertas] [GitHub]
22 Mei 2022

Jarak Word Rotator
Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui
EMNLP 2020, [kertas] [GitHub]
16 Nov 2020

Moverscore: Generasi Teks Mengevaluasi dengan Embeddings Kontekstual dan Jarak Penggerak Bumi
Wei Zhao, Maxime Peyrard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger
EMNLP 2019, [kertas] [GitHub]
03 Nov 2019

Dari kata embeddings ke jarak mendokumentasikan
Matt Kusner, Yu Sun, Nicholas Kolkin, Kilian Weinberger
ICML 2015, [kertas] [GitHub]
06 Juli 2015

Metode berbasis embedding kalimat

Metode berbasis vektor paragraf

Embeddings Kalimat Jalan Acak Tidak Diawasi: Baseline yang Kuat tapi Sederhana
Kawin Ethayarajh
REPL4NLP 2018, [kertas] [GitHub]
20 Juli 2018

Kerangka kerja yang efisien untuk representasi kalimat belajar
Lajanugen Logeswaran, Honglak Lee
ICLR 2018, [kertas] [GitHub]
30 Apr 2018

Encoder Kalimat Universal
Daniel Cer, Yinfei Yang, Sheng-Yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil
ARXIV 2018, [kertas] [GitHub]
12 Apr 2018

Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami
Alexis Conneau, Douwe Kiela, Holger Schwenk, Loïc Barrault, Antoine Bordes
EMNLP 2017, [kertas] [GitHub]
07 September 2017

Baseline yang sederhana namun tangguh
Sanjeev Arora, Yingyu Liang, Tengyu MA
ICLR 2017, [kertas] [GitHub]
06 Feb 2017

Mempelajari representasi kalimat yang didistribusikan dari data yang tidak berlabel
Felix Hill, Kyunghyun Cho, Anna Korhonen
NAACL 2016, [kertas] [GitHub (tidak resmi)]
12 Jun 2016

Vektor Skip-berpikir
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler
Neurips 2015, [kertas] [GitHub]
22 Juni 2015

Representasi kalimat dan dokumen yang didistribusikan
Quoc V. Le, Tomas Mikolov
ICML 2014, [kertas]
21 Juni 2014

Paradigma finetuning pretraining

Representasi kalimat pemutih untuk semantik yang lebih baik dan pengambilan lebih cepat
Jianlin Su, Jiarun Cao, Weijie Liu, Yangyiwen Ou
ARXIV 2021, [kertas] [GitHub (TensorFlow)] [GitHub (Pytorch)]]
29 Mar 2021

Pada kalimat embeddings dari model bahasa pra-terlatih
Bohan Li, Hao Zhou, Junxian HE, Mingxuan Wang, Yiming Yang, Lei Li
EMNLP 2020, [kertas] [GitHub]
02 Nov 2020

Sbert-WK: Metode penyematan kalimat dengan membedah model kata berbasis Bert
Bin Wang, C.-C. Jay Kuo
IEEE/ACM T-ASLP, [kertas] [GitHub]
29 Juli 2020

Kalimat-Bert: Embeddings Kalimat Menggunakan Siames Bert-Networks
Nils Reimers, Iryna Gurevych
EMNLP 2019, [kertas] [GitHub]
27 Agustus 2019

Skor berbasis Bert

Bleurt: Belajar metrik yang kuat untuk pembuatan teks
Thibault Sellam, Dipanjan Das, Ankur Parikh
ACL 2020, [kertas] [GitHub]
05 Juli 2020

Bertscore: Mengevaluasi Pembuatan Teks dengan Bert
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR 2020, [kertas] [GitHub]
24 Feb 2020

Kerangka pembelajaran yang kontras

Menuju kesamaan tekstual semantik yang dapat ditafsirkan melalui pembelajaran kalimat kontras berbasis transportasi yang optimal
Seonghyeon Lee, Dongha Lee, Seongbo Jang, Hwanjo Yu
ACL 2022, [kertas] [GitHub]
22 Mei 2022

Simcse: Pembelajaran Kontras Sederhana dari Kalimat Embeddings
Tianyu Gao, Xingcheng Yao, Danqi Chen
EMNLP 2021, [kertas] [GitHub]
03 Jun 2021

Pembelajaran kontras yang dipandu sendiri untuk representasi kalimat Bert
Taeuk Kim, Kang Min Yoo, Sang-Goo Lee
ACL 2021, [kertas] [GitHub]
03 Jun 2021

Consert: Kerangka kerja yang kontras untuk transfer representasi kalimat yang di-swadaya
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
ACL 2021, [kertas] [GitHub]
25 Mei 2021

Penyetelan ulang semantik dengan ketegangan kontras
Fredrik Carlsson, Amaru Kuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren
ICLR 2021, [kertas] [GitHub]
03 Mei 2021

Jelas: Pembelajaran Kontras untuk Representasi Kalimat
Zhuofeng Wu, Sinong Wang, Jiatao Gu, Madian Khabsa, Fei Sun, Hao MA
Arxiv 2020, [kertas]
31 Desember 2020

Pengukuran jarak

Evolusi kesamaan semantik - survei
Dhivya Chandrasekaran, Vijay Mago
Survei Komputasi ACM 2021, [kertas]
18 Februari 2021

Ukuran distribusi jarak semantik: survei
Saif M. Mohammad, Graeme Hirst
Arxiv 2012, [kertas]
8 Mar 2012

Metrik evaluasi

Korelasi Pearson

Koefisien Korelasi Linier Pearson - Ukur akurasi prediksi

$$ r = frac { sum nolimits_ {i = 1}^n left (s_i- bar {s} kanan) kiri (q_i- bar {q} kanan)} { sqrt { sum nolimits_ {i = 1 = 1 { { sum nolimits_ {i = 1 = 1 kanan)^2} sqrt { sum nolimits_ {i = 1}^n kiri (q_i- bar {q} kanan)^2}}, $$

Di mana $ s_i $ Dan $ q_i $ adalah label emas dan prediksi model dari $ i $ Kalimat -TH. $ bar {s} $ Dan $ bar {q} $ adalah nilai rata -rata dari $ textbf {s} $ Dan $ textbf {q} $ . $ n $ adalah jumlah kalimat.

Korelasi Peringkat Spearman

Koefisien Korelasi Peringkat Peringkat Spearman-Ukur Prediksi Monotonisitas

$$ rho = 1- frac {6 sum nolimits_ {i = 1}^{n} d_i^2} {n kiri (n^2-1 kanan)}, $$

Di mana $ d_i $ adalah perbedaan antara $ i $ Peringkat kalimat dalam prediksi model dan label emas.

Kutipan

Jika Anda menemukan daftar kami berguna, silakan pertimbangkan mengutip repo dan toolkit kami di publikasi Anda. Kami menyediakan entri Bibtex di bawah ini.

 @misc { JiaAwesomeSTS23 ,
      author = { Jia, Shuyue } ,
      title = { Awesome Semantic Textual Similarity } ,
      year = { 2023 } ,
      publisher = { GitHub } ,
      journal = { GitHub Repository } ,
      howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}

@misc { JiaAwesomeLLM23 ,
      author = { Jia, Shuyue } ,
      title = { Awesome {LLM} Self-Consistency } ,
      year = { 2023 } ,
      publisher = { GitHub } ,
      journal = { GitHub Repository } ,
      howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}

@misc { JiaPromptCraft23 ,
      author = { Jia, Shuyue } ,
      title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
      year = { 2023 } ,
      publisher = { GitHub } ,
      journal = { GitHub Repository } ,
      howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-07-01
ukuran 201.56KB
Berasal dari Github

Aplikasi Terkait

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Game Iblis yang Luar Biasa

2023-04-16
Iklan yang Luar Biasa

2022-08-08

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
promptl

Kode Sumber AI

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua