素晴らしいセマンティックテキストの類似性:大規模な言語モデルとNLPフィールドのセマンティック/文のテキスト類似性(STS)のキュレーションリスト
Awesome Semantic Textualの類似性と呼ばれるこのリポジトリには、大規模な言語モデルとNLPのセマンティック/文のテキスト類似性(STS)に関するリソースと論文のコレクションが含まれています。
「測定できないなら、それを改善することはできません。」 - イギリスの物理学者ウィリアム・トムソン
問題を提出して、あなたの論文、考え、アイデアを共有してください!

文の類似性:モデルの進化の概要
ボストン大学の信頼できるコンピューティング研究所、Shuyue Jia
[リンク]
2023年10月
こちらとこちらを確認して、以下のすべてのベンチマークデータベースをダウンロードしてください。
sts12 :
Semeval-2012タスク6:セマンティックテキストの類似性に関するパイロット
Eneko Agirre、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre
Semeval 2012、[Paper] [ダウンロード]
2012年6月7日
sts13 :
*SEM 2013共有タスク:セマンティックテキストの類似性
Eneko Agirre、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre、Weiwei Guo
*SEM 2013、[Paper] [ダウンロード]
2013年6月13日
sts14 :
Semeval-2014タスク10:多言語セマンティックテキストの類似性
Eneko Agirre、Carmen Banea、Claire Cardie、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre、Weiwei Guo、Rada Mihalcea、German Rigau、Janyce Wiebe
Semeval 2014、[Paper] [ダウンロード]
2014年8月23日
sts15 :
Semeval-2015タスク2:セマンティックテキストの類似性、英語、スペイン語、パイロットの解釈可能性
エネコ・アジャー、カルメン・バネア、クレア・カーディー、ダニエル・ケル、モナ・ディアブ、エイトル・ゴンザレス・アジル、ウェイウェイ・グオ、イニゴ・ロペス・ガズピオ、モン・ミハルシア、ドイツ・リガー、ラライン・ウリア、ジャニス・ウーベイ・ワイベース
Semeval 2015、[Paper] [ダウンロード]
2015年6月4日
sts16 :
Semeval-2016タスク1:セマンティックテキストの類似性、単一言語、および横断的評価
Eneko Agirre、Carmen Banea、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre、Rada Mihalcea、German Rigau、Janyce Wiebe
Semeval 2016、[Paper] [ダウンロード]
2016年6月16日
STSベンチマーク(STSB) :
Semeval-2017タスク1:セマンティックテキストの類似性多言語および相互焦点の評価評価
ダニエル・セル、モナ・ディアブ、エネコ・アギレ、イニゴ・ロペス・ガズピオ、ルシア・スペシア
Semeval 2017、[Paper] [ダウンロード]
2017年8月3日
組成分布のセマンティックモデルの評価のための病気の治療法
マルコ・マレリ、ステファノ・メニーニ、マルコ・バローニ、ルイサ・ベンティヴォーリ、ラファエラ・ベルナルディ、ロベルト・ザンパレリ
LREC 2014、[Paper] [ダウンロード]
2014年5月26日
グローブ:単語表現のグローバルベクター
ジェフリー・ペニントン、リチャード・ソチャー、クリストファー・マニング
EMNLP 2014、[Paper] [Github]
2014年10月25日
スキップ考えベクター
ライアン・キロス、ユクン・Zhu、ルスラン・サラフヒトディノフ、リチャード・S・ゼメル、アントニオ・トラルバ、ラケル・ウルタスン、サンジャ・フィドラー
Neurips 2015、[Paper] [Github]
2015年6月22日
自然言語の推論データからの普遍的な文の表現の監視された学習
アレクシス・コノー、ドゥーウェ・キエラ、ホルガー・シュウェンク、ロイック・バラ、アントワーヌ・ボルズ
EMNLP 2017、[Paper] [Github]
2017年9月7日
BERT:言語理解のための深い双方向変圧器の事前訓練
ジェイコブ・デヴリン、ミン・ウェイ・チャン、ケントン・リー、クリスティーナ・タウタノバ
NAACL-HLT 2019、[Paper] [Github]
2019年5月24日
BERTSCORE:BERTでテキスト生成を評価します
Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger、Yoav Artzi
ICLR 2020、[Paper] [Github]
2020年2月24日
BLEURT:テキスト生成のための堅牢なメトリックを学習します
Thibault Sellam、Dipanjan Das、Ankur Parikh
ACL 2020、[Paper] [Github]
2020年7月5日
オープンドメインの質問応答のための密な通過検索
ウラジミール・カルプヒン、バラス・オグス、縫いミン、パトリック・ルイス、レデル・ウー、セルゲイ・エドノフ、ダンキ・チェン、ウェン・タウ・イー
emnlp 2020、[紙] [github]
2020年11月16日
ユニバーサルセンテンスエンコーダー
ダニエル・カー、Yinfei Yang、Sheng-Yi Kong、Nan Hua、Nicole Limtiaco、Rhomni St. John、Noah Conster、Mario Guajardo-Cespedes、Steve Yuan、Chris Tar、Yun-Hsuan Sung、Brian Strope、Ray Kurzweil
Arxiv 2018、[Paper] [Github]
2018年4月12日
文章:Siamese Bert-Networksを使用した文の埋め込み
ニルズ・レイマーズ、イリーナ・グレビッチ
EMNLP 2019、[Paper] [Github]
2019年8月27日
セマンティック類似性測定のためのディープニューラルネットワークを使用したペアワイズワードインタラクションモデリング
Hua He、ジミーリン
NAACL 2016、[紙]
2016年6月12日
画像認識としてのテキストマッチング
Liang Pang、Yanyan Lan、Jiafeng Guo、Jun Xu、Shengxian Wan、Xueqi Cheng
aaai 2016、[紙] [github]
2016年2月20日
Multigrancnn:複数のレベルの粒度上のテキストチャンクの一般的なマッチングのためのアーキテクチャ
Myeongjun Jang、Deuk Sin Kwon、Thomas Lukasiewicz
IJCNLP 2015、[Paper]
2015年7月26日
よりリッチなアライメント機能を備えたシンプルで効果的なテキストマッチング
Runqi Yang、Jianhai Zhang、Xing Gao、Feng Ji、Haiqing Chen
ACL 2019、[Paper] [Github]
2019年8月1日
密に接続された再発性および共存情報と一致するセマンティック文
Seonhoon Kim、Inho Kang、Nojun Kwak
aaai 2019、[紙] [github(非公式)]]
2019年1月27日
文のペアをモデル化するためのマルチウェイの注意ネットワーク
Chuanqi Tan、Furu Wei、Wenhui Wang、Weifeng LV、Ming Zhou
IJCAI 2018、[Paper] [Github]
2018年7月13日
相互作用スペースに対する自然言語の推論
Yichen Gong、Heng Luo、Jian Zhang
EMNLP 2017、[Paper] [Github]
2017年9月13日
文ペアモデリングのための重み付きアライメントネットワーク
Gehui Shen、Yunlun Yang、Zhi-Hong Deng
EMNLP 2017、[紙]
2017年9月7日
機械理解のための双方向の注意の流れ
Minjoon Seo、Aniruddha Kembhavi、Ali Farhadi、Hannaneh Hajishirzi
ICLR 2017、[Paper] [webpage] [github]
2017年4月24日
構造化された自己完全な文の埋め込み
Zhouhan Lin、Minwei Feng、Cicero Nogueira Dos Santos、Mo Yu、Bing Xiang、Bowen Zhou、Yoshua Bengio
EMNLP 2017、[Paper] [Github]
2017年3月9日
語彙分解と組成による文の類似性学習
Zhiguo Wang、Haitao Mi、Abraham Ittycheriah
Coling 2016、[Paper] [Github]
2016年12月11日
自然言語推論の分解可能な注意モデル
Ankur Parikh、OscarTäckström、Dipanjan Das、Jakob Uszkoreit
EMNLP 2016、[Paper] [Github]
2016年11月1日
神経の注意を伴う誘惑についての推論
ティム・ロックテッチェル、エドワード・グレフェンステット、カール・モリッツ・ヘルマン、トマシュ・コチスカ、フィル・ブルンサム
ICLR 2016、[Paper] [Github]
2016年3月1日
dls@cu:単語のアライメントとセマンティックベクトル構成からの文の類似性
MD Arafat Sultan、Steven Bethard、Tamara Sumner
Semeval 2015、[Paper]
2015年6月4日
単一言語の調整のための基本に戻る:単語の類似性と文脈的証拠を活用する
MD Arafat Sultan、Steven Bethard、Tamara Sumner
TACL 2014、[紙]
2014年5月1日
自己関節マトリックスを活用することにより、単語ムーバーの距離を改善します
Yamagiwa Hiroaki、Sho Yokoi、Hidetoshi shimodiara
EMNLP 2023調査結果、[紙] [Github]
02 2023年11月
最適な輸送ベースのコントラスト文学習による解釈可能なセマンティックテキストの類似性に向けて
Seonghyeon Lee、Dongha Lee、Seongbo Jang、Hwanjo Yu
ACL 2022、[Paper] [Github]
2022年5月22日
単語回転子の距離
Sho Yokoi、Ryo Takahashi、Reina Akama、Jun Suzuki、Kentaro Inui
emnlp 2020、[紙] [github]
2020年11月16日
ムーバースコア:文脈化された埋め込みと地球ムーバーの距離で評価するテキスト生成
Wei Zhao、Maxime Peyrard、Fei Liu、Yang Gao、Christian M. Meyer、Steffen Eger
EMNLP 2019、[Paper] [Github]
2019年11月3日
単語の埋め込みから文書化距離まで
マット・クスナー、ユ・サン、ニコラス・コルキン、キリアン・ワインバーガー
ICML 2015、[Paper] [Github]
2015年7月6日
監視されていないランダムウォーク文の埋め込み:強力だがシンプルなベースライン
Kawin Ethayarajh
REPL4NLP 2018、[Paper] [Github]
2018年7月20日
文の表現を学習するための効率的なフレームワーク
Lajanugen Logeswaran、Honglak Lee
ICLR 2018、[Paper] [Github]
2018年4月30日
ユニバーサルセンテンスエンコーダー
ダニエル・カー、Yinfei Yang、Sheng-Yi Kong、Nan Hua、Nicole Limtiaco、Rhomni St. John、Noah Conster、Mario Guajardo-Cespedes、Steve Yuan、Chris Tar、Yun-Hsuan Sung、Brian Strope、Ray Kurzweil
Arxiv 2018、[Paper] [Github]
2018年4月12日
自然言語の推論データからの普遍的な文の表現の監視された学習
アレクシス・コノー、ドゥーウェ・キエラ、ホルガー・シュウェンク、ロイック・バラ、アントワーヌ・ボルズ
EMNLP 2017、[Paper] [Github]
2017年9月7日
文の埋め込みのためのシンプルだが困難なベースライン
Sanjeev Arora、Yingyu Liang、Tengyu MA
ICLR 2017、[Paper] [Github]
2017年2月6日
無効なデータからの文の分散表現を学習します
フェリックス・ヒル、キュンギョン・チョー、アンナ・コルホネン
NAACL 2016、[Paper] [Github(非公式)]]
2016年6月12日
スキップ考えベクター
ライアン・キロス、ユクン・Zhu、ルスラン・サラフヒトディノフ、リチャード・S・ゼメル、アントニオ・トラルバ、ラケル・ウルタスン、サンジャ・フィドラー
Neurips 2015、[Paper] [Github]
2015年6月22日
文と文書の分散表現
Quoc V. Le、Tomas Mikolov
ICML 2014、[紙]
2014年6月21日
より良いセマンティクスとより速い検索のための文の表現
Jianlin SU、Jiarun Cao、Weijie Liu、Yangyiwen OU
arxiv 2021、[紙] [github(tensorflow)] [github(pytorch)]]
2021年3月29日
事前に訓練された言語モデルからの文の埋め込み
Bohan Li、Hao Zhou、Junxian HE、Mingxuan Wang、Yiming Yang、Lei Li
emnlp 2020、[紙] [github]
2020年11月2日
sbert-wk:bertベースの単語モデルを分析することによる文埋め込み方法
Bin Wang、C.-C。ジェイ・クオ
IEEE/ACM T-ASLP、[Paper] [Github]
2020年7月29日
文章:Siamese Bert-Networksを使用した文の埋め込み
ニルズ・レイマーズ、イリーナ・グレビッチ
EMNLP 2019、[Paper] [Github]
2019年8月27日
BLEURT:テキスト生成のための堅牢なメトリックを学習します
Thibault Sellam、Dipanjan Das、Ankur Parikh
ACL 2020、[Paper] [Github]
2020年7月5日
BERTSCORE:BERTでテキスト生成を評価します
Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger、Yoav Artzi
ICLR 2020、[Paper] [Github]
2020年2月24日
最適な輸送ベースのコントラスト文学習による解釈可能なセマンティックテキストの類似性に向けて
Seonghyeon Lee、Dongha Lee、Seongbo Jang、Hwanjo Yu
ACL 2022、[Paper] [Github]
2022年5月22日
Simcse:文の埋め込みの単純な対照学習
Tianyu Gao、Xingcheng Yao、Danqi Chen
emnlp 2021、[紙] [github]
2021年6月3日
BERT文の表現のための自己ガイドの対照学習
Taeuk Kim、Kang Min Yoo、Sang-Goo Lee
ACL 2021、[Paper] [Github]
2021年6月3日
メンルト:自己教師の文の表現転送のための対照的なフレームワーク
Yuanmeng Yan、Rumei Li、Sirui Wang、Fuzheng Zhang、Wei Wu、Weiran Xu
ACL 2021、[Paper] [Github]
2021年5月25日
対照的な張力を伴うセマンティックの再調整
フレドリック・カールソン、アマル・キューバ・ギレンステン、エヴァンジェリア・ゴグルー、エリック・イリパヘルクヴィスト、マグナス・サールグレン
ICLR 2021、[Paper] [Github]
2021年5月3日
クリア:文の表現のための対照学習
Zhuofeng Wu、Sinong Wang、Jiatao Gu、Madian Khabsa、Fei Sun、Hao Ma
arxiv 2020、[紙]
2020年12月31日
セマンティックな類似性の進化 - 調査
Dhivya Chandrasekaran、Vijay Mago
ACMコンピューティング調査2021、[Paper]
2021年2月18日
セマンティック距離の分布測定:調査
サイフ・M・モハンマド、グレーム・ハースト
Arxiv 2012、[紙]
2012年3月8日
ピアソン線形相関係数 - 予測精度を測定します
どこ
スピアマンのランクオーダー相関係数 - 予測単調性を測定します
どこ
リストが便利だと思う場合は、出版物でレポとツールキットを引用することを検討してください。以下にbibtexエントリを提供します。
@misc { JiaAwesomeSTS23 ,
author = { Jia, Shuyue } ,
title = { Awesome Semantic Textual Similarity } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}
@misc { JiaAwesomeLLM23 ,
author = { Jia, Shuyue } ,
title = { Awesome {LLM} Self-Consistency } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}
@misc { JiaPromptCraft23 ,
author = { Jia, Shuyue } ,
title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub Repository } ,
howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}