Awesome Semantic Textual Similarityダウンロード - Awesome Semantic Textual Similarityソースコードダウンロード

Awesome Semantic Textual Similarity

AI ソースコード

1.0.0

ダウンロード

素晴らしいセマンティックテキストの類似性（STS）

素晴らしいセマンティックテキストの類似性：大規模な言語モデルとNLPフィールドのセマンティック/文のテキスト類似性（STS）のキュレーションリスト

Awesome Semantic Textualの類似性と呼ばれるこのリポジトリには、大規模な言語モデルとNLPのセマンティック/文のテキスト類似性（STS）に関するリソースと論文のコレクションが含まれています。

「測定できないなら、それを改善することはできません。」 - イギリスの物理学者ウィリアム・トムソン

問題を提出して、あなたの論文、考え、アイデアを共有してください！

コンテンツ

モデルの進化の概要
プレゼンテーション
ベンチマーク
- sts
- 病気に関連しています
論文
- ベースライン
- マトリックスベースの方法
- アラインメント/注意ベースの方法
- 単語ベースの方法
- 文ベースのメソッド
距離測定
評価メトリック
- ピアソン相関
- スピアマンのランク相関
引用

モデルの進化の概要

プレゼンテーション

文の類似性：モデルの進化の概要
ボストン大学の信頼できるコンピューティング研究所、Shuyue Jia
[リンク]
2023年10月

ベンチマーク

こちらとこちらを確認して、以下のすべてのベンチマークデータベースをダウンロードしてください。

sts

sts12 ：
Semeval-2012タスク6：セマンティックテキストの類似性に関するパイロット
Eneko Agirre、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre
Semeval 2012、[Paper] [ダウンロード]
2012年6月7日

sts13 ：
*SEM 2013共有タスク：セマンティックテキストの類似性
Eneko Agirre、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre、Weiwei Guo
*SEM 2013、[Paper] [ダウンロード]
2013年6月13日

sts14 ：
Semeval-2014タスク10：多言語セマンティックテキストの類似性
Eneko Agirre、Carmen Banea、Claire Cardie、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre、Weiwei Guo、Rada Mihalcea、German Rigau、Janyce Wiebe
Semeval 2014、[Paper] [ダウンロード]
2014年8月23日

sts15 ：
Semeval-2015タスク2：セマンティックテキストの類似性、英語、スペイン語、パイロットの解釈可能性
エネコ・アジャー、カルメン・バネア、クレア・カーディー、ダニエル・ケル、モナ・ディアブ、エイトル・ゴンザレス・アジル、ウェイウェイ・グオ、イニゴ・ロペス・ガズピオ、モン・ミハルシア、ドイツ・リガー、ラライン・ウリア、ジャニス・ウーベイ・ワイベース
Semeval 2015、[Paper] [ダウンロード]
2015年6月4日

sts16 ：
Semeval-2016タスク1：セマンティックテキストの類似性、単一言語、および横断的評価
Eneko Agirre、Carmen Banea、Daniel Cer、Mona Diab、Aitor Gonzalez-Agirre、Rada Mihalcea、German Rigau、Janyce Wiebe
Semeval 2016、[Paper] [ダウンロード]
2016年6月16日

STSベンチマーク（STSB） ：
Semeval-2017タスク1：セマンティックテキストの類似性多言語および相互焦点の評価評価
ダニエル・セル、モナ・ディアブ、エネコ・アギレ、イニゴ・ロペス・ガズピオ、ルシア・スペシア
Semeval 2017、[Paper] [ダウンロード]
2017年8月3日

病気に関連しています

組成分布のセマンティックモデルの評価のための病気の治療法
マルコ・マレリ、ステファノ・メニーニ、マルコ・バローニ、ルイサ・ベンティヴォーリ、ラファエラ・ベルナルディ、ロベルト・ザンパレリ
LREC 2014、[Paper] [ダウンロード]
2014年5月26日

論文

ベースライン

グローブ：単語表現のグローバルベクター
ジェフリー・ペニントン、リチャード・ソチャー、クリストファー・マニング
EMNLP 2014、[Paper] [Github]
2014年10月25日

スキップ考えベクター
ライアン・キロス、ユクン・Zhu、ルスラン・サラフヒトディノフ、リチャード・S・ゼメル、アントニオ・トラルバ、ラケル・ウルタスン、サンジャ・フィドラー
Neurips 2015、[Paper] [Github]
2015年6月22日

自然言語の推論データからの普遍的な文の表現の監視された学習
アレクシス・コノー、ドゥーウェ・キエラ、ホルガー・シュウェンク、ロイック・バラ、アントワーヌ・ボルズ
EMNLP 2017、[Paper] [Github]
2017年9月7日

BERT：言語理解のための深い双方向変圧器の事前訓練
ジェイコブ・デヴリン、ミン・ウェイ・チャン、ケントン・リー、クリスティーナ・タウタノバ
NAACL-HLT 2019、[Paper] [Github]
2019年5月24日

BERTSCORE：BERTでテキスト生成を評価します
Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger、Yoav Artzi
ICLR 2020、[Paper] [Github]
2020年2月24日

BLEURT：テキスト生成のための堅牢なメトリックを学習します
Thibault Sellam、Dipanjan Das、Ankur Parikh
ACL 2020、[Paper] [Github]
2020年7月5日

オープンドメインの質問応答のための密な通過検索
ウラジミール・カルプヒン、バラス・オグス、縫いミン、パトリック・ルイス、レデル・ウー、セルゲイ・エドノフ、ダンキ・チェン、ウェン・タウ・イー
emnlp 2020、[紙] [github]
2020年11月16日

ユニバーサルセンテンスエンコーダー
ダニエル・カー、Yinfei Yang、Sheng-Yi Kong、Nan Hua、Nicole Limtiaco、Rhomni St. John、Noah Conster、Mario Guajardo-Cespedes、Steve Yuan、Chris Tar、Yun-Hsuan Sung、Brian Strope、Ray Kurzweil
Arxiv 2018、[Paper] [Github]
2018年4月12日

文章：Siamese Bert-Networksを使用した文の埋め込み
ニルズ・レイマーズ、イリーナ・グレビッチ
EMNLP 2019、[Paper] [Github]
2019年8月27日

マトリックスベースの方法

セマンティック類似性測定のためのディープニューラルネットワークを使用したペアワイズワードインタラクションモデリング
Hua He、ジミーリン
NAACL 2016、[紙]
2016年6月12日

画像認識としてのテキストマッチング
Liang Pang、Yanyan Lan、Jiafeng Guo、Jun Xu、Shengxian Wan、Xueqi Cheng
aaai 2016、[紙] [github]
2016年2月20日

Multigrancnn：複数のレベルの粒度上のテキストチャンクの一般的なマッチングのためのアーキテクチャ
Myeongjun Jang、Deuk Sin Kwon、Thomas Lukasiewicz
IJCNLP 2015、[Paper]
2015年7月26日

アライメントベースの方法

注意メカニズム

よりリッチなアライメント機能を備えたシンプルで効果的なテキストマッチング
Runqi Yang、Jianhai Zhang、Xing Gao、Feng Ji、Haiqing Chen
ACL 2019、[Paper] [Github]
2019年8月1日

密に接続された再発性および共存情報と一致するセマンティック文
Seonhoon Kim、Inho Kang、Nojun Kwak
aaai 2019、[紙] [github（非公式）]]
2019年1月27日

文のペアをモデル化するためのマルチウェイの注意ネットワーク
Chuanqi Tan、Furu Wei、Wenhui Wang、Weifeng LV、Ming Zhou
IJCAI 2018、[Paper] [Github]
2018年7月13日

相互作用スペースに対する自然言語の推論
Yichen Gong、Heng Luo、Jian Zhang
EMNLP 2017、[Paper] [Github]
2017年9月13日

文ペアモデリングのための重み付きアライメントネットワーク
Gehui Shen、Yunlun Yang、Zhi-Hong Deng
EMNLP 2017、[紙]
2017年9月7日

機械理解のための双方向の注意の流れ
Minjoon Seo、Aniruddha Kembhavi、Ali Farhadi、Hannaneh Hajishirzi
ICLR 2017、[Paper] [webpage] [github]
2017年4月24日

構造化された自己完全な文の埋め込み
Zhouhan Lin、Minwei Feng、Cicero Nogueira Dos Santos、Mo Yu、Bing Xiang、Bowen Zhou、Yoshua Bengio
EMNLP 2017、[Paper] [Github]
2017年3月9日

語彙分解と組成による文の類似性学習
Zhiguo Wang、Haitao Mi、Abraham Ittycheriah
Coling 2016、[Paper] [Github]
2016年12月11日

自然言語推論の分解可能な注意モデル
Ankur Parikh、OscarTäckström、Dipanjan Das、Jakob Uszkoreit
EMNLP 2016、[Paper] [Github]
2016年11月1日

神経の注意を伴う誘惑についての推論
ティム・ロックテッチェル、エドワード・グレフェンステット、カール・モリッツ・ヘルマン、トマシュ・コチスカ、フィル・ブルンサム
ICLR 2016、[Paper] [Github]
2016年3月1日

従来の方法

dls@cu：単語のアライメントとセマンティックベクトル構成からの文の類似性
MD Arafat Sultan、Steven Bethard、Tamara Sumner
Semeval 2015、[Paper]
2015年6月4日

単一言語の調整のための基本に戻る：単語の類似性と文脈的証拠を活用する
MD Arafat Sultan、Steven Bethard、Tamara Sumner
TACL 2014、[紙]
2014年5月1日

単語距離ベースの方法

自己関節マトリックスを活用することにより、単語ムーバーの距離を改善します
Yamagiwa Hiroaki、Sho Yokoi、Hidetoshi shimodiara
EMNLP 2023調査結果、[紙] [Github]
02 2023年11月

最適な輸送ベースのコントラスト文学習による解釈可能なセマンティックテキストの類似性に向けて
Seonghyeon Lee、Dongha Lee、Seongbo Jang、Hwanjo Yu
ACL 2022、[Paper] [Github]
2022年5月22日

単語回転子の距離
Sho Yokoi、Ryo Takahashi、Reina Akama、Jun Suzuki、Kentaro Inui
emnlp 2020、[紙] [github]
2020年11月16日

ムーバースコア：文脈化された埋め込みと地球ムーバーの距離で評価するテキスト生成
Wei Zhao、Maxime Peyrard、Fei Liu、Yang Gao、Christian M. Meyer、Steffen Eger
EMNLP 2019、[Paper] [Github]
2019年11月3日

単語の埋め込みから文書化距離まで
マット・クスナー、ユ・サン、ニコラス・コルキン、キリアン・ワインバーガー
ICML 2015、[Paper] [Github]
2015年7月6日

文ベースのメソッド

パラグラフベクトルベースの方法

監視されていないランダムウォーク文の埋め込み：強力だがシンプルなベースライン
Kawin Ethayarajh
REPL4NLP 2018、[Paper] [Github]
2018年7月20日

文の表現を学習するための効率的なフレームワーク
Lajanugen Logeswaran、Honglak Lee
ICLR 2018、[Paper] [Github]
2018年4月30日

ユニバーサルセンテンスエンコーダー
ダニエル・カー、Yinfei Yang、Sheng-Yi Kong、Nan Hua、Nicole Limtiaco、Rhomni St. John、Noah Conster、Mario Guajardo-Cespedes、Steve Yuan、Chris Tar、Yun-Hsuan Sung、Brian Strope、Ray Kurzweil
Arxiv 2018、[Paper] [Github]
2018年4月12日

自然言語の推論データからの普遍的な文の表現の監視された学習
アレクシス・コノー、ドゥーウェ・キエラ、ホルガー・シュウェンク、ロイック・バラ、アントワーヌ・ボルズ
EMNLP 2017、[Paper] [Github]
2017年9月7日

文の埋め込みのためのシンプルだが困難なベースライン
Sanjeev Arora、Yingyu Liang、Tengyu MA
ICLR 2017、[Paper] [Github]
2017年2月6日

無効なデータからの文の分散表現を学習します
フェリックス・ヒル、キュンギョン・チョー、アンナ・コルホネン
NAACL 2016、[Paper] [Github（非公式）]]
2016年6月12日

スキップ考えベクター
ライアン・キロス、ユクン・Zhu、ルスラン・サラフヒトディノフ、リチャード・S・ゼメル、アントニオ・トラルバ、ラケル・ウルタスン、サンジャ・フィドラー
Neurips 2015、[Paper] [Github]
2015年6月22日

文と文書の分散表現
Quoc V. Le、Tomas Mikolov
ICML 2014、[紙]
2014年6月21日

事前に除去するパラダイム

より良いセマンティクスとより速い検索のための文の表現
Jianlin SU、Jiarun Cao、Weijie Liu、Yangyiwen OU
arxiv 2021、[紙] [github（tensorflow）] [github（pytorch）]]
2021年3月29日

事前に訓練された言語モデルからの文の埋め込み
Bohan Li、Hao Zhou、Junxian HE、Mingxuan Wang、Yiming Yang、Lei Li
emnlp 2020、[紙] [github]
2020年11月2日

sbert-wk：bertベースの単語モデルを分析することによる文埋め込み方法
Bin Wang、C.-C。ジェイ・クオ
IEEE/ACM T-ASLP、[Paper] [Github]
2020年7月29日

文章：Siamese Bert-Networksを使用した文の埋め込み
ニルズ・レイマーズ、イリーナ・グレビッチ
EMNLP 2019、[Paper] [Github]
2019年8月27日

バートベースのスコア

BLEURT：テキスト生成のための堅牢なメトリックを学習します
Thibault Sellam、Dipanjan Das、Ankur Parikh
ACL 2020、[Paper] [Github]
2020年7月5日

BERTSCORE：BERTでテキスト生成を評価します
Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger、Yoav Artzi
ICLR 2020、[Paper] [Github]
2020年2月24日

対照的な学習フレームワーク

最適な輸送ベースのコントラスト文学習による解釈可能なセマンティックテキストの類似性に向けて
Seonghyeon Lee、Dongha Lee、Seongbo Jang、Hwanjo Yu
ACL 2022、[Paper] [Github]
2022年5月22日

Simcse：文の埋め込みの単純な対照学習
Tianyu Gao、Xingcheng Yao、Danqi Chen
emnlp 2021、[紙] [github]
2021年6月3日

BERT文の表現のための自己ガイドの対照学習
Taeuk Kim、Kang Min Yoo、Sang-Goo Lee
ACL 2021、[Paper] [Github]
2021年6月3日

メンルト：自己教師の文の表現転送のための対照的なフレームワーク
Yuanmeng Yan、Rumei Li、Sirui Wang、Fuzheng Zhang、Wei Wu、Weiran Xu
ACL 2021、[Paper] [Github]
2021年5月25日

対照的な張力を伴うセマンティックの再調整
フレドリック・カールソン、アマル・キューバ・ギレンステン、エヴァンジェリア・ゴグルー、エリック・イリパヘルクヴィスト、マグナス・サールグレン
ICLR 2021、[Paper] [Github]
2021年5月3日

クリア：文の表現のための対照学習
Zhuofeng Wu、Sinong Wang、Jiatao Gu、Madian Khabsa、Fei Sun、Hao Ma
arxiv 2020、[紙]
2020年12月31日

距離測定

セマンティックな類似性の進化 - 調査
Dhivya Chandrasekaran、Vijay Mago
ACMコンピューティング調査2021、[Paper]
2021年2月18日

セマンティック距離の分布測定：調査
サイフ・M・モハンマド、グレーム・ハースト
Arxiv 2012、[紙]
2012年3月8日

評価メトリック

ピアソン相関

ピアソン線形相関係数 - 予測精度を測定します

$$ r = frac { sum nolimits_ {i = 1}^n left（s_i- bar {s} right） left（q_i- bar {q} 右）} { sqrt { sum nolimits_ {i = 1}^n let（s_i-bar} right）^2} sqrt { sum nolimits_ {i = 1}^n left（q_i- bar {q} right）^2}}、$$

どこ $ s_i $そして $ q_i $ゴールドラベルであり、モデルの予測は $ i $ -th文。 $ bar {s} $そして $ bar {q} $の平均値です $ textbf {s} $そして $ textbf {q} $ 。 $ n $文の数です。

スピアマンのランク相関

スピアマンのランクオーダー相関係数 - 予測単調性を測定します

$$ rho = 1- frac {6 sum nolimits_ {i = 1}^{n} d_i^2} {n left（n^2-1 right）}、$$

どこ $ d_i $の違いです $ i $ - モデルの予測とゴールドラベルにおける第thtentのランク。

引用

リストが便利だと思う場合は、出版物でレポとツールキットを引用することを検討してください。以下にbibtexエントリを提供します。

 @misc { JiaAwesomeSTS23 ,
      author = { Jia, Shuyue } ,
      title = { Awesome Semantic Textual Similarity } ,
      year = { 2023 } ,
      publisher = { GitHub } ,
      journal = { GitHub Repository } ,
      howpublished = { url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity} } ,
}

@misc { JiaAwesomeLLM23 ,
      author = { Jia, Shuyue } ,
      title = { Awesome {LLM} Self-Consistency } ,
      year = { 2023 } ,
      publisher = { GitHub } ,
      journal = { GitHub Repository } ,
      howpublished = { url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency} } ,
}

@misc { JiaPromptCraft23 ,
      author = { Jia, Shuyue } ,
      title = { {PromptCraft}: A Prompt Perturbation Toolkit } ,
      year = { 2023 } ,
      publisher = { GitHub } ,
      journal = { GitHub Repository } ,
      howpublished = { url{https://github.com/SuperBruceJia/promptcraft} } ,
}