awesome sentence embedding
1.0.0
事前に守られた文と単語の埋め込みモデルのキュレーションリスト
| 日付 | 紙 | 引用数 | トレーニングコード | 前処理されたモデル |
|---|---|---|---|---|
| - | WebVectors:ベクターセマンティックモデル用のWebインターフェイスを構築するためのツールキット | n/a | - | rusvectōrēs |
| 2013/01 | ベクトル空間における単語表現の効率的な推定 | 999+ | c | word2vec |
| 2014/12 | ガウス埋め込みによる単語表現 | 221 | システン | - |
| 2014/?? | マルチプロトタイプワードの埋め込みを学習するための確率モデル | 127 | dmtk | - |
| 2014/?? | 依存関係ベースの単語埋め込み | 719 | C ++ | word2vecf |
| 2014/?? | グローブ:単語表現のグローバルベクター | 999+ | c | グローブ |
| 2015/06 | まばらな過剰完成単語ベクトル表現 | 129 | C ++ | - |
| 2015/06 | 言い換えデータベースから組成の言い換えモデルと背面まで | 3 | シーノ | パラグラム |
| 2015/06 | 非分配ワードベクトル表現 | 68 | Python | ワードフィート |
| 2015/?? | キャラクターと単語の埋め込みの共同学習 | 195 | c | - |
| 2015/?? | sensembed:単語と関係の類似性のための埋め込みを学習します | 249 | - | センス |
| 2015/?? | 局所的な単語の埋め込み | 292 | システン | |
| 2016/02 | Swivel:不足しているものに気付くことで埋め込みを改善します | 61 | TF | - |
| 2016/03 | 言語制約に対するカウンターフィットワードベクトル | 232 | Python | カウンターフィッティング(壊れた) |
| 2016/05 | LDA2VECを作成するためのDirichletトピックモデルと単語埋め込み | 91 | チェーン | - |
| 2016/06 | シャムCBOW:文の表現のための単語埋め込みの最適化 | 166 | シーノ | シャムcbow |
| 2016/06 | ワード表現を改善するためのウィンドウサンプリングと否定的なサンプリングを使用したマトリックス因子化 | 58 | 行く | lexvec |
| 2016/07 | サブワード情報で単語ベクトルを濃縮します | 999+ | C ++ | fastText |
| 2016/08 | 確率的神経単語の埋め込みの形態学的前症 | 34 | シーノ | - |
| 2016/11 | 共同多くのタスクモデル:複数のNLPタスクのニューラルネットワークの栽培 | 359 | C ++ | charngram2vec |
| 2016/12 | ConceptNet 5.5:一般的な知識のオープン多言語グラフ | 604 | Python | ナンバーバッチ |
| 2016/?? | 学習ワードメタ埋め込み | 58 | - | メタメブ(壊れた) |
| 2017/02 | オフラインのバイリンガルワードベクトル、直交変換、逆のソフトマックス | 336 | Python | - |
| 2017/04 | マルチモーダルワード分布 | 57 | TF | word2gm |
| 2017/05 | 階層表現を学習するためのポアンカレ埋め込み | 413 | Pytorch | - |
| 2017/06 | Word2vecのシンプルだが強力な拡張機能としてのコンテキストエンコーダー | 13 | Python | - |
| 2017/06 | 単一言語的および横断的制約を使用した分布ワードベクトル空間のセマンティック専門化 | 99 | TF | 魅力的なレペル |
| 2017/08 | キャラクターのグリフから中国語の単語表現を学ぶ | 44 | c | - |
| 2017/08 | 単語の埋め込みの意味を理解します | 92 | Python | Sensegram |
| 2017/09 | 効率的な単語表現のためのハッシュ埋め込み | 25 | ケラス | - |
| 2017/10 | BPEMB:275言語のトークン化のない事前訓練を受けたサブワード埋め込み | 91 | 原因 | bpemb |
| 2017/11 | 背骨:まばらな解釈可能な神経埋め込み | 48 | Pytorch | 脊椎 |
| 2017/?? | Aravec:アラビア語NLPで使用するためのアラビア語の埋め込みモデルのセット | 161 | 原因 | アラベック |
| 2017/?? | NGRAM2VEC:NGRAM共起統計からの学習の改善された単語表現 | 25 | c | - |
| 2017/?? | DICT2VEC:語彙辞書を使用した単語埋め込みの学習 | 49 | C ++ | dict2vec |
| 2017/?? | 中国語の単語、キャラクター、細粒子サブチャージャーコンポーネントの共同埋め込み | 63 | c | - |
| 2018/04 | 双曲線埋め込みの表現トレードオフ | 120 | Pytorch | H-MDS |
| 2018/04 | 改善された文の表現のための動的メタ埋め込み | 60 | Pytorch | DME/CDME |
| 2018/05 | 中国の形態学的および意味的関係に関する類似の推論 | 128 | - | 中国語vectors |
| 2018/06 | マルチセンスワード埋め込みの確率的ファストテキスト | 39 | C ++ | 確率的ファストテキスト |
| 2018/09 | グラフ畳み込みネットワークを使用して、単語埋め込みに構文情報とセマンティック情報を組み込む | 3 | TF | syngcn |
| 2018/09 | FRAGE:周波数に依存しない単語表現 | 64 | Pytorch | - |
| 2018/12 | wikipedia2vec:Wikipediaの単語やエンティティのembeddingsのための最適化されたツール | 17 | システン | wikipedia2vec |
| 2018/?? | 方向性スキップグラム:単語埋め込みの左右のコンテキストを明示的に区別する | 106 | - | 中国語編み |
| 2018/?? | CW2VEC:ストロークn-Gram情報で中国語の単語埋め込みを学ぶ | 45 | C ++ | - |
| 2019/02 | VCWE:視覚的なキャラクターが強化された単語埋め込み | 5 | Pytorch | vcwe |
| 2019/05 | 遠くの監督を介してTwitterからの横断的な埋め込みを学ぶ | 2 | 文章 | - |
| 2019/08 | 単語とコンテキストの表現学習に対する監視されていないキャラクター認識ニューラルアプローチ | 5 | TF | - |
| 2019/08 | Vico:視覚的な共起からの単語埋め込み | 7 | Pytorch | Vico |
| 2019/11 | 球状のテキスト埋め込み | 25 | c | - |
| 2019/?? | 監視されていない単語埋め込みは、材料科学の文献から潜在的な知識を捉えています | 150 | 原因 | - |
| 日付 | 紙 | 引用数 | コード | 前処理されたモデル |
|---|---|---|---|---|
| - | 言語モデルは、教師のないマルチタスク学習者です | n/a | TF Pytorch、TF2.0 ケラス | GPT-2(117m、124m、345m、355m、774m、1558m) |
| 2017/08 | 翻訳で学んだ:コンテキスト化された単語ベクトル | 524 | Pytorch ケラス | 入り江 |
| 2018/01 | テキスト分類のためのユニバーサル言語モデル微調整 | 167 | Pytorch | ulmfit(英語、動物園) |
| 2018/02 | 深い文脈化された単語表現 | 999+ | Pytorch TF | elmo(allennlp、tf-hub) |
| 2018/04 | 効率的なコンテキスト表現:シーケンスラベル付けの言語モデル剪定 | 26 | Pytorch | ld-net |
| 2018/07 | より良いUD解析に向けて:深い文脈化された単語の埋め込み、アンサンブル、およびツリーバンクの連結 | 120 | Pytorch | エルモ |
| 2018/08 | 高ランク言語モデルの直接出力接続 | 24 | Pytorch | doc |
| 2018/10 | BERT:言語理解のための深い双方向変圧器の事前訓練 | 999+ | TF ケラス Pytorch、TF2.0 mxnet パドルパドル TF ケラス | バート(バート、アーニー、コバート) |
| 2018/?? | シーケンスラベル付けのコンテキスト文字列埋め込み | 486 | Pytorch | フレア |
| 2018/?? | 生成前のトレーニングによる言語理解の向上 | 999+ | TF ケラス Pytorch、TF2.0 | gpt |
| 2019/01 | 自然言語理解のためのマルチタスクディープニューラルネットワーク | 364 | Pytorch | mt-dnn |
| 2019/01 | Biobert:生物医学テキストマイニングのための事前に訓練された生物医学言語表現モデル | 634 | TF | Biobert |
| 2019/01 | 横断言語モデルの事前削除 | 639 | Pytorch Pytorch、TF2.0 | XLM |
| 2019/01 | Transformer-XL:固定長のコンテキストを超えた注意深い言語モデル | 754 | TF Pytorch Pytorch、TF2.0 | トランス-XL |
| 2019/02 | ソフトマックス層なしの効率的なコンテキスト表現学習 | 2 | Pytorch | - |
| 2019/03 | Scibert:科学的なテキストのための前提条件の文脈化された埋め込み | 124 | Pytorch、TF | Scibert |
| 2019/04 | 公開されている臨床バート埋め込み | 229 | 文章 | ClinicalBert |
| 2019/04 | ClinicalBert:臨床ノートのモデリングと病院の再入院の予測 | 84 | Pytorch | ClinicalBert |
| 2019/05 | アーニー:有益なエンティティを使用した言語表現の強化 | 210 | Pytorch | アーニー |
| 2019/05 | 自然言語の理解と生成のための事前トレーニングの統一言語モデル | 278 | Pytorch | unilmv1(unilm1-large-cased、unilm1-base-cased) |
| 2019/05 | Hibert:ドキュメントの要約のための階層的双方向変圧器のドキュメントレベルの事前トレーニング | 81 | - | |
| 2019/06 | 中国のバートのための単語全体のマスキングでトレーニング前 | 98 | Pytorch、TF | bert-wwm |
| 2019/06 | XLNET:言語理解のための一般化された自己回帰事前削除 | 999+ | TF Pytorch、TF2.0 | xlnet |
| 2019/07 | アーニー2.0:言語理解のための継続的なトレーニング前のフレームワーク | 107 | パドルパドル | アーニー2.0 |
| 2019/07 | Spanbert:スパンを表現および予測することにより、トレーニング前の改善 | 282 | Pytorch | スパンバート |
| 2019/07 | Roberta:堅牢に最適化されたBert Pretrainingアプローチ | 999+ | Pytorch Pytorch、TF2.0 | ロベルタ |
| 2019/09 | サブワードエルモ | 1 | Pytorch | - |
| 2019/09 | 知識が強化されたコンテキストワード表現 | 115 | - | |
| 2019/09 | Tinybert:自然言語の理解のためのバートの蒸留 | 129 | - | |
| 2019/09 | Megatron-LM:モデル並列性を使用した数十億パラメーター言語モデルのトレーニング | 136 | Pytorch | Megatron-LM(Bert-345M、GPT-2-345M) |
| 2019/09 | マルチフィット:効率的な多言語モデル微調整 | 29 | Pytorch | - |
| 2019/09 | 最適なサブワードと共有投影による極端な言語モデルの圧縮 | 32 | - | |
| 2019/09 | ラバ:マルチモーダルユニバーサル言語埋め込み | 5 | - | |
| 2019/09 | Unicoder:複数のクロスリンガルタスクを使用した事前トレーニングによるユニバーサル言語エンコーダー | 51 | - | |
| 2019/09 | K-Bert:知識グラフで言語表現を有効にします | 59 | - | |
| 2019/09 | Uniter:普遍的な画像テキスト表現の学習 | 60 | - | |
| 2019/09 | アルバート:言語表現の自己監督の学習のためのライトバート | 803 | TF | - |
| 2019/10 | BART:自然言語の生成、翻訳、および理解のためのシーケンスからシーケンス前訓練 | 349 | Pytorch | bart(bart.base、bart.large、bart.large.mnli、bart.large.cnn、bart.large.xsum) |
| 2019/10 | Distilbert、Bertの蒸留バージョン:より小さく、より速く、安く、軽い | 481 | Pytorch、TF2.0 | Distilbert |
| 2019/10 | 統一されたテキストツーテキスト変圧器で転送学習の限界を探る | 696 | TF | T5 |
| 2019/11 | Camembert:おいしいフランス語モデル | 102 | - | カマンベール |
| 2019/11 | Zen:N-GRAM表現によって強化された中国のテキストエンコーダーを事前に訓練します | 15 | Pytorch | - |
| 2019/11 | 大規模な監視されていない言語表現学習 | 319 | Pytorch | xlm-r(xlm-roberta)(xlmr.large、xlmr.base) |
| 2020/01 | Prophetnet:シーケンスからシーケンス前トレーニングの将来のNグラムを予測します | 35 | Pytorch | Prophetnet(Prophetnet-Large-16GB、Prophetnet-Large-160GB) |
| 2020/02 | Codebert:プログラミングおよび自然言語のための事前に訓練されたモデル | 25 | Pytorch | コードバート |
| 2020/02 | Unilmv2:統一言語モデルの事前トレーニング用の擬似マスク言語モデル | 33 | Pytorch | - |
| 2020/03 | Electra:テキストエンコーダーは、発電機ではなく判別器としてエンコーダを行います | 203 | TF | Electra(Electra-Small、Electra-Base、Electra-Large) |
| 2020/04 | MPNET:言語理解のための事前トレーニングをマスクし、順応させました | 5 | Pytorch | mpnet |
| 2020/05 | Parsbert:ペルシャ語の理解のためのトランスベースのモデル | 1 | Pytorch | パースバート |
| 2020/05 | 言語モデルは、少ないショット学習者です | 382 | - | - |
| 2020/07 | infoxlm:継承前の言語モデルの事前トレーニングのための情報理論的フレームワーク | 12 | Pytorch | - |
| 日付 | 紙 | 引用数 | コード | model_name |
|---|---|---|---|---|
| - | 低リソース設定での神経機械翻訳のための増分ドメイン適応 | n/a | Python | アラシフ |
| 2014/05 | 文と文書の分散表現 | 999+ | Pytorch Python | doc2vec |
| 2014/11 | マルチモーダルニューラル言語モデルを使用した視覚セマンな埋め込みを統合します | 849 | シーノ Pytorch | VSE |
| 2015/06 | 本や映画の調整:映画を見たり本を読んだりすることで、物語のような視覚的説明に向けて | 795 | シーノ TF Pytorch、Torch | スキップされた |
| 2015/11 | 画像と言語の注文埋め込み | 354 | シーノ | 注文埋め込み |
| 2015/11 | 普遍的な言い換え文の埋め込みに向けて | 411 | シーノ | 段落 |
| 2015/?? | 単語の埋め込みから文書化距離まで | 999+ | C、Python | ワードムーバーの距離 |
| 2016/02 | 無効なデータからの文の分散表現を学習します | 363 | Python | fastSent |
| 2016/07 | Charagram:文字n-gramsを介して単語と文を埋め込みます | 144 | シーノ | Charagram |
| 2016/11 | 畳み込みニューラルネットワークを使用した一般的な文の表現を学習します | 76 | シーノ | 説得力 |
| 2017/03 | 構成n-Gram機能を使用した文の埋め込みの教師なし学習 | 319 | C ++ | sent2vec |
| 2017/04 | レビューを生成することを学び、感情を発見します | 293 | TF Pytorch Pytorch | センチメントニューロン |
| 2017/05 | 言い換え文の埋め込みのための再発ネットワークを再検討します | 60 | シーノ | グラン |
| 2017/05 | 自然言語の推論データからの普遍的な文の表現の監視された学習 | 999+ | Pytorch | サーサン |
| 2017/07 | VSE ++:ハードネガで視覚セマンティックな埋め込みを改善します | 132 | Pytorch | VSE ++ |
| 2017/08 | 何百万もの絵文字の発生を使用して、感情、感情、皮肉を検出するためのドメイン表現を学習します | 357 | ケラス Pytorch | deepmoji |
| 2017/09 | Starspace:すべてのものを埋め込みました! | 129 | C ++ | スタースペース |
| 2017/10 | 異議:明示的な談話関係からの文の表現を学ぶ | 47 | Pytorch | 反対 |
| 2017/11 | 数百万の機械の翻訳で言い換え文の埋め込みの限界を押し付ける | 128 | シーノ | パラ-NMT |
| 2017/11 | インスタンス損失を伴うデュアルパスの畳み込み画像テキスト埋め込み | 44 | マトラブ | 画像テキスト埋め込み |
| 2018/03 | 文の表現を学習するための効率的なフレームワーク | 183 | TF | 迅速な考え |
| 2018/03 | ユニバーサルセンテンスエンコーダー | 564 | tf-hub | 使用 |
| 2018/04 | センテンス間の相互作用の深い探索によるエンドタスク指向のテキスト誘惑 | 14 | シーノ | ディーステ |
| 2018/04 | 学習汎用大規模マルチタスク学習を介して、分散文の表現 | 198 | Pytorch | ジェンセン |
| 2018/06 | 双曲線空間にテキストを埋め込む | 50 | TF | ハイパーテキスト |
| 2018/07 | 対照的な予測コーディングによる表現学習 | 736 | ケラス | CPC |
| 2018/08 | コンテキストムーバーの距離と隔離器:構築表現のためのコンテキストの最適な輸送 | 8 | Python | CMD |
| 2018/09 | Mean-Max Atterness Autoencoderを使用して、ユニバーサル文の表現を学習します | 14 | TF | 平均マクサエ |
| 2018/10 | マルチタスクデュアルエンコーダーモデルを介した言語間文の表現を学習します | 35 | tf-hub | ユース - xling |
| 2018/10 | コンセンサスの最大化により文の表現を改善します | 4 | - | マルチビュー |
| 2018/10 | BiosentVec:生物医学テキストの文の埋め込みを作成します | 70 | Python | Biosentvec |
| 2018/11 | Word Moverの埋め込み:Word2vecからドキュメントの埋め込み | 47 | C、Python | wordmoversembedings |
| 2018/11 | セマンティックタスクから埋め込みを学習するための階層的なマルチタスクアプローチ | 76 | Pytorch | hmtl |
| 2018/12 | ゼロショットクロスリンガル転送およびその他 | 238 | Pytorch | レーザ |
| 2018/?? | 普遍的な文の埋め込みのための畳み込みニューラルネットワーク | 6 | シーノ | CSE |
| 2019/01 | トレーニングは必要ありません:文の分類のためのランダムエンコーダーの探索 | 54 | Pytorch | ランドセント |
| 2019/02 | cbowはあなたが必要とするすべてではありません:cbowと組成マトリックス空間モデルを組み合わせる | 4 | Pytorch | cmow |
| 2019/07 | Gloss:文表現の生成潜在的最適化 | 1 | - | 光沢 |
| 2019/07 | 多言語のユニバーサル文エンコーダー | 52 | tf-hub | 多言語 |
| 2019/08 | 文章:Siamese Bert-Networksを使用した文の埋め込み | 261 | Pytorch | 文 - バート |
| 2020/02 | sbert-wk:bertベースの単語モデルを分析することによる文埋め込み方法 | 11 | Pytorch | sbert-wk |
| 2020/06 | Declutr:監視されていないテキスト表現のための深い対照学習 | 4 | Pytorch | Declutr |
| 2020/07 | 言語に依存しないバート文の埋め込み | 5 | tf-hub | ラボ |
| 2020/11 | 事前に訓練された言語モデルからの文の埋め込み | 0 | TF | バートフロー |