awesome sentence embedding
1.0.0
Daftar Kalimat Pretrained dan Model Embedding yang sudah dikuratori
| tanggal | kertas | Hitungan kutipan | kode pelatihan | model pretrained |
|---|---|---|---|---|
| - | WebVektor: Toolkit untuk Membangun Antarmuka Web untuk Vektor Semantic Model | N/a | - | Rusvectōrēs |
| 2013/01 | Estimasi representasi kata yang efisien di ruang vektor | 999+ | C | Word2vec |
| 2014/12 | Representasi kata melalui Gaussian Embedding | 221 | Cython | - |
| 2014/?? | Model probabilistik untuk mempelajari embeddings kata multi-prototipe | 127 | Dmtk | - |
| 2014/?? | Embeddings kata berbasis ketergantungan | 719 | C ++ | word2vecf |
| 2014/?? | Sarung Tangan: Vektor Global untuk Representasi Kata | 999+ | C | Sarung tangan |
| 2015/06 | Representasi vektor kata yang terlalu lengkap | 129 | C ++ | - |
| 2015/06 | Dari database parafrase ke model parafrase komposisi dan kembali | 3 | Theano | Paragram |
| 2015/06 | Representasi vektor kata non-distribusi | 68 | Python | Wordfeat |
| 2015/?? | Pembelajaran bersama tentang karakter dan kata embeddings | 195 | C | - |
| 2015/?? | Sensembed: Pembelajaran Sense Embeddings untuk kata dan kesamaan relasional | 249 | - | Merasa terasa |
| 2015/?? | Embeddings kata topikal | 292 | Cython | |
| 2016/02 | Putar: meningkatkan embeddings dengan memperhatikan apa yang hilang | 61 | Tf | - |
| 2016/03 | Vektor kata-pas untuk kendala linguistik | 232 | Python | Counter-Fitting (rusak) |
| 2016/05 | Mencampur model topik Dirichlet dan embeddings kata untuk membuat lda2vec | 91 | Chainer | - |
| 2016/06 | Siamese CBOW: Mengoptimalkan embeddings kata untuk representasi kalimat | 166 | Theano | SIAMESE CBOW |
| 2016/06 | Faktorisasi matriks menggunakan pengambilan sampel jendela dan pengambilan sampel negatif untuk representasi kata yang lebih baik | 58 | Pergi | Lexvec |
| 2016/07 | Memperkaya kata vektor dengan informasi subword | 999+ | C ++ | FastText |
| 2016/08 | Prior morfologis untuk embeddings kata saraf probabilistik | 34 | Theano | - |
| 2016/11 | Model banyak tugas bersama: Menumbuhkan jaringan saraf untuk beberapa tugas NLP | 359 | C ++ | charngram2vec |
| 2016/12 | ConceptNet 5.5: Grafik multibahasa terbuka tentang pengetahuan umum | 604 | Python | NumberBatch |
| 2016/?? | Belajar kata meta-embeddings | 58 | - | Meta-emb (rusak) |
| 2017/02 | Vektor kata bilingual offline, transformasi ortogonal dan softmax terbalik | 336 | Python | - |
| 2017/04 | Distribusi kata multimodal | 57 | Tf | word2gm |
| 2017/05 | Poincaré Embeddings for Learning Hierarchical Representations | 413 | Pytorch | - |
| 2017/06 | Konteks Encoders sebagai perpanjangan yang sederhana namun kuat dari Word2Vec | 13 | Python | - |
| 2017/06 | Spesialisasi semantik ruang vektor kata distribusi menggunakan kendala monolingual dan lintas-bahasa | 99 | Tf | Tarik-repel |
| 2017/08 | Mempelajari representasi kata Cina dari mesin terbang karakter | 44 | C | - |
| 2017/08 | Masuk akal dari embeddings | 92 | Python | Sensegram |
| 2017/09 | Embeddings hash untuk representasi kata yang efisien | 25 | Keras | - |
| 2017/10 | BPEMB: Tokenisasi bebas subword embeddings dalam 275 bahasa | 91 | Gensim | Bpemb |
| 2017/11 | Tulang Belakang: Embeddings saraf yang dapat ditafsirkan jarang | 48 | Pytorch | TULANG BELAKANG |
| 2017/?? | ARAVEC: Satu set model penyematan kata Arab untuk digunakan dalam NLP Arab | 161 | Gensim | Aravec |
| 2017/?? | NGRAM2VEC: Belajar Peningkatan Representasi kata dari statistik co-kejadian NGRAM | 25 | C | - |
| 2017/?? | Dict2Vec: Pembelajaran kata embeddings menggunakan kamus leksikal | 49 | C ++ | Dict2vec |
| 2017/?? | Embeddings sendi dari kata-kata, karakter, dan komponen subcharacter berbutir halus | 63 | C | - |
| 2018/04 | Representasi tradeoff untuk embeddings hiperbolik | 120 | Pytorch | H-MDS |
| 2018/04 | Meta-embeddings dinamis untuk representasi kalimat yang lebih baik | 60 | Pytorch | DME/CDME |
| 2018/05 | Penalaran Analog tentang Hubungan Morfologis dan Semantik Cina | 128 | - | Chinesewordvectors |
| 2018/06 | FastText Probabilistik untuk Embeddings Kata Multi-Sense | 39 | C ++ | FastText Probabilistik |
| 2018/09 | Menggabungkan informasi sintaksis dan semantik dalam embeddings kata menggunakan jaringan konvolusional grafik | 3 | Tf | Syngcn |
| 2018/09 | Frage: Representasi kata frekuensi-agnostik | 64 | Pytorch | - |
| 2018/12 | Wikipedia2vec: Alat yang dioptimalkan untuk belajar kata -kata dan entitas dari Wikipedia | 17 | Cython | Wikipedia2vec |
| 2018/?? | Directional Skip-Gram: Secara eksplisit membedakan konteks kiri dan kanan untuk embeddings kata | 106 | - | Chinaembedding |
| 2018/?? | CW2VEC: Mempelajari embeddings kata Cina dengan informasi n-gram stroke | 45 | C ++ | - |
| 2019/02 | Vcwe: kata embeddings yang ditingkatkan karakter visual | 5 | Pytorch | Vcwe |
| 2019/05 | Mempelajari embeddings lintas-bahasa dari Twitter melalui pengawasan yang jauh | 2 | Teks | - |
| 2019/08 | Pendekatan saraf yang tidak diawasi tanpa pengawasan terhadap pembelajaran representasi kata dan konteks | 5 | Tf | - |
| 2019/08 | Vico: Word Embeddings dari Visual Co-Occurrences | 7 | Pytorch | Vico |
| 2019/11 | Embedding Teks Bulat | 25 | C | - |
| 2019/?? | Kata embeddings kata tanpa pengawasan menangkap pengetahuan laten dari literatur sains material | 150 | Gensim | - |
| tanggal | kertas | Hitungan kutipan | kode | model pretrained |
|---|---|---|---|---|
| - | Model bahasa adalah pelajar multitask tanpa pengawasan | N/a | Tf Pytorch, tf2.0 Keras | GPT-2 (117m, 124m, 345m, 355m, 774m, 1558m) |
| 2017/08 | Dipelajari dalam terjemahan: vektor kata kontekstual | 524 | Pytorch Keras | Teluk kecil |
| 2018/01 | Fine-tuning model bahasa universal untuk klasifikasi teks | 167 | Pytorch | Ulmfit (Bahasa Inggris, Kebun Binatang) |
| 2018/02 | Representasi kata yang dalam kontekstual | 999+ | Pytorch Tf | Elmo (Allennlp, TF-Hub) |
| 2018/04 | Representasi kontekstual yang efisien: pemangkasan model bahasa untuk pelabelan urutan | 26 | Pytorch | LD-NET |
| 2018/07 | Menuju Parsing ud yang lebih baik: embedding kata yang dikontekstualisasikan dalam, ensemble, dan penggabungan treeKank | 120 | Pytorch | Elmo |
| 2018/08 | Koneksi output langsung untuk model bahasa tinggi | 24 | Pytorch | DOKTER |
| 2018/10 | Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa | 999+ | Tf Keras Pytorch, tf2.0 Mxnet Paddlepaddle Tf Keras | Bert (Bert, Ernie, Kobert) |
| 2018/?? | Embeddings string kontekstual untuk pelabelan urutan | 486 | Pytorch | Bakat |
| 2018/?? | Meningkatkan pemahaman bahasa dengan pra-pelatihan generatif | 999+ | Tf Keras Pytorch, tf2.0 | GPT |
| 2019/01 | Jaringan saraf dalam multi-tugas untuk pemahaman bahasa alami | 364 | Pytorch | MT-DNN |
| 2019/01 | BioBert: Model representasi bahasa biomedis pra-terlatih untuk penambangan teks biomedis | 634 | Tf | Biobert |
| 2019/01 | Pretraining model bahasa lintas-bahasa | 639 | Pytorch Pytorch, tf2.0 | Xlm |
| 2019/01 | Transformer-xl: Model bahasa yang penuh perhatian di luar konteks panjang tetap | 754 | Tf Pytorch Pytorch, tf2.0 | Transformer-xl |
| 2019/02 | Pembelajaran Representasi Kontekstual yang Efisien Tanpa Lapisan Softmax | 2 | Pytorch | - |
| 2019/03 | Scibert: Embeddings kontekstual pretrain untuk teks ilmiah | 124 | Pytorch, tf | Scibert |
| 2019/04 | Embeddings Bert klinis yang tersedia untuk umum | 229 | Teks | Clinicalbert |
| 2019/04 | Clinicalbert: Pemodelan catatan klinis dan memprediksi penerimaan kembali di rumah sakit | 84 | Pytorch | Clinicalbert |
| 2019/05 | Ernie: Representasi bahasa yang ditingkatkan dengan entitas informatif | 210 | Pytorch | Ernie |
| 2019/05 | Model bahasa terpadu pra-pelatihan untuk pemahaman dan generasi bahasa alami | 278 | Pytorch | UNILMV1 (unilm1-large-cased, unilm1-base-cased) |
| 2019/05 | Hibert: Level dokumen Pra-pelatihan transformator dua arah hierarkis untuk peringkasan dokumen | 81 | - | |
| 2019/06 | Pra-pelatihan dengan seluruh kata menutupi Bert Cina | 98 | Pytorch, tf | Bert-WWM |
| 2019/06 | XLNET: pretraining autoregresif umum untuk pemahaman bahasa | 999+ | Tf Pytorch, tf2.0 | Xlnet |
| 2019/07 | Ernie 2.0: Kerangka kerja pra-pelatihan berkelanjutan untuk pemahaman bahasa | 107 | Paddlepaddle | Ernie 2.0 |
| 2019/07 | Spanbert: Meningkatkan pra-pelatihan dengan mewakili dan memprediksi rentang | 282 | Pytorch | Spanbert |
| 2019/07 | Roberta: pendekatan pretraining Bert yang dioptimalkan dengan kuat | 999+ | Pytorch Pytorch, tf2.0 | Roberta |
| 2019/09 | Subword Elmo | 1 | Pytorch | - |
| 2019/09 | Pengetahuan meningkatkan representasi kata kontekstual | 115 | - | |
| 2019/09 | Tinybert: Bert Distilling untuk Pemahaman Bahasa Alami | 129 | - | |
| 2019/09 | Megatron-LM: Pelatihan Model Bahasa Multi-Miliar Parameter Menggunakan Model Parallelism | 136 | Pytorch | Megatron-LM (BerT-345M, GPT-2-345M) |
| 2019/09 | Multifit: Fine-tuning Model Bahasa Multi-Lingual yang Efisien | 29 | Pytorch | - |
| 2019/09 | Kompresi model bahasa ekstrem dengan subword optimal dan proyeksi bersama | 32 | - | |
| 2019/09 | Mule: Embedding Bahasa Universal Multimodal | 5 | - | |
| 2019/09 | Unicoder: Encoder bahasa universal dengan pra-pelatihan dengan beberapa tugas lintas-bahasa | 51 | - | |
| 2019/09 | K-BERT: Mengaktifkan representasi bahasa dengan grafik pengetahuan | 59 | - | |
| 2019/09 | Uniter: Mempelajari representasi teks-teks universal | 60 | - | |
| 2019/09 | Albert: Lite Bert untuk pembelajaran representasi bahasa sendiri | 803 | Tf | - |
| 2019/10 | Bart: Denoising Sequence-to-Sequence Pra-Pelatihan untuk Generasi Bahasa Alami, Terjemahan, dan Pemahaman | 349 | Pytorch | Bart (bart.base, bart.large, bart.large.mnli, bart.large.cnn, bart.large.xsum) |
| 2019/10 | Distilbert, versi suling Bert: lebih kecil, lebih cepat, lebih murah dan lebih ringan | 481 | Pytorch, tf2.0 | Distilbert |
| 2019/10 | Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu | 696 | Tf | T5 |
| 2019/11 | Camembert: Model Bahasa Prancis yang Lezat | 102 | - | Keju Camembert |
| 2019/11 | Zen: Encoder Teks Tiongkok Pra-Pelatihan Ditingkatkan oleh Representasi N-Gram | 15 | Pytorch | - |
| 2019/11 | Pembelajaran representasi lintas-bahasa yang tidak diawasi pada skala | 319 | Pytorch | Xlm-r (xlm-roberta) (xlmr.large, xlmr.base) |
| 2020/01 | Prophetnet: Memprediksi N-Gram di masa depan untuk pra-pelatihan urutan-ke-urutan | 35 | Pytorch | Prophetnet (Prophetnet-Large-16GB, Prophetnet-Large-160GB) |
| 2020/02 | Codebert: Model pra-terlatih untuk pemrograman dan bahasa alami | 25 | Pytorch | Codebert |
| 2020/02 | UNILMV2: Model bahasa bertopeng semu untuk model bahasa terpadu pra-pelatihan | 33 | Pytorch | - |
| 2020/03 | Electra: Encoder teks pra-pelatihan sebagai diskriminator daripada generator | 203 | Tf | Electra (Electra-Small, Electra-Base, Electra-Large) |
| 2020/04 | MPNET: Pra-pelatihan bertopeng dan diizinkan untuk pemahaman bahasa | 5 | Pytorch | Mpnet |
| 2020/05 | Parsbert: Model Berbasis Transformer untuk Pemahaman Bahasa Persia | 1 | Pytorch | Parsbert |
| 2020/05 | Model bahasa adalah beberapa pelajar shot | 382 | - | - |
| 2020/07 | Infoxlm: Kerangka kerja-teori informasi untuk model bahasa lintas-bahasa pra-pelatihan | 12 | Pytorch | - |
| tanggal | kertas | Hitungan kutipan | kode | model_name |
|---|---|---|---|---|
| - | Adaptasi domain tambahan untuk terjemahan mesin saraf dalam pengaturan sumber daya rendah | N/a | Python | Arasif |
| 2014/05 | Representasi kalimat dan dokumen yang didistribusikan | 999+ | Pytorch Python | DOC2VEC |
| 2014/11 | Menyatukan embedding semantik visual-semantik dengan model bahasa saraf multimodal | 849 | Theano Pytorch | Vse |
| 2015/06 | Menyelaraskan buku dan film: Menuju penjelasan visual seperti cerita dengan menonton film dan membaca buku | 795 | Theano Tf Pytorch, obor | Skipthought |
| 2015/11 | Pesanan-embeding gambar dan bahasa | 354 | Theano | pesanan-embedding |
| 2015/11 | Menuju Embeddings Kalimat Parah Universal | 411 | Theano | Paragramphrase |
| 2015/?? | Dari kata embeddings ke jarak mendokumentasikan | 999+ | C, Python | Jarak Penggerak Kata |
| 2016/02 | Mempelajari representasi kalimat yang didistribusikan dari data yang tidak berlabel | 363 | Python | Fastsent |
| 2016/07 | Charagram: Menyematkan kata dan kalimat melalui karakter n-gram | 144 | Theano | Charagram |
| 2016/11 | Mempelajari representasi kalimat generik menggunakan jaringan saraf konvolusional | 76 | Theano | Konvsent |
| 2017/03 | Pembelajaran Tanpa Diawasi dari Kalimat Embeddings Menggunakan Fitur N-Gram Komposisional | 319 | C ++ | Sent2Vec |
| 2017/04 | Belajar menghasilkan ulasan dan menemukan sentimen | 293 | Tf Pytorch Pytorch | Neuron sentimen |
| 2017/05 | Meninjau kembali jaringan berulang untuk embeddings kalimat paraphrastic | 60 | Theano | Gran |
| 2017/05 | Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami | 999+ | Pytorch | Infersen |
| 2017/07 | VSE ++: Meningkatkan embeddings semantik visual dengan negatif keras | 132 | Pytorch | VSE ++ |
| 2017/08 | Menggunakan jutaan kejadian emoji untuk mempelajari representasi domain untuk mendeteksi sentimen, emosi, dan sarkasme | 357 | Keras Pytorch | Deepmoji |
| 2017/09 | Starspace: Sematkan semua hal! | 129 | C ++ | Starspace |
| 2017/10 | Dissent: mempelajari representasi kalimat dari hubungan wacana eksplisit | 47 | Pytorch | Perbedaan pendapat |
| 2017/11 | Mendorong Batas Embeddings Kalimat Paraphrastik Dengan Jutaan Terjemahan Mesin | 128 | Theano | Para-nmt |
| 2017/11 | Dual-Path Convolutional Image-Text Embedding Dengan Kehilangan Contoh | 44 | Matlab | Gambar-teks-embedding |
| 2018/03 | Kerangka kerja yang efisien untuk representasi kalimat belajar | 183 | Tf | Pemikiran cepat |
| 2018/03 | Encoder Kalimat Universal | 564 | Tf-hub | MENGGUNAKAN |
| 2018/04 | End End-Task Berorientasi Tekstual Perusahaan melalui Eksplorasi Deep Interaction Antar-hukuman | 14 | Theano | Deiste |
| 2018/04 | Belajar Tujuan Umum Representasi Kalimat Terdistribusi melalui Pembelajaran Multi-Tugas Skala Besar | 198 | Pytorch | Gensen |
| 2018/06 | Menanamkan teks di ruang hiperbolik | 50 | Tf | Hypertext |
| 2018/07 | Pembelajaran representasi dengan pengkodean prediktif yang kontras | 736 | Keras | CPC |
| 2018/08 | Konteks Jarak & Barycenter Penggerak: Transportasi Optimal Konteks untuk Bangunan Representasi | 8 | Python | Cmd |
| 2018/09 | Belajar representasi kalimat universal dengan autoencoder perhatian-max-max | 14 | Tf | Mean-Maxaae |
| 2018/10 | Mempelajari representasi kalimat lintas-bahasa melalui model dual-encoder multi-tugas | 35 | Tf-hub | Use-xling |
| 2018/10 | Meningkatkan representasi kalimat dengan maksimalisasi konsensus | 4 | - | Multi-View |
| 2018/10 | Biosentvec: Membuat Embeddings Kalimat untuk Teks Biomedis | 70 | Python | Biosentvec |
| 2018/11 | Word Mover's Embedding: Dari Word2Vec ke Embedding Dokumen | 47 | C, Python | WordMoversembeddings |
| 2018/11 | Pendekatan multi-tugas hierarkis untuk belajar embeddings dari tugas semantik | 76 | Pytorch | Hmtl |
| 2018/12 | Embeddings kalimat multibahasa besar-besaran untuk transfer lintas-bahasa nol-tembakan dan seterusnya | 238 | Pytorch | LASER |
| 2018/?? | Jaringan saraf konvolusional untuk embeddings kalimat universal | 6 | Theano | CSE |
| 2019/01 | Tidak diperlukan pelatihan: Menjelajahi encoder acak untuk klasifikasi kalimat | 54 | Pytorch | Randsent |
| 2019/02 | CBOW tidak semua yang Anda butuhkan: Menggabungkan CBOW dengan model ruang matriks komposisi | 4 | Pytorch | Cmow |
| 2019/07 | Gloss: Optimalisasi Laten Generatif Representasi Kalimat | 1 | - | Gloss |
| 2019/07 | Encoder kalimat universal multibahasa | 52 | Tf-hub | Multilingualuse |
| 2019/08 | Kalimat-Bert: Embeddings Kalimat Menggunakan Siames Bert-Networks | 261 | Pytorch | Kalimat-Bert |
| 2020/02 | Sbert-WK: Metode penyematan kalimat dengan membedah model kata berbasis Bert | 11 | Pytorch | Sbert-WK |
| 2020/06 | Deklutr: Pembelajaran Kontras yang mendalam untuk representasi tekstual tanpa pengawasan | 4 | Pytorch | Deklutr |
| 2020/07 | Embedding kalimat agnostik-agnostik | 5 | Tf-hub | Labse |
| 2020/11 | Pada kalimat embeddings dari model bahasa pra-terlatih | 0 | Tf | Bert-flow |