awesome sentence embedding
1.0.0
Eine kuratierte Liste von vorbereiteten Satz- und Wortbettungsmodellen
| Datum | Papier | Zitat | Trainingscode | Vorbereitete Modelle |
|---|---|---|---|---|
| - - | WebVectors: Ein Toolkit zum Erstellen von Weboberflächen für semantische Vektormodelle | N / A | - - | Rusvectōrēs |
| 2013/01 | Effiziente Schätzung von Wortdarstellungen im Vektorraum | 999+ | C | Word2Vec |
| 2014/12 | Wortdarstellungen über Gaußsche Einbettung | 221 | Cython | - - |
| 2014/?? | Ein probabilistisches Modell zum Lernen von Multi-Prototyp-Wort-Einbettungen | 127 | DMTK | - - |
| 2014/?? | Abhängigen basierte Worteinbettungen | 719 | C ++ | Word2VECF |
| 2014/?? | Handschuh: Globale Vektoren für Wortrepräsentation | 999+ | C | Handschuh |
| 2015/06 | Spärliche Überkompetenz von Wortvektordarstellungen | 129 | C ++ | - - |
| 2015/06 | Von der Paraphrase -Datenbank über das Kompositional -Paraphrase -Modell und zurück | 3 | Theano | Abschnitt |
| 2015/06 | Nicht-Verteilungs-Wort-Vektor-Darstellungen | 68 | Python | Wortfeat |
| 2015/?? | Joint Lernen von Charakter und Wort Einbettungen | 195 | C | - - |
| 2015/?? | Sensembed: Lerngefühl Einbettung für Wort und relationale Ähnlichkeit | 249 | - - | Sensembed |
| 2015/?? | Topische Wort Einbettung | 292 | Cython | |
| 2016/02 | Schwenk: Verbesserung der Einbettungen, indem er bemerkt, was fehlt, was fehlt | 61 | Tf | - - |
| 2016/03 | Gegenanpassungswortvektoren zu sprachlichen Einschränkungen | 232 | Python | Gegenanpassung (gebrochen) |
| 2016/05 | Mischen von Dirichlet -Themenmodellen und Worteinbettungen, um LDA2VEC zu machen | 91 | Kette | - - |
| 2016/06 | Siamese CBOW: Optimierung der Worteinbettungen für Satzdarstellungen | 166 | Theano | Siamese CBOW |
| 2016/06 | Matrixfaktorisierung unter Verwendung einer Fensterabtastung und negativer Abtastung für verbesserte Wortdarstellungen | 58 | Gehen | Lexvec |
| 2016/07 | Anreicherung von Wortvektoren mit Subwordinformationen | 999+ | C ++ | FastText |
| 2016/08 | Morphologische Priors für probabilistische neuronale Wortbettendings | 34 | Theano | - - |
| 2016/11 | Ein gemeinsames Modell mit vielen Aufgaben: Wachstum eines neuronalen Netzwerks für mehrere NLP-Aufgaben | 359 | C ++ | Charngram2Vec |
| 2016/12 | Conceptnet 5.5: ein offenes mehrsprachiges Diagramm von Allgemeinwissen | 604 | Python | Numberbatch |
| 2016/?? | Lernwort-Meta-Embedings | 58 | - - | Meta-EMB (gebrochen) |
| 2017/02 | Zweisprachige Offline -Wortvektoren, orthogonale Transformationen und der umgekehrte Softmax | 336 | Python | - - |
| 2017/04 | Multimodale Wortverteilungen | 57 | Tf | Word2GM |
| 2017/05 | Poincaré Einbettungen zum Lernen hierarchischer Darstellungen | 413 | Pytorch | - - |
| 2017/06 | Kontext -Encoder als einfache, aber leistungsfähige Erweiterung von Word2VEC | 13 | Python | - - |
| 2017/06 | Semantische Spezialisierung von Verteilungswortvektorräumen unter Verwendung einsprachiger und bringlicher Einschränkungen | 99 | Tf | Wiederholung anziehen |
| 2017/08 | Lernen chinesischer Wortrepräsentationen aus Glyphen von Charakteren | 44 | C | - - |
| 2017/08 | Worteinbettungen verstehen | 92 | Python | Sensegram |
| 2017/09 | Hash -Einbettungen für effiziente Wortdarstellungen | 25 | Keras | - - |
| 2017/10 | BPEMB: Tokenization-frei vorgebrachte Subword-Einbettungen in 275 Sprachen | 91 | Gensim | BPEMB |
| 2017/11 | Wirbelsäule: spärliche interpretierbare neuronale Einbettungen | 48 | Pytorch | WIRBELSÄULE |
| 2017/?? | ARAVEC: Eine Reihe arabischer Wortbettungsmodelle für die Verwendung in arabischem NLP | 161 | Gensim | Aravec |
| 2017/?? | NGram2VEC: Lernen verbesserte Wortdarstellungen aus NGRAM-Ko-Auftreten Statistik | 25 | C | - - |
| 2017/?? | Dict2Vec: Lernworteinbettungen mit lexikalischen Wörterbüchern | 49 | C ++ | Dict2Vec |
| 2017/?? | Gemeinsame Einbettungen chinesischer Wörter, Zeichen und feinkörniger Subcharakterkomponenten | 63 | C | - - |
| 2018/04 | Repräsentationskompromisse für hyperbolische Einbettungen | 120 | Pytorch | H-Mds |
| 2018/04 | Dynamische Meta-Embedings für verbesserte Satzdarstellungen | 60 | Pytorch | DME/CDME |
| 2018/05 | Analoges Denken auf chinesische morphologische und semantische Beziehungen | 128 | - - | Chinesische WordVektoren |
| 2018/06 | Probabilistische FastText für Multi-Senszen-Wort-Einbettungen | 39 | C ++ | Probabilistischer FastText |
| 2018/09 | Einbeziehung von syntaktischen und semantischen Informationen in Word -Einbettungen unter Verwendung von Graph -Faltungsnetzwerken | 3 | Tf | Syngcn |
| 2018/09 | Frage: Frequenz-agnostische Wortdarstellung | 64 | Pytorch | - - |
| 2018/12 | Wikipedia2VEC: Ein optimiertes Werkzeug für Lernen von Wörtern und Entitäten aus Wikipedia | 17 | Cython | Wikipedia2Vec |
| 2018/?? | Richtungs-Skip-Gramm: Unterscheidet ausdrücklich den linken und rechten Kontext für Worteinbettungen | 106 | - - | Chinesischem Beding |
| 2018/?? | CW2VEC: Lernen chinesisches Wort Einbettung mit Schlaganfall n-Gramminformationen | 45 | C ++ | - - |
| 2019/02 | VCWE: Visuelles charakterverstärktes Wort Einbettungen | 5 | Pytorch | Vcwe |
| 2019/05 | Lernende lingende Einbettungen von Twitter über entfernte Überwachung | 2 | Text | - - |
| 2019/08 | Ein unbeaufsichtigter charakterbewusster neuronaler Ansatz zum Lernen von Wort und Kontextrepräsentation | 5 | Tf | - - |
| 2019/08 | VICO: Wortbettungen aus visuellen Co-Auftreten | 7 | Pytorch | Vico |
| 2019/11 | Einbettung des sphärischen Textes | 25 | C | - - |
| 2019/?? | Unüberwachte Worteinbettungen erfassen latente Wissen aus der Materialwissenschaftliteratur | 150 | Gensim | - - |
| Datum | Papier | Zitat | Code | Vorbereitete Modelle |
|---|---|---|---|---|
| - - | Sprachmodelle sind unbeaufsichtigte Multitasking -Lernende | N / A | Tf Pytorch, tf2.0 Keras | GPT-2 (117 m, 124 m, 345 m, 355 m, 774 m, 1558 m) |
| 2017/08 | In Übersetzung gelernt: kontextualisierte Wortvektoren | 524 | Pytorch Keras | Bucht |
| 2018/01 | Allgemeine Sprachmodell Feinabstimmung für die Textklassifizierung | 167 | Pytorch | Ulmfit (Englisch, Zoo) |
| 2018/02 | Tiefe kontextualisierte Wortdarstellungen | 999+ | Pytorch Tf | Elmo (Allennlp, TF-Hub) |
| 2018/04 | Effiziente kontextualisierte Darstellung: Sprachmodell -Schnitt für die Sequenzmarkierung | 26 | Pytorch | Ld-net |
| 2018/07 | Auf dem Weg zu besserer UD -Parsing: Tiefe kontextualisierte Wortbettendings, Ensemble und Baumbankverhütung | 120 | Pytorch | Elmo |
| 2018/08 | Direkte Ausgangsverbindung für ein hochrangiges Sprachmodell | 24 | Pytorch | Dokument |
| 2018/10 | Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis | 999+ | Tf Keras Pytorch, tf2.0 Mxnet Paddlepaddle Tf Keras | Bert (Bert, Ernie, Kobert) |
| 2018/?? | Kontextstring -Einbettungen für die Sequenzmarkierung | 486 | Pytorch | Flair |
| 2018/?? | Verbesserung des Sprachverständnisses durch generatives Vorbild | 999+ | Tf Keras Pytorch, tf2.0 | Gpt |
| 2019/01 | Multi-Task-tiefe neuronale Netzwerke für das Verständnis der natürlichen Sprache | 364 | Pytorch | MT-DNN |
| 2019/01 | Biobert: Vorausgebildeter biomedizinischer Sprachdarstellungsmodell für biomedizinischen Textabbau | 634 | Tf | Biobert |
| 2019/01 | Cross-Langual Language Model Vorbetrieb | 639 | Pytorch Pytorch, tf2.0 | Xlm |
| 2019/01 | Transformator-XL: aufmerksame Sprachmodelle über einen Kontext mit fester Länge hinaus | 754 | Tf Pytorch Pytorch, tf2.0 | Transformator-XL |
| 2019/02 | Effizientes Lernen der Kontextrepräsentation ohne Softmax -Schicht | 2 | Pytorch | - - |
| 2019/03 | Scibert: Vorbereitete kontextualisierte Einbettungen für wissenschaftlichen Text | 124 | Pytorch, tf | Scibert |
| 2019/04 | Öffentlich verfügbare klinische Bert -Einbettungen | 229 | Text | Clinicalbert |
| 2019/04 | Clinicalbert: Modellierung klinischer Notizen und Vorhersage der Rückübernahme des Krankenhauses | 84 | Pytorch | Clinicalbert |
| 2019/05 | Ernie: Verbesserte Sprachdarstellung mit informativen Einheiten | 210 | Pytorch | Ernie |
| 2019/05 | Einheitliches Sprachmodell vor der Ausbildung für das Verständnis und die Erzeugung natürlicher Sprache | 278 | Pytorch | UNILMV1 (UNILM1-LARGE-CAUBEL, UNILM1-BASE-CADS) |
| 2019/05 | Hibert: Dokumentstufe Voraberziehung hierarchischer bidirektionaler Transformatoren für die Zusammenfassung der Dokumente | 81 | - - | |
| 2019/06 | Vorausbildung mit ganzem Wortmaskieren für chinesische Bert | 98 | Pytorch, tf | Bert-wwm |
| 2019/06 | XLNET: Verallgemeinerte autoregressive Vorbereitung für das Sprachverständnis | 999+ | Tf Pytorch, tf2.0 | Xlnet |
| 2019/07 | Ernie 2.0: Ein kontinuierlicher Framework vor dem Training für das Sprachverständnis | 107 | Paddlepaddle | Ernie 2.0 |
| 2019/07 | Spanbert: Verbesserung der Vorausbildung durch Vertretung und Vorhersage von Spannweiten | 282 | Pytorch | Spanbert |
| 2019/07 | Roberta: Ein robust optimierter Bert -Vorab -Ansatz | 999+ | Pytorch Pytorch, tf2.0 | Roberta |
| 2019/09 | Subword Elmo | 1 | Pytorch | - - |
| 2019/09 | Wissen verstärkte kontextbezogene Wortdarstellungen | 115 | - - | |
| 2019/09 | Tinybert: Bert für das Verständnis der natürlichen Sprache destillieren | 129 | - - | |
| 2019/09 | Megatron-LM: Training von Multi-Milliarden-Parametersprachenmodellen unter Verwendung der Modellparallelität | 136 | Pytorch | Megatron-lm (BERT-345M, GPT-2-345M) |
| 2019/09 | Multifit: effizientes multisprachiges Sprachmodell Feinabstimmung | 29 | Pytorch | - - |
| 2019/09 | Extremsprachmodellkomprimierung mit optimalen Unterwörtern und gemeinsam genutzten Projektionen | 32 | - - | |
| 2019/09 | Maultier: multimodale universelle Spracheinbettung | 5 | - - | |
| 2019/09 | Unicoder: Ein universeller Sprachcodierer durch Voraberziehung mit mehreren Kreuzungsaufgaben | 51 | - - | |
| 2019/09 | K-Tbert: Ermöglicht die Sprachdarstellung mit Wissensgrafik | 59 | - - | |
| 2019/09 | Uniter: Lernen universeller Bild-Text-Darstellungen | 60 | - - | |
| 2019/09 | Albert: Ein Lite Bert für das selbstbewertete Lernen von Sprachdarstellungen | 803 | Tf | - - |
| 2019/10 | BART: Denoising Sequenz-zu-Sequenz-Vorausbildung für die Erzeugung, Übersetzung und das Verständnis der natürlichen Sprache | 349 | Pytorch | Bart (Bart.Base, Bart.Large, Bart.Large.Mnli, Bart.Large.cnn, Bart.Large.xsum) |
| 2019/10 | Distilbert, eine destillierte Version von Bert: kleiner, schneller, billiger und leichter | 481 | Pytorch, tf2.0 | Distilbert |
| 2019/10 | Erforschen der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator | 696 | Tf | T5 |
| 2019/11 | Camembert: Ein leckeres französisches Sprachmodell | 102 | - - | Camembert |
| 2019/11 | Zen: Chinesische Textcodierer vor dem Training durch N-Gramm-Darstellungen verbessert | 15 | Pytorch | - - |
| 2019/11 | Unüberwachungsübergreifendes landesweites Repräsentationslernen im Maßstab | 319 | Pytorch | XLM-R (XLM-Roberta) (xlmr.large, xlmr.base) |
| 2020/01 | Prophetnet: Vorhersage zukünftiger N-Gramm für Sequenz-zu-Sequenz-Vor-Training | 35 | Pytorch | Prophetnet (Prophetnet-Large-16GB, Prophetnet-Large-160GB) |
| 2020/02 | Codebert: Ein vorgebildetes Modell für Programmierung und natürliche Sprachen | 25 | Pytorch | CODERBEBET |
| 2020/02 | UNILMV2: Pseudo-maskierte Sprachmodelle für ein einheitliches Sprachmodell vor dem Training | 33 | Pytorch | - - |
| 2020/03 | Electra: Textcodierer vor dem Training eher als Diskriminatoren als als Generatoren | 203 | Tf | Elektrik (Elektral-Small, Elektrik-Basis, Elektrik-Large) |
| 2020/04 | MPNET: Maskierte und durchführte Vorausbildung für das Sprachverständnis | 5 | Pytorch | Mpnet |
| 2020/05 | Parsbert: Transformator-basiertes Modell für das Verständnis des persischen Sprache | 1 | Pytorch | Parsbert |
| 2020/05 | Sprachmodelle sind nur wenige Schusslerner | 382 | - - | - - |
| 2020/07 | InfoxLM: Ein informationstheoretisches Rahmen für das modellübergreifende Sprachmodell vor dem Training | 12 | Pytorch | - - |
| Datum | Papier | Zitat | Code | model_name |
|---|---|---|---|---|
| - - | Inkrementelle Domänenanpassung für die neuronale maschinelle Übersetzung in Einstellungen mit niedriger Ressourcen | N / A | Python | Arasif |
| 2014/05 | Verteilte Darstellungen von Sätzen und Dokumenten | 999+ | Pytorch Python | Doc2Vec |
| 2014/11 | Visuell-semantische Einbettungen mit multimodalen neuronalen Sprachmodellen vereinen | 849 | Theano Pytorch | VSE |
| 2015/06 | Ausrichten von Büchern und Filmen: Auf dem Weg zu storyähnlichen visuellen Erklärungen durch Anschauen von Filmen und Lesen von Büchern | 795 | Theano Tf Pytorch, Taschenlampe | Skiphought |
| 2015/11 | Auftragsbettungen von Bildern und Sprache | 354 | Theano | Auftragsbettung |
| 2015/11 | In Richtung universeller paraphrastischer Satz Einbettungen | 411 | Theano | Abschnitt |
| 2015/?? | Aus Word -Einbettungen, um Entfernungen zu dokumentieren | 999+ | C, Python | Word -Mover -Distanz |
| 2016/02 | Lernen verteilte Darstellungen von Sätzen aus unbeschriebenen Daten | 363 | Python | Schnell |
| 2016/07 | Charagram: Einbetten von Wörtern und Sätzen über Charakter n-Gramms | 144 | Theano | Charagramm |
| 2016/11 | Lernen generischer Satzdarstellungen unter Verwendung von Faltungsnetzwerken | 76 | Theano | Sich verurteilt |
| 2017/03 | Unbeaufsichtigtes Erlernen von Satzbettdings unter Verwendung von N-Gramm-Merkmalen für Kompositionen | 319 | C ++ | Sent2Vec |
| 2017/04 | Lernen, Bewertungen zu generieren und das Gefühl zu entdecken | 293 | Tf Pytorch Pytorch | Sentiment -Neuron |
| 2017/05 | Wiederholte Netzwerke für paraphrastische Satz Einbettungen | 60 | Theano | Gran |
| 2017/05 | Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten | 999+ | Pytorch | Linderent |
| 2017/07 | VSE ++: Verbesserung der visuell-semantischen Einbettungen mit harten Negativen | 132 | Pytorch | VSE ++ |
| 2017/08 | Mit Millionen von Emoji-Ereignissen zum Erlernen von Domänen-Darstellungen zum Erkennen von Stimmung, Emotion und Sarkasmus | 357 | Keras Pytorch | Deepmoji |
| 2017/09 | STARSPACE: Betten Sie alle Dinge ein! | 129 | C ++ | Starspace |
| 2017/10 | Dissens: Lernsatzdarstellungen aus expliziten Diskursbeziehungen | 47 | Pytorch | Abweichung |
| 2017/11 | Die Grenzen paraphrastischer Satzbettungen mit Millionen von maschinellen Übersetzungen drücken | 128 | Theano | para-nmt |
| 2017/11 | Einbettung mit zwei Pfad-Faltungsbild-Text-Einbettungen mit Instanzverlust | 44 | Matlab | Bildtext-Embedding |
| 2018/03 | Ein effizienter Rahmen für Lernsatzdarstellungen | 183 | Tf | Schnellgedacht |
| 2018/03 | Universeller Satz Encoder | 564 | TF-Hub | VERWENDEN |
| 2018/04 | Endaufgabenorientierte Textbeschaffung durch tiefe Erkundungen von Interaktionen zwischen Sentenzinstitionen | 14 | Theano | DreiTe |
| 2018/04 | Lernen von Allzwecken verteilten Satzdarstellungen über großes Multi-Task-Lernen | 198 | Pytorch | Gensen |
| 2018/06 | Text in hyperbolische Räume einbetten | 50 | Tf | Hypertext |
| 2018/07 | Repräsentationslernen mit kontrastivem Vorhersagecodieren | 736 | Keras | CPC |
| 2018/08 | Kontext -Mover -Distanz & Barycenters: Optimaler Transport von Kontexten zum Aufbau von Darstellungen | 8 | Python | CMD |
| 2018/09 | Erlernen von universellen Satzrepräsentationen mit Mean-Max-Aufmerksamkeit AutoCoder | 14 | Tf | Mittelmaxaae |
| 2018/10 | Lerndingungs-Satzdarstellungen über ein Multitask-Dual-Codeer-Modell | 35 | TF-Hub | Verwendung von Xling |
| 2018/10 | Verbesserung der Satzdarstellungen mit Konsensmaximierung | 4 | - - | Multi-View |
| 2018/10 | BIOSENTVEC: Erstellen von Satzeinbettungen für biomedizinische Texte | 70 | Python | Biosentvec |
| 2018/11 | Einbettung von Word Mover: von Word2Vec zum Dokumentieren der Einbettung | 47 | C, Python | WordMoversembedings |
| 2018/11 | Ein hierarchischer Multitasking-Ansatz zum Lernen von Einbettungen aus semantischen Aufgaben | 76 | Pytorch | HMTL |
| 2018/12 | Massive mehrsprachige Satzeinbettungen für die Kreuzung von Zero-Shot-Übertragung und darüber hinaus | 238 | Pytorch | LASER |
| 2018/?? | Faltungsnetzwerk für universelle Satz Einbettungen | 6 | Theano | CSE |
| 2019/01 | Kein Training erforderlich: Erforschung von zufälligen Encodern für die Satzklassifizierung | 54 | Pytorch | Randsent |
| 2019/02 | CBOW ist nicht alles was Sie brauchen: Kombinieren Sie CBOW mit dem Kompositionsmatrix -Raummodell | 4 | Pytorch | Cmow |
| 2019/07 | Gloss: Generative latente Optimierung von Satzdarstellungen | 1 | - - | GLANZ |
| 2019/07 | Mehrsprachiger universeller Satz Encoder | 52 | TF-Hub | Mehrsprachige |
| 2019/08 | Satzbert: Satz Einbettungen mit siamesischer Bert-Networks | 261 | Pytorch | Satzbericht |
| 2020/02 | Sbert-WK: Eine Satzverbindungsmethode durch Präparieren von Bert-basierten Wortmodellen | 11 | Pytorch | Sbert-wk |
| 2020/06 | DECDUTR: Tiefes kontrastives Lernen für unbeaufsichtigte Textdarstellungen | 4 | Pytorch | DECDUTR |
| 2020/07 | Sprach-Agnostic Bert-Satzeinbettung | 5 | TF-Hub | Labor |
| 2020/11 | Auf dem Satz Einbettung von vorgeborenen Sprachmodellen | 0 | Tf | Bert-Flow |