awesome sentence embedding Download - awesome sentence embedding Download

awesome sentence embedding

Anderer Quellcode

1.0.0

Herunterladen

Awesome-Sentence-Embedding

Eine kuratierte Liste von vorbereiteten Satz- und Wortbettungsmodellen

Inhaltsverzeichnis

Über dieses Repo
Allgemeiner Rahmen
Worteinbettungen
OOV -Handling
Kontextualisierte Worteinbettungen
Pooling -Methoden
Encoder
Auswertung
Miser
Vektorzuordnung
Artikel

Über dieses Repo

Nun, es gibt einige großartige Listen für Wortbettendings und Satzbettendings, aber alle sind veraltet und vor allem unvollständig
Dieses Repo wird auch unvollständig sein, aber ich werde mein Bestes geben, um alle Papiere mit vorbereiteten Modellen zu finden und aufzunehmen
Dies ist keine typische großartige Liste, da sie Tabellen enthält, aber ich denke, es ist in Ordnung und viel besser als nur eine riesige Liste
Wenn Sie Fehler finden oder ein anderes Papier oder etwas anderes finden, senden Sie bitte eine Pull -Anfrage und helfen Sie mir, diese Liste auf dem neuesten Stand zu halten
genießen!

Allgemeiner Rahmen

Fast der gesamte Satz Einbettungen funktionieren wie folgt:
Bei einer Art Worteinbettung und einem optionalen Encoder (zum Beispiel ein LSTM) erhalten sie die kontextualisierten Wort -Einbettungen.
Dann definieren sie eine Art Pooling (es kann so einfach sein wie das letzte Pooling).
Basierend darauf verwenden sie es entweder direkt für die beaufsichtigte Klassifizierungsaufgabe (wie bei Inferent) oder generieren die Zielsequenz (wie das Überspringen des Überspringens).
Im Allgemeinen haben wir viele Satz Einbettungen, von denen Sie noch nie gehört haben.

Worteinbettungen

Hinweis: Machen Sie sich keine Sorgen um die Sprache des Code

Datum	Papier	Zitat	Trainingscode	Vorbereitete Modelle
- -	WebVectors: Ein Toolkit zum Erstellen von Weboberflächen für semantische Vektormodelle	N / A	- -	Rusvectōrēs
2013/01	Effiziente Schätzung von Wortdarstellungen im Vektorraum	999+	C	Word2Vec
2014/12	Wortdarstellungen über Gaußsche Einbettung	221	Cython	- -
2014/??	Ein probabilistisches Modell zum Lernen von Multi-Prototyp-Wort-Einbettungen	127	DMTK	- -
2014/??	Abhängigen basierte Worteinbettungen	719	C ++	Word2VECF
2014/??	Handschuh: Globale Vektoren für Wortrepräsentation	999+	C	Handschuh
2015/06	Spärliche Überkompetenz von Wortvektordarstellungen	129	C ++	- -
2015/06	Von der Paraphrase -Datenbank über das Kompositional -Paraphrase -Modell und zurück	3	Theano	Abschnitt
2015/06	Nicht-Verteilungs-Wort-Vektor-Darstellungen	68	Python	Wortfeat
2015/??	Joint Lernen von Charakter und Wort Einbettungen	195	C	- -
2015/??	Sensembed: Lerngefühl Einbettung für Wort und relationale Ähnlichkeit	249	- -	Sensembed
2015/??	Topische Wort Einbettung	292	Cython
2016/02	Schwenk: Verbesserung der Einbettungen, indem er bemerkt, was fehlt, was fehlt	61	Tf	- -
2016/03	Gegenanpassungswortvektoren zu sprachlichen Einschränkungen	232	Python	Gegenanpassung (gebrochen)
2016/05	Mischen von Dirichlet -Themenmodellen und Worteinbettungen, um LDA2VEC zu machen	91	Kette	- -
2016/06	Siamese CBOW: Optimierung der Worteinbettungen für Satzdarstellungen	166	Theano	Siamese CBOW
2016/06	Matrixfaktorisierung unter Verwendung einer Fensterabtastung und negativer Abtastung für verbesserte Wortdarstellungen	58	Gehen	Lexvec
2016/07	Anreicherung von Wortvektoren mit Subwordinformationen	999+	C ++	FastText
2016/08	Morphologische Priors für probabilistische neuronale Wortbettendings	34	Theano	- -
2016/11	Ein gemeinsames Modell mit vielen Aufgaben: Wachstum eines neuronalen Netzwerks für mehrere NLP-Aufgaben	359	C ++	Charngram2Vec
2016/12	Conceptnet 5.5: ein offenes mehrsprachiges Diagramm von Allgemeinwissen	604	Python	Numberbatch
2016/??	Lernwort-Meta-Embedings	58	- -	Meta-EMB (gebrochen)
2017/02	Zweisprachige Offline -Wortvektoren, orthogonale Transformationen und der umgekehrte Softmax	336	Python	- -
2017/04	Multimodale Wortverteilungen	57	Tf	Word2GM
2017/05	Poincaré Einbettungen zum Lernen hierarchischer Darstellungen	413	Pytorch	- -
2017/06	Kontext -Encoder als einfache, aber leistungsfähige Erweiterung von Word2VEC	13	Python	- -
2017/06	Semantische Spezialisierung von Verteilungswortvektorräumen unter Verwendung einsprachiger und bringlicher Einschränkungen	99	Tf	Wiederholung anziehen
2017/08	Lernen chinesischer Wortrepräsentationen aus Glyphen von Charakteren	44	C	- -
2017/08	Worteinbettungen verstehen	92	Python	Sensegram
2017/09	Hash -Einbettungen für effiziente Wortdarstellungen	25	Keras	- -
2017/10	BPEMB: Tokenization-frei vorgebrachte Subword-Einbettungen in 275 Sprachen	91	Gensim	BPEMB
2017/11	Wirbelsäule: spärliche interpretierbare neuronale Einbettungen	48	Pytorch	WIRBELSÄULE
2017/??	ARAVEC: Eine Reihe arabischer Wortbettungsmodelle für die Verwendung in arabischem NLP	161	Gensim	Aravec
2017/??	NGram2VEC: Lernen verbesserte Wortdarstellungen aus NGRAM-Ko-Auftreten Statistik	25	C	- -
2017/??	Dict2Vec: Lernworteinbettungen mit lexikalischen Wörterbüchern	49	C ++	Dict2Vec
2017/??	Gemeinsame Einbettungen chinesischer Wörter, Zeichen und feinkörniger Subcharakterkomponenten	63	C	- -
2018/04	Repräsentationskompromisse für hyperbolische Einbettungen	120	Pytorch	H-Mds
2018/04	Dynamische Meta-Embedings für verbesserte Satzdarstellungen	60	Pytorch	DME/CDME
2018/05	Analoges Denken auf chinesische morphologische und semantische Beziehungen	128	- -	Chinesische WordVektoren
2018/06	Probabilistische FastText für Multi-Senszen-Wort-Einbettungen	39	C ++	Probabilistischer FastText
2018/09	Einbeziehung von syntaktischen und semantischen Informationen in Word -Einbettungen unter Verwendung von Graph -Faltungsnetzwerken	3	Tf	Syngcn
2018/09	Frage: Frequenz-agnostische Wortdarstellung	64	Pytorch	- -
2018/12	Wikipedia2VEC: Ein optimiertes Werkzeug für Lernen von Wörtern und Entitäten aus Wikipedia	17	Cython	Wikipedia2Vec
2018/??	Richtungs-Skip-Gramm: Unterscheidet ausdrücklich den linken und rechten Kontext für Worteinbettungen	106	- -	Chinesischem Beding
2018/??	CW2VEC: Lernen chinesisches Wort Einbettung mit Schlaganfall n-Gramminformationen	45	C ++	- -
2019/02	VCWE: Visuelles charakterverstärktes Wort Einbettungen	5	Pytorch	Vcwe
2019/05	Lernende lingende Einbettungen von Twitter über entfernte Überwachung	2	Text	- -
2019/08	Ein unbeaufsichtigter charakterbewusster neuronaler Ansatz zum Lernen von Wort und Kontextrepräsentation	5	Tf	- -
2019/08	VICO: Wortbettungen aus visuellen Co-Auftreten	7	Pytorch	Vico
2019/11	Einbettung des sphärischen Textes	25	C	- -
2019/??	Unüberwachte Worteinbettungen erfassen latente Wissen aus der Materialwissenschaftliteratur	150	Gensim	- -

OOV -Handling

Lass OOV Wörter fallen!
Ein OOV -Vektor (UNK -Vektor)
Verwenden Sie Subword -Modelle (Ngram, BPE, char)
Alacarte: a la carte Einbettung: billige, aber wirksame Induktion semantischer Feature -Vektoren
MIMICK: MIMICKING Word -Einbettungen mit Subword -RNNs
Compactreconstruction: Subword-basierte kompakte Rekonstruktion von Worteinbettungen

Kontextualisierte Worteinbettungen

Hinweis: Alle inoffiziellen Modelle können die offiziellen vorbereiteten Modelle laden

Datum	Papier	Zitat	Code	Vorbereitete Modelle
- -	Sprachmodelle sind unbeaufsichtigte Multitasking -Lernende	N / A	Tf Pytorch, tf2.0 Keras	GPT-2 (117 m, 124 m, 345 m, 355 m, 774 m, 1558 m)
2017/08	In Übersetzung gelernt: kontextualisierte Wortvektoren	524	Pytorch Keras	Bucht
2018/01	Allgemeine Sprachmodell Feinabstimmung für die Textklassifizierung	167	Pytorch	Ulmfit (Englisch, Zoo)
2018/02	Tiefe kontextualisierte Wortdarstellungen	999+	Pytorch Tf	Elmo (Allennlp, TF-Hub)
2018/04	Effiziente kontextualisierte Darstellung: Sprachmodell -Schnitt für die Sequenzmarkierung	26	Pytorch	Ld-net
2018/07	Auf dem Weg zu besserer UD -Parsing: Tiefe kontextualisierte Wortbettendings, Ensemble und Baumbankverhütung	120	Pytorch	Elmo
2018/08	Direkte Ausgangsverbindung für ein hochrangiges Sprachmodell	24	Pytorch	Dokument
2018/10	Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis	999+	Tf Keras Pytorch, tf2.0 Mxnet Paddlepaddle Tf Keras	Bert (Bert, Ernie, Kobert)
2018/??	Kontextstring -Einbettungen für die Sequenzmarkierung	486	Pytorch	Flair
2018/??	Verbesserung des Sprachverständnisses durch generatives Vorbild	999+	Tf Keras Pytorch, tf2.0	Gpt
2019/01	Multi-Task-tiefe neuronale Netzwerke für das Verständnis der natürlichen Sprache	364	Pytorch	MT-DNN
2019/01	Biobert: Vorausgebildeter biomedizinischer Sprachdarstellungsmodell für biomedizinischen Textabbau	634	Tf	Biobert
2019/01	Cross-Langual Language Model Vorbetrieb	639	Pytorch Pytorch, tf2.0	Xlm
2019/01	Transformator-XL: aufmerksame Sprachmodelle über einen Kontext mit fester Länge hinaus	754	Tf Pytorch Pytorch, tf2.0	Transformator-XL
2019/02	Effizientes Lernen der Kontextrepräsentation ohne Softmax -Schicht	2	Pytorch	- -
2019/03	Scibert: Vorbereitete kontextualisierte Einbettungen für wissenschaftlichen Text	124	Pytorch, tf	Scibert
2019/04	Öffentlich verfügbare klinische Bert -Einbettungen	229	Text	Clinicalbert
2019/04	Clinicalbert: Modellierung klinischer Notizen und Vorhersage der Rückübernahme des Krankenhauses	84	Pytorch	Clinicalbert
2019/05	Ernie: Verbesserte Sprachdarstellung mit informativen Einheiten	210	Pytorch	Ernie
2019/05	Einheitliches Sprachmodell vor der Ausbildung für das Verständnis und die Erzeugung natürlicher Sprache	278	Pytorch	UNILMV1 (UNILM1-LARGE-CAUBEL, UNILM1-BASE-CADS)
2019/05	Hibert: Dokumentstufe Voraberziehung hierarchischer bidirektionaler Transformatoren für die Zusammenfassung der Dokumente	81		- -
2019/06	Vorausbildung mit ganzem Wortmaskieren für chinesische Bert	98	Pytorch, tf	Bert-wwm
2019/06	XLNET: Verallgemeinerte autoregressive Vorbereitung für das Sprachverständnis	999+	Tf Pytorch, tf2.0	Xlnet
2019/07	Ernie 2.0: Ein kontinuierlicher Framework vor dem Training für das Sprachverständnis	107	Paddlepaddle	Ernie 2.0
2019/07	Spanbert: Verbesserung der Vorausbildung durch Vertretung und Vorhersage von Spannweiten	282	Pytorch	Spanbert
2019/07	Roberta: Ein robust optimierter Bert -Vorab -Ansatz	999+	Pytorch Pytorch, tf2.0	Roberta
2019/09	Subword Elmo	1	Pytorch	- -
2019/09	Wissen verstärkte kontextbezogene Wortdarstellungen	115		- -
2019/09	Tinybert: Bert für das Verständnis der natürlichen Sprache destillieren	129		- -
2019/09	Megatron-LM: Training von Multi-Milliarden-Parametersprachenmodellen unter Verwendung der Modellparallelität	136	Pytorch	Megatron-lm (BERT-345M, GPT-2-345M)
2019/09	Multifit: effizientes multisprachiges Sprachmodell Feinabstimmung	29	Pytorch	- -
2019/09	Extremsprachmodellkomprimierung mit optimalen Unterwörtern und gemeinsam genutzten Projektionen	32		- -
2019/09	Maultier: multimodale universelle Spracheinbettung	5		- -
2019/09	Unicoder: Ein universeller Sprachcodierer durch Voraberziehung mit mehreren Kreuzungsaufgaben	51		- -
2019/09	K-Tbert: Ermöglicht die Sprachdarstellung mit Wissensgrafik	59		- -
2019/09	Uniter: Lernen universeller Bild-Text-Darstellungen	60		- -
2019/09	Albert: Ein Lite Bert für das selbstbewertete Lernen von Sprachdarstellungen	803	Tf	- -
2019/10	BART: Denoising Sequenz-zu-Sequenz-Vorausbildung für die Erzeugung, Übersetzung und das Verständnis der natürlichen Sprache	349	Pytorch	Bart (Bart.Base, Bart.Large, Bart.Large.Mnli, Bart.Large.cnn, Bart.Large.xsum)
2019/10	Distilbert, eine destillierte Version von Bert: kleiner, schneller, billiger und leichter	481	Pytorch, tf2.0	Distilbert
2019/10	Erforschen der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator	696	Tf	T5
2019/11	Camembert: Ein leckeres französisches Sprachmodell	102	- -	Camembert
2019/11	Zen: Chinesische Textcodierer vor dem Training durch N-Gramm-Darstellungen verbessert	15	Pytorch	- -
2019/11	Unüberwachungsübergreifendes landesweites Repräsentationslernen im Maßstab	319	Pytorch	XLM-R (XLM-Roberta) (xlmr.large, xlmr.base)
2020/01	Prophetnet: Vorhersage zukünftiger N-Gramm für Sequenz-zu-Sequenz-Vor-Training	35	Pytorch	Prophetnet (Prophetnet-Large-16GB, Prophetnet-Large-160GB)
2020/02	Codebert: Ein vorgebildetes Modell für Programmierung und natürliche Sprachen	25	Pytorch	CODERBEBET
2020/02	UNILMV2: Pseudo-maskierte Sprachmodelle für ein einheitliches Sprachmodell vor dem Training	33	Pytorch	- -
2020/03	Electra: Textcodierer vor dem Training eher als Diskriminatoren als als Generatoren	203	Tf	Elektrik (Elektral-Small, Elektrik-Basis, Elektrik-Large)
2020/04	MPNET: Maskierte und durchführte Vorausbildung für das Sprachverständnis	5	Pytorch	Mpnet
2020/05	Parsbert: Transformator-basiertes Modell für das Verständnis des persischen Sprache	1	Pytorch	Parsbert
2020/05	Sprachmodelle sind nur wenige Schusslerner	382	- -	- -
2020/07	InfoxLM: Ein informationstheoretisches Rahmen für das modellübergreifende Sprachmodell vor dem Training	12	Pytorch	- -

Pooling -Methoden

{Last, Mean, Max} -Pooling
Spezial -Token -Pooling (wie Bert und OpenAs Transformator)
SIF: Eine einfache, aber schwer zu tragende Grundlinie für Satzeinbettungen
TF-IDF: unbeaufsichtigte Satzdarstellungen als Wortinformationsreihe: Überprüfung TF-IDF
P-Norm: verkettete Macht mittlere Worteinbettung als universelle interbringuale Satz Darstellungen
CD: Eine komprimierte Erfassungsansicht von unbeaufsichtigten Texteinbettungen, Beutel-N-Gramm und LSTMs
Edelstein: Zero-Training-Satz, der über orthogonale Basis einbettet
SWEM: Basislinie braucht mehr Liebe: Auf einfachen Wortmodellen und Associated Pooling-Mechanismen mit wortembedingungsbasiertem Basis
VLAWE: Vektor lokal-aggregierter Worteinbettung (VLawe): Eine neuartige Darstellung auf Dokumentebene auf Dokumentebene
Effiziente Satzeinbettung unter Verwendung einer diskreten Cosinus -Transformation
FSE: Gensim-Add-On für schnelle Satz Einbettungen. Unterstützt Mittelwert, Max, Sif, USIF
Effiziente Satzeinbettung durch semantische Unterraumanalyse

Encoder

Datum	Papier	Zitat	Code	model_name
- -	Inkrementelle Domänenanpassung für die neuronale maschinelle Übersetzung in Einstellungen mit niedriger Ressourcen	N / A	Python	Arasif
2014/05	Verteilte Darstellungen von Sätzen und Dokumenten	999+	Pytorch Python	Doc2Vec
2014/11	Visuell-semantische Einbettungen mit multimodalen neuronalen Sprachmodellen vereinen	849	Theano Pytorch	VSE
2015/06	Ausrichten von Büchern und Filmen: Auf dem Weg zu storyähnlichen visuellen Erklärungen durch Anschauen von Filmen und Lesen von Büchern	795	Theano Tf Pytorch, Taschenlampe	Skiphought
2015/11	Auftragsbettungen von Bildern und Sprache	354	Theano	Auftragsbettung
2015/11	In Richtung universeller paraphrastischer Satz Einbettungen	411	Theano	Abschnitt
2015/??	Aus Word -Einbettungen, um Entfernungen zu dokumentieren	999+	C, Python	Word -Mover -Distanz
2016/02	Lernen verteilte Darstellungen von Sätzen aus unbeschriebenen Daten	363	Python	Schnell
2016/07	Charagram: Einbetten von Wörtern und Sätzen über Charakter n-Gramms	144	Theano	Charagramm
2016/11	Lernen generischer Satzdarstellungen unter Verwendung von Faltungsnetzwerken	76	Theano	Sich verurteilt
2017/03	Unbeaufsichtigtes Erlernen von Satzbettdings unter Verwendung von N-Gramm-Merkmalen für Kompositionen	319	C ++	Sent2Vec
2017/04	Lernen, Bewertungen zu generieren und das Gefühl zu entdecken	293	Tf Pytorch Pytorch	Sentiment -Neuron
2017/05	Wiederholte Netzwerke für paraphrastische Satz Einbettungen	60	Theano	Gran
2017/05	Übersichtliches Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten	999+	Pytorch	Linderent
2017/07	VSE ++: Verbesserung der visuell-semantischen Einbettungen mit harten Negativen	132	Pytorch	VSE ++
2017/08	Mit Millionen von Emoji-Ereignissen zum Erlernen von Domänen-Darstellungen zum Erkennen von Stimmung, Emotion und Sarkasmus	357	Keras Pytorch	Deepmoji
2017/09	STARSPACE: Betten Sie alle Dinge ein!	129	C ++	Starspace
2017/10	Dissens: Lernsatzdarstellungen aus expliziten Diskursbeziehungen	47	Pytorch	Abweichung
2017/11	Die Grenzen paraphrastischer Satzbettungen mit Millionen von maschinellen Übersetzungen drücken	128	Theano	para-nmt
2017/11	Einbettung mit zwei Pfad-Faltungsbild-Text-Einbettungen mit Instanzverlust	44	Matlab	Bildtext-Embedding
2018/03	Ein effizienter Rahmen für Lernsatzdarstellungen	183	Tf	Schnellgedacht
2018/03	Universeller Satz Encoder	564	TF-Hub	VERWENDEN
2018/04	Endaufgabenorientierte Textbeschaffung durch tiefe Erkundungen von Interaktionen zwischen Sentenzinstitionen	14	Theano	DreiTe
2018/04	Lernen von Allzwecken verteilten Satzdarstellungen über großes Multi-Task-Lernen	198	Pytorch	Gensen
2018/06	Text in hyperbolische Räume einbetten	50	Tf	Hypertext
2018/07	Repräsentationslernen mit kontrastivem Vorhersagecodieren	736	Keras	CPC
2018/08	Kontext -Mover -Distanz & Barycenters: Optimaler Transport von Kontexten zum Aufbau von Darstellungen	8	Python	CMD
2018/09	Erlernen von universellen Satzrepräsentationen mit Mean-Max-Aufmerksamkeit AutoCoder	14	Tf	Mittelmaxaae
2018/10	Lerndingungs-Satzdarstellungen über ein Multitask-Dual-Codeer-Modell	35	TF-Hub	Verwendung von Xling
2018/10	Verbesserung der Satzdarstellungen mit Konsensmaximierung	4	- -	Multi-View
2018/10	BIOSENTVEC: Erstellen von Satzeinbettungen für biomedizinische Texte	70	Python	Biosentvec
2018/11	Einbettung von Word Mover: von Word2Vec zum Dokumentieren der Einbettung	47	C, Python	WordMoversembedings
2018/11	Ein hierarchischer Multitasking-Ansatz zum Lernen von Einbettungen aus semantischen Aufgaben	76	Pytorch	HMTL
2018/12	Massive mehrsprachige Satzeinbettungen für die Kreuzung von Zero-Shot-Übertragung und darüber hinaus	238	Pytorch	LASER
2018/??	Faltungsnetzwerk für universelle Satz Einbettungen	6	Theano	CSE
2019/01	Kein Training erforderlich: Erforschung von zufälligen Encodern für die Satzklassifizierung	54	Pytorch	Randsent
2019/02	CBOW ist nicht alles was Sie brauchen: Kombinieren Sie CBOW mit dem Kompositionsmatrix -Raummodell	4	Pytorch	Cmow
2019/07	Gloss: Generative latente Optimierung von Satzdarstellungen	1	- -	GLANZ
2019/07	Mehrsprachiger universeller Satz Encoder	52	TF-Hub	Mehrsprachige
2019/08	Satzbert: Satz Einbettungen mit siamesischer Bert-Networks	261	Pytorch	Satzbericht
2020/02	Sbert-WK: Eine Satzverbindungsmethode durch Präparieren von Bert-basierten Wortmodellen	11	Pytorch	Sbert-wk
2020/06	DECDUTR: Tiefes kontrastives Lernen für unbeaufsichtigte Textdarstellungen	4	Pytorch	DECDUTR
2020/07	Sprach-Agnostic Bert-Satzeinbettung	5	TF-Hub	Labor
2020/11	Auf dem Satz Einbettung von vorgeborenen Sprachmodellen	0	Tf	Bert-Flow

Auswertung

Decanlp: The Natural Language Decathlon: Multitasking -Lernen als Beantwortung der Frage
Sental: Sental: Ein Bewertungs -Toolkit für universelle Satzdarstellungen
Kleber: Kleber: Eine Multi-Task-Benchmark- und Analyse-Plattform für das Verständnis der natürlichen Sprache
Erforschung der semantischen Eigenschaften von Satzbettendings
Feinkörnige Analyse von Satzbettendings unter Verwendung von Hilfsvorhersageaufgaben
Wortbettdings Benchmarks: Wie bewertet man Worteinbettungen? Zur Bedeutung der Dateneffizienz und der einfachen beaufsichtigten Aufgaben
MLDOC: Ein Korpus für die mehrsprachige Dokumentklassifizierung in acht Sprachen
Lexnet: Olivenöl besteht aus Oliven, Babyöl wird für Babys gemacht: Interpretation von Substantivverbindungen mit Paraphrasen in einem neuronalen Modell
wordvectors.net: Community -Bewertung und Austausch von Wortvektoren unter wordvectors.org
Jiant: Auf der Suche nach Elmos Freunden: Satz auf Satzebene jenseits der Sprachmodellierung
Jiant: Was lernst du aus dem Kontext? Prüfung nach Satzstruktur in kontextualisierten Wortdarstellungen
Bewertung von Satzeinbettungen in nachgeschalteten und sprachlichen Prüfungsaufgaben
QVEC: Bewertung von Word -Vektor -Darstellungen durch Subspace -Ausrichtung
Grammatikalische Analyse von vorbereiteten Urteilscodierern mit Annehmlichkeitsurteilen
Gleiche Gleichung: Ein Benchmark -Bewertungsrahmen für quantitatives Denken in der Inferenz für natürliche Sprache
Bewertung von Wortbettungsmodellen: Methoden und experimentelle Ergebnisse
Wie man (richtig) grenzüberschreitende Worteinbettungen bewertet: auf starken Baselines, vergleichenden Analysen und einigen Missverständnissen
Sprachkenntnisse und Übertragbarkeit kontextbezogener Darstellungen: Kontext-RePR-Analyse
Linspector: Mehrsprachige Prüfungsaufgaben für Wortdarstellungen
Fallstricke bei der Bewertung von Satzeinbettungen
Untersuchung mehrsprachiger Satzdarstellungen mit X-Probe: XPROBE

Miser

Auswahl der Dimensionalität von Worteinbetten: Über die Dimensionalität der Worteinbettung
Halbgroß
Größe: Größe: Ein schnelles, effizientes Universalvektor -Einbettungs -Dienstprogrammpaket
Zu stimmen oder nicht zu stimmen? Anpassung vorgelöster Darstellungen an verschiedene Aufgaben
Geben Sie sich nicht mit dem Durchschnitt zufrieden, maximal: Fuzzy-Sets und max-pooled Wortvektoren: Fuzzymax
Der Schüler ist zum Meister geworden: Lehrer-Schüler-Modellbasis-Einbettung Destillation mit Ensemble Learning: Einbettungdistillation
Verbesserung der Verteilungsähnlichkeit mit den Lehren, die aus Word -Einbettungen gelernt werden: Hyperwords
Missblumung ahnungsvolles Wort Einbettungen: Moe
Auswahl der einzelnen Trainingsdimension für die Worteinbettung in PCA
Komprimieren von Wortbettendings über tiefe Kompositionskodierlerin: Neural Compressor
UER: Ein Open-Source-Toolkit für Voraussetzungsmodelle: Uer-Py
Situationssystem -Einbettders mit einer Überlappung der nächsten Nachbarn
Deutsche Bert

Vektorzuordnung

CCA CCA: Verbesserung der Vektorraum-Wortrepräsentationen mit mehrsprachiger Korrelation.
VECMAP: Eine robuste selbstlernende Methode für vollständig unbeaufsichtigte Kreuzungszuordnungen von Worteinbettungen
Muse: Nur unbeaufsichtigte maschinelle Übersetzung nur mit einsprachigen Korpora
Crosslingualelmo: Kreuzsprachige Ausrichtung von Kontextwort-Einbettungen mit Anwendungen auf Null-Shot-Abhängigkeitsanalyse

Artikel

Vergleich von Satzähnlichkeitsmethoden
Das aktuelle Best of Universal Word -Einbettungen und Satzeinbettungen
Bei Satzdarstellungen pt. 1: Was können Sie in einen einzigen #$!%@*&% Blog -Beitrag passen?
Tiefe lernfreie Text und Satzeinbettung, Teil 1
Tiefen-lernfreies Text und Satzeinbettung, Teil 2
Ein Überblick über Satzbettungsmethoden
Word -Einbettungen im Jahr 2017: Trends und zukünftige Anweisungen
Eine Vorgehensweise von Infersent - überwachtes Erlernen von Satzbettendings
Eine Übersicht über bringliche Wortbettungsmodelle
Einführung der Stand der Technik Texttext mit universellen Sprachmodellen
Dokument -Einbettungstechniken

Expandieren

Zusätzliche Informationen