
DGMS 4 NLP. Tiefe generative Modelle für die Verarbeitung natürlicher Sprache. Eine Roadmap.
Yao Fu, Universität von Edinburgh, [email protected]
** UPDATE **: Wie erhält GPT seine Fähigkeiten? Verfolgung neuer Fähigkeiten von Sprachmodellen auf ihre Quellen verfolgen
** UPDATE **: Ein genauerer Blick auf die Emergenzfähigkeiten des Sprachmodells
** UPDATE **: Große Sprachmodelle
** UPDATE **: Langstreckenabhängigkeit; Warum S4 in langer Sequenz gut ist: Erinnern Sie sich an eine Sequenz mit der Online -Funktionsnäherung
** Todo 1 **: Kalibrierung; Aufforderung; Langstreckentransformatoren; Zustandsraummodelle
** Todo 2 **: Matrixfaktorisierung und Worteinbettung; Körner; Gaußscher Prozess
** Todo 3 **: Beziehung zwischen Inferenz und RL;
(Geschrieben Anfang 2019, stammt aus dem DGM -Seminar in Columbia)
Warum wollen wir tiefe generative Modelle? Weil wir grundlegende Faktoren lernen wollen, die Sprache erzeugen. Die menschliche Sprache enthält reichhaltige latente Faktoren, die kontinuierlichen können Emotionen, Absicht und andere sein. Die diskreten/ strukturellen Faktoren können POS/ NER -Tags oder Syntaxbäume sein. Viele von ihnen sind latent, wie in den meisten Fällen wir nur den Satz beobachten. Sie sind auch generativ: Mensch sollte eine Sprache produzieren, die auf der Gesamtidee, der aktuellen Emotion, der Syntax und aller anderen Dinge basiert, die wir benennen können oder nicht.
Wie kann man den generativen Sprachprozess statistisch prinzipiell modellieren? Können wir einen flexiblen Rahmen haben, mit dem wir explizite Überwachungssignale einbeziehen können, wenn wir Etiketten haben, oder eine entfernte Überwachung oder logische/ statistische Einschränkungen hinzufügen, wenn wir keine Etiketten haben, sondern andere Vorkenntnisse haben, oder einfach das am sinnvollsten macht, wenn wir keine Etiketten oder Priori haben? Ist es möglich, dass wir die Modellierungskraft fortgeschrittener neuronaler Architekturen ausnutzen, während wir noch mathematisch und probabilistisch sind? DGMs ermöglichen es uns, diese Ziele zu erreichen.
Beginnen wir die Reise.

Zitat:
@article{yao2019DGM4NLP,
title = "Deep Generative Models for Natual Language Processing",
author = "Yao Fu",
year = "2019",
url = "https://github.com/FranxYao/Deep-Generative-Models-for-Natural-Language-Processing"
}
So schreiben Sie Variationsinferenz und generative Modelle für NLP: ein Rezept. Dies wird für Anfänger, die Papiere über Vaes für NLP schreiben, stark empfohlen.
Ein Tutorial über tiefe latente variable Modelle der natürlichen Sprache (Link), EMNLP 18
Latente Strukturmodelle für NLP. ACL 2019 Tutorial Link
Columbia Stat 8201 - Deep Generative Models von John Cunningham
Stanford CS 236 - Deep Generative Models von Stefano Ermon
U Toronto CS 2541 - Differenzierbare Inferenz- und Generative Modelle, CS 2547 Lernen diskrete latente Strukturen, CSC 2547 Herbst 2019: Lernen der Suche. Von David Duvenaud
U Toronto Sta 4273 Winter 2021 - Minimierung der Erwartungen. Von Chris Maddison
Berkeley CS294-158 - Tiefes unbeaufsichtigtes Lernen. Von Pieter Abbeel
Columbia STCS 8101 - Repräsentationslernen: Eine probabilistische Perspektive. Von David Blei
Stanford CS324 - Großsprachige Modelle. Von Percy Liang, Tatsunori Hashimoto und Christopher Re
U Toronto CSC2541 - Dynamik für neuronale Netztrainings. Von Roger Grosse.
Die Finanzierung der DGMs basiert auf probabilistischen grafischen Modellen. Wir werfen einen Blick auf die folgenden Ressourcen
Bleis Grundlage für Grafikmodelle, STAT 6701 bei Columbia (Link)
Xings probabilistische grafische Modelle, 10-708 bei CMU (Link)
Collins 'natürliche Sprachverarbeitung, COMS 4995 in Columbia (Link)
Mustererkennung und maschinelles Lernen. Christopher M. Bishop. 2006
Maschinelles Lernen: Eine probabilistische Perspektive. Kevin P. Murphy. 2012
Grafische Modelle, exponentielle Familien und Variationsinferenz. 2008
Sprachstrukturvorhersage. 2011
Der syntaktische Prozess. 2000
Sätze aus einem kontinuierlichen Raum erzeugen, conll 15
Neuronale Variationsinferenz für die Textverarbeitung, ICML 16
Lernen neuronaler Vorlagen für die Textgenerierung. EMNLP 2018
Modelle auf Restenergiebasis für die Textgenerierung. ICLR 20
Paraphrase Generation mit latenter Tüte Wörter. Neurips 2019.
Fairseq Decoding Library. [Github]
Controllabel Neural Text Generation [lil'log]
Best-Erst-Strahl-Suche. TaCl 2020
Der merkwürdige Fall der Neuraltextegeneration. ICLR 2020
Vergleich verschiedener Decodierungsmethoden aus bedingten Sprachmodellen. ACL 2019
Stochastische Strahlen und wo man sie findet: Der Gumbel-Top-K-Trick für Abtastsequenzen ohne Ersatz. ICML 19
Bedingte Poisson Stochastische Strahlsuche. EMNLP 2021
Massive Skodierung für die Textgenerierung mithilfe von Gitter. 2021
Lexikalisch eingeschränkte Dekodierung für die Sequenzgenerierung mithilfe der Suche nach Rasterstrahl. ACL 2017
Schnell lexikalisch eingeschränkte Dekodierung mit dynamischer Strahlzuweisung für die neuronale maschinelle Übersetzung. Naacl 2018
Verbesserte lexikalisch eingeschränkte Dekodierung für die Übersetzung und einsprachiges Umschreiben. Naacl 2019
In Richtung Dekodierung als kontinuierliche Optimierung in der neuronalen maschinellen Übersetzung. EMNLP 2017
Gradientengesteuerte, unbeaufsichtigte lexikalisch eingeschränkte Textgenerierung. EMNLP 2020
Kontrollierte Textgenerierung als kontinuierliche Optimierung mit mehreren Einschränkungen. 2021
Neurologische Decodierung: (UN) Übersichtliche neuronale Textgenerierung mit Prädikat -Logikbeschränkungen. NAACl 2021
Neurologische A*Esque -Dekodierung: eingeschränkte Textgenerierung mit Lookahead Heuristics. 2021
Kaltdecodierung: energiebasierte eingeschränkte Textgenerierung mit Langevin-Dynamik. 2022
Hinweis: Ich habe dieses Kapitel nicht vollständig durchgemacht. Bitte geben Sie mir Vorschläge!
Nicht autoregressive neuronale maschinelle Übersetzung. ICLR 2018
Vollautoregressive neuronale maschinelle Übersetzung: Tricks des Handels.
Schnelle Decodierung in Sequenzmodellen unter Verwendung diskreter latenter Variablen. ICML 2021
Kaskadierte Textgenerierung mit Markov -Transformatoren. Arxiv 20
Glanze Transformator für nicht autoregressive neuronale Maschinenübersetzung. ACL 2021
TODO: Mehr darüber
Schnellpapiere, Thunlp (Link)
STRG: Ein konditionales Sprachmodell für die steuerbare Generation. Arxiv 2019
Steck- und Spielensprachmodelle: Ein einfacher Ansatz zur kontrollierten Textgenerierung
Torch-Struct: Deep Structured Prediction Library. Github, Papier, Dokumentation
Eine Einführung in bedingte Zufallsfelder. 2012
Außen- und Vorwärts-Algorithmen nach außen sind nur Rückstände. 2016.
Lernen mit Fenchel-Young-Verlusten. JMLR 2019
Strukturierte Aufmerksamkeitsnetzwerke. ICLR 2017
Differenzierbare dynamische Programmierung für strukturierte Vorhersage und Aufmerksamkeit. ICML 2018
Wiederkehrende Grammatiken für neuronale Netzwerke. Naacl 16
Unüberwachte wiederkehrende Grammatiken für neuronale Netze, Naacl 19
Differenzierbarer Stör- und Parse: Halbüberwachung mit einem strukturierten variativen Autocoder, ICLR 19, ICLR 19
Der syntaktische Prozess. 2020
Sprachlich informierte Selbstbeziehung für die semantische Rollenkennzeichnung. EMNLP 2018 Best Paper Award
Semantische Parsen mit semi-überprüften sequenziellen Autoencodern. 2016
Zusammensetzung Generalisierung in NLP. Papierliste
Generalisierung ohne Systematiker: Über die Kompositionsfähigkeiten der Sequenz-zu-Sequenz-wiederkehrenden Netzwerke. ICML 2019
Verbesserung der Bewertungsmethodik von Text zu SQL. ACL 2018
Probabilistische Inferenz unter Verwendung von Markov -Ketten -Monte -Carlo -Methoden. 1993
Elemente von sequentiellem Monte -Carlo (Link)
Eine konzeptionelle Einführung in Hamiltonian Monte Carlo (Link)
Kandidatenabtastung (Link)
Schätzung des Rauschkonstruktions: Ein neues Schätzungsprinzip für unbelebte statistische Modelle. Aistata 2010
A* Abtastung. NIPS 2014 Best Paper Award
Cambridge Variational Inferenz Reading Group (Link)
Variationsinferenz: Eine Überprüfung für Statistiker.
Stochastische Variationsinferenz
Variationsbayes'sche Inferenz mit stochastischer Suche. ICML 12
Automatisch kodierende Variation Bayes, ICLR 14
Beta-vae: Lernen grundlegender visueller Konzepte mit einem eingeschränkten Variationsrahmen. ICLR 2017
Wichtigkeit gewichtete Autoencoder. ICLR 2015
Stochastische Backpropagation und ungefähre Inferenz in tiefen generativen Modellen. ICML 14
Semi-amortisierte Variationsautoencoder, ICML 18
Kontrovers regulierte Autoencoder, ICML 18
Mehr zur Reparametherisierung: Um die Gaußsche Mischung, die Permutationsmatrix und Ablehnungsabtastungen (Gamma und Dirichlet) zu reparametriieren.
Stochastische Backpropagation durch Mischdichteverteilungen, Arxiv 16
Reparametrisierungsgradienten durch Ablagerungs-Ablagerungs-Stichprobenalgorithmen. Aistats 2017
Implizite Reparameterisierungsgradienten. Neurips 2018.
Kategorische Reparametherisierung mit Gumbel-Softmax. ICLR 2017
Die Betonverteilung: Eine kontinuierliche Entspannung diskreter Zufallsvariablen. ICLR 2017
Invertierbare Gaußsche Reparametrisierung: Überprüfung des Gumbel-Softmax. 2020
Reparameterizierbare Untergruppenabtastung durch kontinuierliche Relaxationen. IJCAI 2019
Generative kontroverse Netzwerke, NIPS 14
Auf dem Weg zu Prinzipiemethoden zur Schulung generativer kontroverse Netzwerke, ICLR 2017
Wasserstein Gan
Infogan: Interpretierbares Lernen von Repräsentationen durch Informationen, die generative kontroverse Netze maximieren. NIPS 2016
Kontrovers erlernte Inferenz. ICLR 2017
Flow -basierte tiefe generative Modelle aus Lils Protokoll
Variationsinferenz mit Normalisierungsströmen, ICML 15
Lernen über Sprache mit normalisierenden Flüssen lernen
Verbesserte Variationsinferenz mit inverser autoregressiven Fluss
Dichteschätzung mit realem NVP. ICLR 17
Unbeaufsichtigtes Lernen einer syntaktischen Struktur mit invertierbaren neuronalen Projektionen. EMNLP 2018
Latente Normalisierungsströme für diskrete Sequenzen. ICML 2019.
Diskrete Flows: Invertierbare generative Modelle diskreter Daten. 2019
FLOWSEQ: Nicht autoregressive bedingte Sequenzerzeugung mit generativem Fluss. EMNLP 2019
Variations -neuronale maschinelle Übersetzung mit Normalisierungsströmen. ACL 2020
Auf dem Satz Einbettung von vorgeborenen Sprachmodellen. EMNLP 2020
FY: Sie müssen sehen, wie bewertungsbasierte generative Modelle und Diffusionsmodelle für diskrete Sequenzen verwendet werden können
Generative Modellierung durch Schätzung von Gradienten der Datenverteilung. Blog 2021
Score -basierte generative Modellierungsarbeiten
Generative Modellierung durch Schätzung von Gradienten der Datenverteilung. Neurips 2019
Was sind Diffusionsmodelle? 2021
Awesome-Diffusion-Modelle
Tiefes unbeaufsichtigtes Lernen mit Nichtgleichgewichtsthermodynamik. 2015
Denoising diffusion probabilistische Modelle. Neurips 2020
Argmax -Strömungen und multinomiale Diffusion: kategorische Lernverteilungen. Neurips 2021
Strukturierte demoise-Diffusionsmodelle in diskreten Zustandsräumen. Neurips 2021
Autoregressive Diffusionsmodelle. ICLR 2022
Diffusion-LM verbessert die kontrollierbare Textgenerierung. 2022
Photorealistische Text-zu-Image-Diffusionsmodelle mit tiefem Sprachverständnis. 2022
Ordnete Neuronen: Integration von Baum in wiederkehrenden neuronalen Netzwerken integrieren
RNNs können begrenzte hierarchische Sprachen mit optimalem Gedächtnis erzeugen
Analyse von Selbstbekämpfung mit mehreren Kopf: Spezialisierte Köpfe machen das schwere Heben, der Rest kann beschnitten werden. ACL 2019
Theoretische Einschränkungen der Selbstbekämpfung in neuronalen Sequenzmodellen. TaCl 2019
Aufmerksamkeit mit Darstellern überdenken. 2020
Thunlp: Vorausgebildete Sprachmodellpapierliste (Link)
Tomohide Shibatas Bert-bezogene Papiere
Hippo: Wiederkehrender Speicher mit optimalen Polynomprojektionen. Neurips 2020
Kombinieren Sie rezidivierende, faltende und kontinuierliche Zeitmodelle mit der linearen Zustandsraumschicht. Neurips 2021
Effizient modellieren lange Sequenzen mit strukturierten Zustandsräumen. ICLR 2022
Warum S4 in langer Sequenz gut ist: Erinnern Sie sich an eine Sequenz mit Online -Funktionsnäherung. 2022
Gpt3 (175b). Sprachmodelle sind nur wenige Lernende. Mai 2020
Megatron-Turing NLG (530B). Verwenden Sie Deepspeed und Megatron, um Megatron-Turing NLG 530B zu trainieren, einem großflächigen generativen Sprachmodell. Jan 2022
Lamda (137b). LAMDA: Sprachmodelle für Dialoganwendungen. Jan 2022
Gopher (280b). Skalierungssprachmodelle: Methoden, Analyse und Erkenntnisse aus dem Training Gopher. Dezember 2021
Chinchilla (70b). Training rechenoptimal großer Sprachmodelle. März 2022
Palm (540b). Palm: Skalierungssprachmodellierung mit Wegen. Apr 2022
Opt (175b). OPT: Öffnen Sie die Vorausgebläser-Transformatorsprachenmodelle. Mai 2022
Bloom (176b): BigScience Large Open-Science Open-Access mehrsprachiger Sprachmodell. Mai 2022
Blenderbot 3 (175b): Ein bereitgestellter Konversationsagent, der ständig lernt, sich verantwortungsbewusst zu engagieren. August 2022
Skalierungsgesetze für Modelle mit neuronaler Sprache. 2020
Aufstrebende Fähigkeiten großer Sprachmodelle. 2022
Erwartungen minimieren. Chris Maddison
Monte -Carlo -Gradientenschätzung im maschinellen Lernen
Variationsinferenz für Monte -Carlo -Ziele. ICML 16
Rebar: Niedrige Varianz, unvoreingenommene Gradientenschätzungen für diskrete latente Variablenmodelle. NIPS 17
Backpropagation durch die Leere: Optimierung der Kontrollvariationen für die Black-Box-Gradientenschätzung. ICLR 18
Backpropagierung durch strukturiertes Argmax mit einem Zapfen. ACL 2018 Best Paper Lobende Erwähnung.
Verständnis der Mechanik des Spigots: Ersatzgradienten für das latente Strukturlernen. EMNLP 2020
Lernen mit differenzierbaren gestörten Optimierern. Neurips 2020
Gradientenschätzung mit stochastischen Softmax -Tricks. Neurips 2020
Differenzierbare dynamische Programmierung für strukturierte Vorhersage und Aufmerksamkeit. ICML 18
Stochastische Optimierung der Sortiernetzwerke durch kontinuierliche Relaxationen
Differenzierbare Ränge und Sortieren mit einem optimalen Transport
Reparameterisierung des Birkhoff -Polytops für die Inferenz für die Variationspermutation. Aistats 2018
Ein regulärer Rahmen für spärliche und strukturierte neuronale Aufmerksamkeit. Neurips 2017
Sparsemap: Differenzierbare, spärliche strukturierte Inferenz. ICML 2018
Verschachtelte Entitätserkennung mit teilweise beobachteten Treecrfs. AAAI 2021
Rao-Blackwellisierte stochastische Gradienten für diskrete Verteilungen. ICML 2019.
Effiziente Marginalisierung diskreter und strukturierter latenter Variablen durch Sparsity. Neurips 2020
Hintere Regularisierung für strukturierte latente variable Modelle. JMLR 2010
Hintere Kontrolle der Blackbox -Erzeugung. 2019
Abhängigkeitsgrammatikinduktion mit einem neuronalen Variationsübergangs-basierten Parser. AAAI 2019
(Auf Chinesisch) 微分几何与拓扑学简明教程
Nur Bayes sollte einen Verteiler lernen (über die Schätzung der differentiellen geometrischen Struktur aus Daten). Arxiv 2018
Die riemannische Geometrie von tiefen generativen Modellen. CVPRW 2018
Die Geometrie von tiefen generativen Bildmodellen und ihren Anwendungen. ICLR 2021
Metriken für tiefe generative Modelle. Aistats 2017
Algorithmen erster Ordnung für die Min-Max-Optimierung in geodätischen metrischen Räumen. 2022
Zufällige Merkmale für groß angelegte Kernelmaschinen. Neurips 2007
Finden von Struktur mit Zufälligkeit: probabilistische Algorithmen zur Konstruktion ungefährer Matrixabzüge. Siam 2011
Effiziente Optimierung von Schleifen und Grenzen mit randomisierten Teleskopsummen. ICML 2019
Teleskopierungsdichte-Verhältnis-Schätzung. Neurips 2020
Vorspannungsfreie skalierbare Gaußsche Prozesse über randomisierte Kürzungen. ICML 2021
Randomisierte automatische Differenzierung. ICLR 2021
Skalierung strukturierter Inferenz mit Randomisierung. 2021
Elemente der Informationstheorie. Deckung und Thomas. 1991
Über Variationsgrenzen von gegenseitigen Informationen. ICML 2019
Tiefe Darstellungen durch gegenseitige Informationsschätzung und Maximierung lernen. ICLR 2019
Mine: gegenseitige Information Neuronale Schätzung
Tiefe Variationsinformation Engpass. ICLR 2017
Identifizierung von Bayesian Mix -Modellen
Entwirrung der Entwirrung in Variationsautoencodern. ICML 2019
Herausfordernde gemeinsame Annahmen beim unbeaufsichtigten Erlernen von entlarvten Darstellungen. ICML 2019
Entstehung von Invarianz und Entwirrung in tiefen Darstellungen
Invariante Risikominimierung
Reparieren eines kaputten Elbo. ICML 2018.
Engere Variationsgrenzen sind nicht unbedingt besser. ICML 2018
Der kontinuierliche Bernoulli: Behebung eines durchdringenden Fehlers in variativen Autoencodern. Neurips 2019
Wissen tiefe generative Modelle, was sie nicht wissen? ICLR 2019
Effektive Schätzung von tiefen generativen Sprachmodellen. ACL 2020
Wie gut ist das Bayes -hintere Posterior in tiefen neuronalen Netzwerken wirklich? ICML 2020
Eine statistische Theorie von kalten Posterioren in tiefen neuronalen Netzwerken. ICLR 2021
Einschränkungen autoregressiver Modelle und deren Alternativen. NAACl 2021