
DGMS 4 NLP. Modelos generativos profundos para processamento de linguagem natural. Um roteiro.
Yao Fu, Universidade de Edimburgo, [email protected]
** ATUALIZAÇÃO **: Como o GPT obtém sua capacidade? Rastrear habilidades emergentes de modelos de linguagem em suas fontes
** ATUALIZA
** ATUALIZAÇÃO **: grandes modelos de defesa
** ATUALIZAÇÃO **: Dependência de longo alcance; Por que o S4 é bom em longa sequência: lembrar uma sequência com aproximação de função online
** TODO 1 **: Calibração; Solicitando; Transformadores de longo alcance; Modelos de espaço de estado
** TODO 2 **: fatorização da matriz e incorporação de palavras; Kernels; Processo gaussiano
** TODO 3 **: relação entre inferência e RL;
(Escrito no início de 2019, originou -se do seminário DGM em Columbia)
Por que queremos modelos generativos profundos? Porque queremos aprender fatores básicos que geram linguagem. A linguagem humana contém fatores latentes ricos, os contínuos podem ser emoção, intenção e outros, os fatores discretos/ estruturais podem ser etiquetas pos/ ner ou árvores de sintaxe. Muitos deles são latentes, como na maioria dos casos, apenas observamos a frase. Eles também são generativos: o humano deve produzir linguagem com base na idéia geral, na emoção atual, na sintaxe e em todas as outras coisas que podemos ou não podemos citar.
Como modelar o processo generativo da linguagem de uma maneira estatisticamente princípio? Podemos ter uma estrutura flexível que nos permite incorporar sinais explícitos de supervisão quando temos rótulos, ou adicionar supervisão distante ou restrições lógicas/ estatísticas quando não temos rótulos, mas temos outro conhecimento prévio, ou simplesmente inferir o que faz mais sentido quando não temos rótulos ou priori? É possível que exploremos o poder de modelagem das arquiteturas neurais avançadas, ainda sendo matemática e probabilística? Os DGMs nos permitem atingir esses objetivos.
Vamos começar a jornada.

Citação:
@article{yao2019DGM4NLP,
title = "Deep Generative Models for Natual Language Processing",
author = "Yao Fu",
year = "2019",
url = "https://github.com/FranxYao/Deep-Generative-Models-for-Natural-Language-Processing"
}
Como escrever inferência variacional e modelos generativos para PNL: uma receita. Isso é fortemente sugerido para iniciantes que escrevem documentos sobre VAES para a PNL.
Um tutorial sobre modelos variáveis latentes profundos de linguagem natural (link), EMNLP 18
Modelos de estrutura latentes para PNL. Link do tutorial da ACL 2019
Columbia Stat 8201 - Modelos generativos profundos, de John Cunningham
Stanford CS 236 - Modelos generativos profundos, de Stefano Ermon
U Toronto CS 2541 - Inferência diferenciável e modelos generativos, CS 2547 Aprendendo estruturas latentes discretas, CSC 2547 outono de 2019: aprendendo a pesquisar. Por David Duvenaud
U Toronto Sta 4273 Inverno 2021 - Minimizando as expectativas. Por Chris Maddison
Berkeley CS294-158 - Aprendizagem profunda não supervisionada. Por Pieter Abbeel
Columbia STCS 8101 - Aprendizagem de representação: uma perspectiva probabilística. Por David Blei
Stanford CS324 - Modelos de idiomas grandes. Por Percy Liang, Tatsunori Hashimoto e Christopher Re
U Toronto CSC2541 - Dinâmica de treinamento em rede neural. Por Roger Grosse.
A fundação do DGMS é construída em modelos gráficos probabilísticos. Então, vamos dar uma olhada nos seguintes recursos
Curso de modelos gráficos de Blei, Stat 6701 em Columbia (link)
Modelos gráficos probabilísticos de Xing, 10-708 na CMU (link)
Processamento de linguagem natural de Collins, COMS 4995 em Columbia (link)
Reconhecimento de padrões e aprendizado de máquina. Christopher M. Bishop. 2006
Aprendizado de máquina: uma perspectiva probabilística. Kevin P. Murphy. 2012
Modelos gráficos, famílias exponenciais e inferência variacional. 2008
Previsão da estrutura linguística. 2011
O processo sintático. 2000
Gerando frases de um espaço contínuo, conll 15
Inferência variacional neural pelo processamento de texto, ICML 16
Aprendendo modelos neurais para geração de texto. EMNLP 2018
Modelos residuais baseados em energia para geração de texto. ICLR 20
Geração de parafrase com saco latente de palavras. Neurips 2019.
Fairseq Decoding Library. [Github]
Geração de texto neural do controlabel [lil'log]
Pesquisa de feixe melhor primeiro. TACL 2020
O curioso caso de degeneração do texto neural. ICLR 2020
Comparação de diversos métodos de decodificação de modelos de linguagem condicional. ACL 2019
Vigas estocásticas e onde encontrá-las: o truque de gumbel-top-k para sequências de amostragem sem substituição. ICML 19
Pesquisa condicional de feixe estocástico de Poisson. EMNLP 2021
Decodificação em escala maciça para geração de texto usando treliças. 2021
Decodificação lexicamente restrita para geração de sequência usando pesquisa de feixe de grade. ACL 2017
Decodificação rápida lexicamente restrita com alocação de feixe dinâmico para tradução da máquina neural. NAACL 2018
Decodificação lexicamente restrita para tradução e reescrita monolíngue. NAACL 2019
Para a decodificação como otimização contínua na tradução da máquina neural. EMNLP 2017
Geração de texto sem supervisão sem supervisão guiada por gradiente. EMNLP 2020
Geração de texto controlada como otimização contínua com múltiplas restrições. 2021
Decodificação neurológica: (un) geração de texto neural supervisionada com restrições lógicas predicadas. NAACL 2021
Decodificação neurológica de A*ESQUE: geração de texto restrito com heurísticas lookahead. 2021
Decodificação a frio: geração de texto restrito à base de energia com a dinâmica Langevin. 2022
Nota: Eu não passei por este capítulo, por favor me dê sugestões!
Tradução de máquinas neurais não autorregressivas. ICLR 2018
Tradução da máquina neural totalmente não autorregressiva: truques do comércio.
Decodificação rápida em modelos de sequência usando variáveis latentes discretas. ICML 2021
Geração de texto em cascata com transformadores de Markov. Arxiv 20
Transformador de olhar para tradução para a máquina neural não autorregressiva. ACL 2021
TODO: mais sobre isso
Papéis de Prompt, Thunlp (link)
CTRL: Um modelo de linguagem de transformador condicional para geração controlável. ARXIV 2019
Modelos de idiomas de plugue e reprodução: uma abordagem simples para a geração de texto controlada
Torch-estrutura: biblioteca de previsão estruturada profunda. Github, papel, documentação
Uma introdução aos campos aleatórios condicionais. 2012
Os algoritmos internos e avançados são apenas o BackProp. 2016.
Aprendendo com perdas de Fenchel-Young. JMLR 2019
Redes de atenção estruturada. ICLR 2017
Programação dinâmica diferenciável para previsão e atenção estruturada. ICML 2018
Gramáticas de rede neural recorrentes. Naacl 16
Gramáticas de rede neural recorrente não supervisionadas, NAACL 19
Perturb-and-parse diferenciável: análise semi-supervisionada com um autoencoder variacional estruturado, ICLR 19
O processo sintático. 2020
Auto-ataque lingüisticamente informado para rotulagem semântica de papel. Prêmio de melhor artigo do EMNLP 2018
Analadia semântica com autoencoders seqüenciais semi-supervisionados. 2016
Generalização composicional em PN. Lista de papel
Generalização sem sistemática: nas habilidades de composição das redes recorrentes de sequência a sequência. ICML 2019
Melhorando a metodologia de avaliação de texto para SQL. ACL 2018
Inferência probabilística usando os métodos de Markov Chain Monte Carlo. 1993
Elementos de Monte Sequencial Carlo (link)
Uma introdução conceitual ao Hamiltoniano Monte Carlo (link)
Amostragem candidata (link)
Estimativa-prastiva de ruído: um novo princípio de estimativa para modelos estatísticos não formalizados. Aistata 2010
A* amostragem. Prêmio de melhor artigo do NIPS 2014
Cambridge Variational Inference Reading Group (link)
Inferência variacional: uma revisão para estatísticos.
Inferência variação estocástica
Inferência bayesiana variacional na pesquisa estocástica. ICML 12
Bayes variacional de codificação automática, ICLR 14
BETA-VAE: Aprendendo conceitos visuais básicos com uma estrutura variacional restrita. ICLR 2017
Importância Autoencoders ponderados. ICLR 2015
Retropropagação estocástica e inferência aproximada em modelos generativos profundos. ICML 14
AutoEncoders variacionais semi-amortizados, ICML 18
AutoEncoders de Autoencodres regularizados, ICML 18
Mais sobre reparameterização: Reparameterizar a mistura gaussiana, a matriz de permutação e os amostradores de rejeição (Gamma e Dirichlet).
Backpropagação estocástica através de distribuições de densidade da mistura, arxiv 16
Gradientes de reparaMeterização por meio de algoritmos de amostragem de rejeição de aceitação. Aistats 2017
Gradientes implícitos de reparameterização. Neurips 2018.
Reparameterização categórica com Gumbel-Softmax. ICLR 2017
A distribuição concreta: um relaxamento contínuo de variáveis aleatórias discretas. ICLR 2017
Reparameterização gaussiana invertível: revisitando o Gumbel-Softmax. 2020
Amostragem de subconjunto reparameterizável por meio de relaxamentos contínuos. IJCAI 2019
Redes adversárias generativas, NIPS 14
Rumo a métodos de princípios para treinamento em redes adversárias generativas, ICLR 2017
Wasserstein Gan
InfoGan: Aprendizagem de representação interpretável por maximizando as redes adversárias generativas. NIPS 2016
Inferência de aprendizado adversário. ICLR 2017
Modelos generativos profundos baseados em fluxo, do log de Lil
Inferência variacional em fluxos de normalização, ICML 15
Aprendendo sobre a linguagem com fluxos normalizados
Inferência variacional aprimorada com fluxo autoregressivo inverso
Estimativa de densidade usando NVP real. ICLR 17
Aprendizagem não supervisionada da estrutura sintática com projeções neurais invertíveis. EMNLP 2018
Fluxos de normalização latentes para seqüências discretas. ICML 2019.
Fluxos discretos: modelos generativos invertíveis de dados discretos. 2019
FlowSeq: Geração de sequência condicional não autorregressiva com fluxo generativo. EMNLP 2019
Tradução de máquina neural variacional com fluxos normalizadores. ACL 2020
Nas incorporações da frase de modelos de idiomas pré-treinados. EMNLP 2020
AF: Precisa ver como modelos generativos e modelos de difusão baseados em pontuação podem ser usados para seqüências discretas
Modelagem generativa estimando gradientes da distribuição de dados. Blog 2021
Documentos de modelagem generativos baseados em pontuação
Modelagem generativa estimando gradientes da distribuição de dados. Neurips 2019
O que são modelos de difusão? 2021
Modelos de difusão impressionante
Aprendizagem profunda não supervisionada usando termodinâmica sem equilíbrio. 2015
Modelos probabilísticos de difusão de denoising. Neurips 2020
Fluxos Argmax e difusão multinomial: distribuições categóricas de aprendizado. Neurips 2021
Modelos de difusão de denoising estruturados em espaços de estado discretos. Neurips 2021
Modelos de difusão autoregressiva. ICLR 2022
Difusão-LM melhora a geração de texto controlável. 2022
Modelos de difusão de texto para imagem fotorrealista com compreensão profunda da linguagem. 2022
Neurônios ordenados: integrando a árvore estruturada em redes neurais recorrentes
Os RNNs podem gerar linguagens hierárquicas limitadas com memória ideal
Analisando a auto-distribuição de várias cabeças: cabeças especializadas fazem o trabalho pesado, o restante pode ser podado. ACL 2019
Limitações teóricas de auto-ataque nos modelos de sequência neural. TACL 2019
Repensando a atenção com os artistas. 2020
Thunlp: Lista de papel modelo de Languge pré-treinado (link)
Os papéis relacionados a Bert de Tomohide Shibata
Hippo: memória recorrente com projeções polinomiais ideais. Neurips 2020
Combinando modelos de tempo recorrente, convolucional e contínuo com a camada de espaço de estado linear. Neurips 2021
Modelando com eficiência sequências longas com espaços de estado estruturados. ICLR 2022
Por que o S4 é bom em longa sequência: lembrando uma sequência com aproximação de funções on -line. 2022
GPT3 (175b). Modelos de idiomas são poucos alunos. Maio de 2020
Megatron-Turing NLG (530B). Usando o DeepSpeed e o Megatron para treinar o Megatron-Turing NLG 530B, um modelo de linguagem generativa em larga escala. Jan 2022
Lamda (137b). LAMDA: Modelos de idiomas para aplicativos de diálogo. Jan 2022
Gopher (280b). Modelos de linguagem de dimensionamento: métodos, análise e idéias do treinamento de Gopher. Dezembro de 2021
Chinchilla (70B). Treinamento Compute-Optimal Language Models. Março de 2022
Palm (540b). Palm: Escala de modelagem de linguagem com caminhos. Abr 2022
Opt (175b). OPT: Abra os modelos de linguagem de transformadores pré-treinados. Maio de 2022
Bloom (176b): Bigscience grande e-ciência aberta do modelo de linguagem multilíngue de acesso aberto. Maio de 2022
Blenderbot 3 (175b): Um agente de conversação implantado que aprende continuamente a se envolver com responsabilidade. Agosto de 2022
Escala de leis para modelos de linguagem neural. 2020
Habilidades emergentes de grandes modelos de linguagem. 2022
Minimizar as expectativas. Chris Maddison
Estimativa de gradiente de Monte Carlo em aprendizado de máquina
Inferência variacional para os objetivos de Monte Carlo. ICML 16
Verificação: estimativas de gradiente imparcial e baixa variância para modelos variáveis latentes discretos. Nips 17
Backpropagation através do vazio: otimizando as variadas de controle para estimativa de gradiente de caixa preta. ICLR 18
Propagação de volta através do Argmax estruturado usando uma torneira. Melhor Menção Honrosa de Melhor Artigo da ACL 2018.
Compreendendo a mecânica do Spigot: gradientes substitutos para o aprendizado da estrutura latente. EMNLP 2020
Aprendendo com otimizadores perturbados diferenciados. Neurips 2020
Estimativa de gradiente com truques estocásticos de max softmax. Neurips 2020
Programação dinâmica diferenciável para previsão e atenção estruturada. ICML 18
Otimização estocástica de redes de classificação por meio de relaxamentos contínuos
Classificações diferenciáveis e classificação usando o transporte ideal
Reparameterização do politopo de Birkhoff para inferência de permutação variacional. Aistats 2018
Uma estrutura regularizada para atenção neural esparsa e estruturada. Neurips 2017
Sparsemap: Inferência estruturada esparsa diferenciável. ICML 2018
Reconhecimento de entidades nomeado aninhado com treecrfs parcialmente observados. AAAI 2021
Gradientes estocásticos e-Blackwellizados para distribuições discretas. ICML 2019.
Marginalização eficiente de variáveis latentes discretas e estruturadas via esparsidade. Neurips 2020
Regularização posterior para modelos variáveis latentes estruturados. JMLR 2010
Controle posterior da geração Blackbox. 2019
Indução gramatical de dependência com um analisador baseado em transição neural. AAAI 2019
(Em chinês) 微分几何与拓扑学简明教程
Somente Bayes deve aprender um coletor (sobre a estimativa da estrutura geométrica diferencial dos dados). ARXIV 2018
A geometria Riemanniana de modelos generativos profundos. CVPRW 2018
A geometria de modelos de imagens generativas profundas e suas aplicações. ICLR 2021
Métricas para modelos generativos profundos. Aistats 2017
Algoritmos de primeira ordem para otimização do MIN-MAX em espaços métricos geodésicos. 2022
Recursos aleatórios para máquinas de kernel em larga escala. Neurips 2007
Encontrar estrutura com aleatoriedade: algoritmos probabilísticos para construir decomposições de matriz aproximada. SIAM 2011
Otimização eficiente de loops e limites com somas telescópicas randomizadas. ICML 2019
Estimativa telescópica-razão de densidade. Neurips 2020
Processos gaussianos escaláveis sem viés por meio de truncamentos randomizados. ICML 2021
Diferenciação automática randomizada. ICLR 2021
Escala de inferência estruturada com randomização. 2021
Elementos da teoria da informação. Capa e Thomas. 1991
Em limites variacionais de informações mútuas. ICML 2019
Aprendendo representações profundas por estimativa e maximização de informações mútuas. ICLR 2019
Mina: Estimativa neural de informações mútuas
Gardeco de informações variações profundas. ICLR 2017
Identificando modelos de mistura bayesiana
Desembaltando o desapego em autoencoders variacionais. ICML 2019
Desafiar suposições comuns no aprendizado não supervisionado de representações desembaraçadas. ICML 2019
Surgimento de invariância e desajeitado em representações profundas
Minimização de riscos invariantes
Consertando um elbo quebrado. ICML 2018.
Os limites variacionais mais rígidos não são necessariamente melhores. ICML 2018
O Bernoulli contínuo: corrigindo um erro difundido em autoencoders variacionais. Neurips 2019
Os modelos generativos profundos sabem o que eles não sabem? ICLR 2019
Estimativa efetiva de modelos de linguagem generativa profunda. ACL 2020
Quão boa é a Bayes posterior em redes neurais profundas realmente? ICML 2020
Uma teoria estatística dos posteriors frios em redes neurais profundas. ICLR 2021
Limitações de modelos autoregressivos e suas alternativas. NAACL 2021