PNL facilitado
Notas de código simples para explicar blocos de construção de PNL
- Técnicas de segmentação de subgletas
- Vamos comparar vários tokenizadores, ou seja, NLTK, BPE, frase de frase e tokenizer Bert.
- Decodificação do feixe
- A decodificação do feixe é essencial para as tarefas SEQ2SEQ. Mas é notoriamente complicado de implementar. Aqui está relativamente fácil, candidatos a batchfying.
- Como obter o último vetor oculto dos RNNs corretamente
- Veremos como obter os últimos estados ocultos dos RNNs em Tensorflow e Pytorch.
- Modelo Tensorflow Seq2Seq com base na tarefa G2P
- Escreveremos um modelo simples para seq2seq usando o tensorflow. Para demonstração, atacamos a tarefa G2P. O G2P é uma tarefa de converter grafemas (ortografia) em fonemas (pronúncia). É uma fonte muito boa para esse fim, pois é simples o suficiente para você aumentar e correr.
- Modelo Pytorch Seq2Seq com base na tarefa G2P
- Escreveremos um modelo simples para seq2seq usando pytorch. Para demonstração, atacamos a tarefa G2P. O G2P é uma tarefa de converter grafemas (ortografia) em fonemas (pronúncia). É uma fonte muito boa para esse fim, pois é simples o suficiente para você aumentar e correr.
- [Mecanismo de atenção] (trabalho em andamento)
- Postagem com Bert Tuneing
- Sabe -se que Bert é bom em tarefas de marcação de sequência, como o reconhecimento de entidade nomeado. Vamos ver se é verdade para marcar POS.
- Abandono em um minuto
- O abandono é indiscutivelmente a técnica de regularização mais popular em aprendizado profundo. Vamos verificar novamente como funciona.
- Ngram LM vs. Rnnlm (WIP)
- Aumento de dados para pares de perguntas quora
- Vamos ver se é eficaz aumentar os dados de treinamento na tarefa de pares de perguntas do quora.