Trabalho em várias tarefas de processamento de linguagem natural há muito tempo. Um dia, senti como desenhar um mapa do campo da PNL, onde ganho a vida. Tenho certeza de que não sou a única pessoa que quer ver rapidamente quais tarefas estão na PNL.
Fiz o meu melhor para cobrir o máximo de tarefas possíveis na PNL, mas é certo que isso está longe de ser exaustivo puramente devido à minha falta de conhecimento. E referências selecionadas são tendenciosas para as recentes realizações de aprendizado profundo. Espero que eles sirvam como ponto de partida quando você estiver prestes a cavar a tarefa. Continuarei atualizando esse repositório, mas o que eu realmente espero que você colabore neste trabalho. Não hesite em me enviar um pedido de tração!
13 de outubro de 2017.
por Kyubyong
Revisado e atualizado por YJ Choe em 18 de outubro de 2017.
PAPER usando redes neuraisPAPER uma abordagem neural para a pontuação automatizada de ensaiosCHALLENGE Kaggle: The Hewlett Foundation: pontuação automatizada de redaçãoPROJECT (motor de pontuação de IA aprimorado) WIKIPAPER 2: Reconhecimento de fala de ponta a ponta em inglês e mandarimPAPER wavenet: um modelo generativo para áudio brutoPROJECT Uma implementação do TensorFlow da arquitetura DeepSpeech do BaiduPROJECT Spean-T-Text-WaveNet: Nível de frase de ponta a ponta Reconhecimento de fala em inglês usando o WaveNet de DeepMindCHALLENGE o 5º desafio de separação e reconhecimento de discursos de carrilhãoDATA o 5º desafio de separação e reconhecimento de discursos de carrilhãoDATA CSTR VCTK CorpusDATA Librispeech ASR CorpusDATA Switchboard-1 Telefone FOECH CORPUSDATA TED Lium CorpusDATA abrem os recursos de fala e linguagemDATA WIKIBOOK resumo automático de textoPAPER usando redes neuraisPAPER com redes neurais recursivas e sua aplicação no resumo de vários documentosDATA (TAC)DATA Conferências de compreensão (DUC) INFOPAPER para modelos de núcleo de ranking de mençãoPAPER para melhorar a resolução de coreferência por representações distribuídas no nível da entidade de aprendizagemCHALLENGE Conll 2012 Tarefa compartilhada: Modelando Coreferência irrestrita multilíngue em ontonotesCHALLENGE Conll 2011 Tarefa compartilhada: Modelando a coreferência irrestrita em ontonotesCHALLENGE Semeval 2018 Tarefa 4: Identificação de caracteres em diálogos multipartidários PAPER uma rede neural de codificador convolucional de várias camadas para correção de erro gramaticalPAPER para correção de erro gramaticalPAPER para correção de frasesCHALLENGE Conll-2013 Tarefa compartilhada: Correção de erro gramaticalCHALLENGE Conll-2014 Tarefa compartilhada: Correção de erro gramaticalDATA NUS Licença de Corpus de Pesquisa/Trial não comercialDATA Lang-8 Learner CorporaDATA Cornell Movie-Dialogs CorpusPROJECTPRODUCT Gramática Deep PAPER para (quase) qualquer idiomaPAPER : um estudo de caso em aprendizado de representação fonética inter-lingualPAPER para conversão de grafema em fonemaPROJECTPROJECT G2P_EN: Um módulo Python simples para a conversão de grafema em inglês para o fonemaDATA PAPER : uma pesquisaPAPER para sarcasmo: tornando a detecção de sarcasmo oportuna, contextual e muito pessoalPAPER no Twitter: uma abordagem de modelagem comportamentalCHALLENGE Semeval-2017 Tarefa 6: #HashTagwars: Aprendendo um senso de humorCHALLENGE Semeval-2017 Tarefa 7: Detecção e interpretação dos trocadilhos em inglêsDATA do RedditDATA Sarcasm Corpus v2DATA Sarcasm Amazon Reviews Corpus WIKIPAPER o problema de aterramento do símboloPAPER de fonemas a imagens: níveis de representação em um modelo neural recorrente de aprendizado de idiomas visualmente fundamentadoPAPER da fonologia em um modelo neural recorrente de discurso fundamentadoPAPER para aterramento de idiomas orientado a tarefasPAPER Sound-Word2Vec: Aprendendo representações de palavras fundamentadas em sonsCOURSE Language de aterramento para visão e controleWORKSHOP para robótica WIKIPAPER usando redes neurais profundasPAPER Natural Language Processando com pequenas redes de alimentaçãoCHALLENGE 2015 Avaliação de reconhecimento de idiomas WIKITOOLKIT kenlm model kenlm kit de ferramentasPAPER de palavras e frases e sua composiçãoPAPER com redes neurais recorrentesPAPERTHESIS baseados em redes neuraisDATA Penn TreebankTUTORIAL sobre Modelagem de Idiomas com Redes Neurais Recorrentes WIKIPAPER e marcação morfológica com lemmingTOOLKIT WordNet LemmatizerDATA Treebank-3 WIKIPAPER : ponta a ponta a ponta de leitura de lips no nível da frasePAPER na naturezaPAPERPROJECT - Reconhecimento Cross Audio -Visual usando redes neurais convolucionais 3DPRODUCT liopaDATA o corpus de frase audiovisual da gradeDATA O BBC-OXFORD 'MULTI-View Lip Readings Frendences' (MV-LRS) DataSet PAPER aprendendo em conjunto a alinhar e traduzirPAPER no tempo linearPAPER é tudo que você precisaPAPER seis desafios para a tradução da máquina neuralPAPER e neuralCHALLENGE ACL 2014 Nona Workshop sobre Tradução de Máquina EstatísticaCHALLENGE EMNLP 2017 Segunda Conferência sobre Tradução da Máquina (WMT17)DATA OpenSubtitles2016DATA Wit3: Inventário da Web de negociações transcritas e traduzidasDATA O Corpus do Domínio Educacional QCRI (QED)PAPER Multi-Task Sequence to Sequence LearningPAPER não supervisionado pré -treinamento para sequência para sequenciar o aprendizadoPAPER Google Sistema de tradução para máquinas neurais multilíngues: Ativando a tradução zero-shotTOOLKIT com codificação de pares de bytes (BPE)TOOLKIT de tradução para máquinas neurais de várias viasTOOLKIT OpenNmt: Kit de ferramentas de fonte aberta para tradução para máquinas neurais WIKIPAPER usando a sequência de caracteres para seqüência de aprendizadoCHALLENGE Sigmorphon 2016 Tarefa compartilhada: Reinflexão morfológicaDATA Sigmorphon2016 WIKI ligandoPAPER , desambiguação por meio de incorporações semânticas WIKI denominado reconhecimento de entidadePAPER para reconhecimento de entidade nomeadoPROJECT OSU Twitter NLP ToolsCHALLENGE nomeado reconhecimento de entidade no TwitterCHALLENGE Conll 2002 Independente da linguagem nomeado reconhecimento de entidadeCHALLENGE Introdução à Tarefa Compartilhada da Conll-2003: Independente da linguagem nomeado reconhecimento de entidadeDATA Conll-2002 Ner CorpusDATA Conll-2003 Ner CorpusDATA Not chamado de reconhecimento de entidade na tarefa compartilhada do TwitterTOOLKIT Stanford nomeado reconhecedor de entidade PAPER dinâmico agrupamento e desdobrando autoencoders recursivos para detecção de paráfrasePROJECT Paralex: Aprendizado orientado parafrase para respostas de perguntas abertasCHALLENGE Semeval-2015 Tarefa 1: Paráfrase e similaridade semântica no TwitterDATA Microsoft Research Parafrase CorpusDATA Microsoft Research Video Descrição CorpusDATA Pascal DataSetDATA do conjunto de dados do FlickrDATA o conjunto de dados doentesDATA PPDB: o banco de dados de parafraseDATA WikiAswers parafraseia corpus PAPER com redes LSTM residuais empilhadasDATA com redes LSTM residuais empilhadasCODE de geração de paráfrase neural com redes LSTM residuais empilhadasPAPER uma estrutura generativa profunda para geração de paráfrasePAPER revisitado com tradução para máquinas neurais WIKI ParsingTOOLKIT The Stanford Parser: um analisador estatísticoTOOLKITPAPER como uma língua estrangeiraPAPER um analisador de dependência rápido e preciso usando redes neuraisPAPER Universal Semântico ParsingCHALLENGE Conll 2017 Tarefa compartilhada: análise multilíngue de texto bruto para dependências universaisCHALLENGE Conll 2016 Tarefa compartilhada: multilingual discurso superficial análise de discursoCHALLENGE Conll 2015 Tarefa compartilhada: discurso superficial analisandoCHALLENGE Semeval-2016 Tarefa 8: As representações de significado podem ser abstratas, mas essa tarefa é concreta! WIKI Part-of-SpeolgingPAPER multilíngue de marcação de parte de fala com modelos de memória de curto prazo de longo prazo bidirecionais e perda auxiliarPAPER não supervisionado marcação de parte de fala com modelos de markov ocultos de âncoraDATA Treebank-3TOOLKIT nltk.tag WIKIPAPER para mecanismo de método de entrada de pinyin chinêsPROJECT Transliterador Chinês Neural WIKIPAPER pergunte -me qualquer coisa: Redes de memória dinâmica para processamento de linguagem naturalPAPER para resposta visual e textualCHALLENGE Trec Perguntas Tarefa de RespostaCHALLENGE NTCIR-8: Acesso Avançado de Informações Linguais (ACLIA)CHALLENGE Clef Pergunta Responder TrackCHALLENGE Semeval-2017 Tarefa 3: Resposta de perguntas da comunidadeCHALLENGE Semeval-2018 Tarefa 11: Compreensão de máquinas usando conhecimento do senso comumDATA MS Marco: Microsoft Machine Reading Compreension DataSetDATA Maluuba NewsQADATA : mais de 100.000 perguntas para a compreensão da máquina do textoDATA GraphQuestions: um conjunto de dados de resposta a perguntas ricas em característicasDATA Story Cloze Test and Rocstories CorporaDATA Microsoft Research Wikiqa CorpusDATA DeepMind q & A DATASETDATA QasentDATA Livro de Dados Resposta de Perguntas WIKIPAPER Uma abordagem de aprendizado profundo para extração de relacionamento do contexto de interação no paradigma de fabricação socialCHALLENGE Semeval-2018 Tarefa 7 Extração e classificação semânticas em artigos científicos WIKIBOOK de rotulagem semânticaPAPER de ponta a ponta da rotulagem semântica usando redes neurais recorrentesPAPER com incorporação de caminho de dependênciaPAPER : o que funciona e o que vem a seguirCHALLENGE Conll-2005 Tarefa compartilhada: rotulagem semânticaCHALLENGE Conll-2004 Tarefa compartilhada: rotulagem semânticaTOOLKIT Illinois semântico Rótulo de função (SRL)DATA Conll-2005 Tarefa compartilhada: rotulagem semântica WIKIPAPER uma avaliação quantitativa e qualitativa da detecção de limites de sentença para o domínio clínicoTOOLKIT NLTK TokenizersDATA o corpus nacional britânicoDATA Switchboard-1 Telefone FOECH CORPUS WIKIINFOCHALLENGE Kaggle: Umich SI650 - Classificação de sentimentosCHALLENGE Semeval-2017 Tarefa 4: Análise de sentimentos no TwitterCHALLENGE Semeval-2017 Tarefa 5: Análise de sentimentos de granulação fina em microblogs e notícias financeirosPROJECT SenticnetPROJECT NLPDATA do conjunto de dados de sentimentos de vários domínios (versão 2.0)DATA Stanford Sentiment TreebankDATA Twitter Sentimento CorpusDATA Twitter Análise de sentimentos de treinamento CorpusDATA Afinn: Lista de palavras em inglês classificadas para valência PAPER sem segmentação temporalPAPER : forma de ponta a ponta e reconhecimento contínuo de linguagem de sinaisDATA RWTH-Phoenix-WeatherDATA asllrpPROJECT SignALL PAPER com base em redes neurais profundasPAPER um sintetizador de canto paramétrico neural Timbre e expressão de canções naturaisPRODUCT : tecnologia de síntese de voz e software desenvolvido pela YamahaCHALLENGE Sessão Especial Intespeech 2016 Síntese de síntese Desafio "Preencher a lacuna" WORKSHOP NLP+CSS: Workshops sobre processamento de linguagem natural e ciências sociais computacionaisTOOLKIT também gostam de fazer compras: reduzindo a amplificação do viés de gênero usando restrições no nível do corpusTOOLKIT Online Bayes Variational para Alocação Latente de Dirichlet (LDA)GROUP do laboratório de conhecimento da Universidade de Chicago WIKIPAPER de separação de fonte de áudio cego a guiadaPAPER de máscaras e redes neurais recorrentes profundas para separação de fonte monauralCHALLENGE (SISEC)CHALLENGE desafio de separação de discursos e reconhecimento WIKIPAPER baseado em DNN agrupamento de altoPAPER : uma abordagem integrada e iterativaPAPER baseado na fusão bayesiana espaço-temporalCHALLENGE rico em avaliação de transcrição WIKIPAPER um novo esquema para reconhecimento de alto-falante usando uma rede neural profunda foneticamente conscientePAPER Deep Neural Networks para verificação de alto-falante dependente de texto de pegada de pegadaPAPER : um sistema de incorporação de alto-falante neural de ponta a pontaPROJECT Voice Vector: Qual das estrelas de Hollywood é mais semelhante à minha voz?CHALLENGE NIST Avaliação de reconhecimento de alto -falante (SRE)INFO Existem sugestões para bancos de dados gratuitos para reconhecimento de alto -falantes?DATA voxceleb2: reconhecimento de alto -falante profundo WIKI discurso_segmentationPAPER por crianças de 8 meses: quando as dicas de fala contam mais do que as estatísticasPAPER não supervisionado segmentação de palavras e descoberta de léxico usando palavras acústicas incorporadasPAPER não supervisionado pela descoberta de léxico de entrada acústicaPAPER fracamente supervisionou a descoberta de termo falado usando informações colaterais transversaisDATA calhome discurso espanhol WIKIPAPER condicionando o wavenet em previsões de espectrograma MELPAPER wavenet: um modelo generativo para áudio brutoPAPER : em direção à síntese de fala de ponta a pontaPAPER Deep Voice 3: 2000-falante Texto em fala em falaPAPER com eficiência de sistema de texto para fala com base em redes convolucionais profundas com atenção guiadaDATA da Bíblia do mundo inglêsDATA LJ DataSet de falaDATA Lessac DataCHALLENGE Challenge Challenge 2017PRODUCT LyrebirdPROJECT o projeto FestVoxTOOLKIT Merlin: Sistema de Síntese de Fala Baseado na Rede Neural (NN) WIKIBOOK : teoria e práticaPAPER Um estudo experimental sobre aprimoramento de fala baseado em linha de redePAPER uma abordagem de regressão para aprimoramentoPAPER baseado em denoising profundo WIKI StemmingPAPER uma rede neural de retropropagação para melhorar o árabe StemmingTOOLKIT NLTK Stemmers WIKIPAPER para classificação de sequência: análise e aplicação para extração de termos -chave e detecção do ato de diálogo WIKIPAPER uma pesquisa sobre abordagens de similaridade de textoPAPER para classificar pares de texto curtos com redes neurais convolucionais profundasPAPER melhorado representações semânticas de redes de memória de curto prazo estruturadas por árvoresCHALLENGE Semeval-2014 Tarefa 3: similaridade semântica de nível cruzadoCHALLENGE Semeval-2014 Tarefa 10: Similaridade Textual semântica multilíngueCHALLENGE Semeval-2017 Tarefa 1: Similaridade Textual SemânticaWIKI WIKIPAPER alinhando frases da Wikipedia Standard para a Wikipedia simplesPAPER na pesquisa atual de simplificação de texto: novos dados podem ajudarDATA WIKIPROJECT TEXTual Irailment com TensorflowPAPER com atenção e composição estruturadaCHALLENGE Semeval-2014 Tarefa 1: Avaliação de modelos semânticos de distribuição composicional em frases completas por meio de relação semântica e interrupção textualCHALLENGE Semeval-2013 Tarefa 7: A análise conjunta de resposta do aluno e o 8º Reconhecimento do Desafio de Iraximento Textual WIKIINFO de scripts não de latinaPAPER uma abordagem de aprendizado profundo para a transliteração da máquinaCHALLENGE News 2016 Tarefa compartilhada sobre transliteração de entidades nomeadasPROJECT Transliteração japonesa neural - você pode fazer melhor do que o teclado Swiftkey ™? PAPER para conversão de voz para muitos para um sem treinamento de dados paralelosPROJECT Redes Neurais Deep para conversão de voz (transferência de estilo de voz) em TensorflowPROJECT Uma implementação do sistema de conversão de voz utilizando grupos posteriores fonéticosCHALLENGE Desafio de Conversão de Voz 2016CHALLENGE 2018DATA CMU_ARCTIC SYNTESESS DATABASESDATA Timit Corpus de fala contínua acústica-fonética WIKI Word incorporandoTOOLKIT Gensim: Word2vecTOOLKIT FastTextTOOLKIT : vetores globais para representação de palavrasINFO onde obter um modelo pré -traidoPROJECT Vetores de palavras pré-treinadasPROJECT Vetores de palavras pré-treinadas de mais de 30 idiomasPROJECT Poliglot: Representações de palavras distribuídas para PN de multilínguePROJECT BPEMB: Uma coleção de incorporações de subbordas pré-treinadas em 275 idiomasCHALLENGE Semeval 2018 Tarefa 10 Capturando atributos discriminativosPAPER bilíngue incorporandoPAPER uma pesquisa com modelos de incorporação transversal INFO O que é previsão de palavras?PAPER a previsão de caráter baseada em modelo de linguagem de rede neural recorrentePAPER uma previsão de palavras baseada em aprendizado profundo incorporadoPAPER Avaliando Previsão de Palavras: Economia de Teclado de ArtigoDATA uma previsão de palavras baseada em aprendizado profundo incorporadoPROJECT usando redes neurais convolucionais - você pode fazer melhor que o teclado iPhone ™?CHALLENGE Semeval-2018 Tarefa 2, Previsão multilíngue emoji WIKIPAPER neural segmentação de palavras aprendendo para chinêsPROJECT para segmentação de palavras chinesasTOOLKIT Stanford Word SegmenterTOOLKIT NLTK Tokenizers DATAPAPER de trem-o-matic: Desambiguação de sentido supervisionado em larga escala em vários idiomas sem dados de treinamento manualDATA trem-o-maticDATA Babelnet