A grande lista de análises de texto do tio Steve e recursos de PNL
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
Uma lista com curadoria de recursos para aprender sobre processamento de linguagem natural, análise de texto e dados não estruturados.
Índice
- Livros
- Blogs
- Artigos de blog, artigos, estudos de caso
- Em geral
- Vieses em NLP
- Raspando
- Limpeza
- Stemming
- Redução da dimensionalidade
- Detecção de sarcasmo
- Classificação de documentos
- Entidade e extração de informações
- Cluster de documentos e similaridade de documentos
- Análise de conceito/modelagem de tópicos
- Análise de sentimentos
- Resumo do texto
- Tradução da máquina
- Sistemas de perguntas e respostas, chatbots
- Combinação difusa, correspondência probabilística, vínculo de gravação, etc.
- Incorporação de palavras e documentos
- Transformadores e modelos de idiomas
- Aprendizado profundo
- Gráficos de conhecimento
- Principais conferências de PNL
- Benchmarks
- Cursos online
- APIs e bibliotecas
- Produtos
- Demos e ferramentas online
- Conjuntos de dados
- Misc
- Outras listas com curadoria
Livros
R
- Mineração de texto com r
- Dominar a mineração de texto com r
- Mineração de texto na prática com r
Python
- Processamento de linguagem natural com transformadores, edição revisada
- Introdução ao processamento de linguagem natural
- Blueprints para análise de texto usando Python: Soluções baseadas em aprendizado de máquina para aplicativos comuns do mundo real (PNL)
- Processamento prático de linguagem natural
- Processamento de linguagem natural com Python
- Processamento de linguagem natural com pytorch
- Processamento de linguagem natural do Python
- Dominar o processamento de linguagem natural com python
- Processamento de linguagem natural: Python e NLTK
- Análise de texto aplicado com Python: Ativando produtos de dados com consciência de linguagem com aprendizado de máquina
- Processamento de linguagem natural aplicada com Python. 2018.
- Aprendizado profundo com texto
Em geral
- Texto domesticado: como encontrar, organizá -lo e manipulá -lo. Um guia prático para aprender ferramentas e técnicas inovadoras para encontrar, organizar e manipular texto não estruturado.
- Processamento de fala e linguagem
- Fundamentos do processamento estatístico de linguagem natural
- Processamento de idiomas com Perl e Prolog: teorias, implementação e aplicação (tecnologias cognitivas)
- Uma introdução para recuperação de informações
- Manual de processamento de linguagem natural
- Mineração de texto prático e análise estatística para aplicativos de dados de texto não estruturados
- Fundamentos da mineração de texto preditiva
- Mineração da Web social: Mineração de dados Facebook, Twitter, LinkedIn, Google+, Github e muito mais
- Métodos de rede neural para processamento de linguagem natural
- Mineração de texto: um guia para as ciências sociais
- Análise de texto prático: interpretar o texto e dados não estruturados para inteligência de negócios
- Métodos de rede neural no processamento de linguagem natural
- Machine Learning for Text (2018)
- Processamento de linguagem natural em espanhol
- Fundamentos da Linguística Computacional Comunicação Humano-Computador em Linguagem Natural. Fornece informações sobre como construir robôs falantes.
- Métodos estatísticos para reconhecimento de fala. Destaca pesquisas importantes e métodos estatísticos para o reconhecimento de fala.
- Como rotular o guia estendido de dados sobre gerenciamento de grandes projetos de anotação de texto
Blogs
- Provavelmente aproximadamente um blog científico
- Sebastian Ruder
- NLP-Progresso
- Blog de processamento de linguagem natural
Artigos de blog, artigos, estudos de caso
Em geral
- PNL em assistência médica. Como a PNL pode ser usada por pagadores e prestadores de serviços de saúde.
- AI Harvard Business Review. O impacto da melhoria na PNL na interação humana com as máquinas.
- Por que a precisão no processamento da linguagem natural é crucial para o futuro da IA no varejo
- O processamento de linguagem natural é divertido! Como os computadores entendem a linguagem humana. 2018.
- Campanha WEF Live - Twitter Fed Tópicos de notícias globais e rastreador de sentimentos - ao vivo em janeiro de 2019
- Técnicas modernas de aprendizado profundo aplicadas ao processamento de linguagem natural
- O guia definitivo para o processamento de linguagem natural. MonkeyLearn. Visão geral não técnica.
- Da linguagem natural às entradas do calendário, com clojure. Março de 2015. NLP, Clojure
- Pergunte ao HN: Como posso entrar no PNL (processamento de linguagem natural)?
- Pergunte ao HN: Quais são as melhores ferramentas para analisar grandes corpos de texto?
- Quora: Como aprendo processamento de linguagem natural?. Boa introdução para iniciantes com o tempo de estimativa de tempo e links para os cursos de Stanford CS.
- Tópico Quora: Processamento de Linguagem Natural
- O Guia Definitivo para Processamento de Linguagem Natural de outubro de 2015.
- Futuros de texto em fevereiro de 2015. Uma pesquisa de toda a inovação atual no texto como um meio.
- R ou python na mineração de texto em agosto de 2015. Comparação de eficiência entre R e Python no campo da mineração de texto.
- Onde começar na mineração de texto em agosto de 2012.
- Mineração de texto em R e Python: 8 dicas para começar. Outubro de 2016
- Uma introdução à análise de texto com Python, Parte 1 de abril de 2012. A passo a passo para iniciantes sobre a idéia básica de análise de sentimentos em Python.
- Mineração de dados do Twitter com Python (parte 1: coleta de dados)
- Por que a mineração de texto pode ser a próxima grande novidade. Março de 2012.
- O CEO da SAS oferece análise sobre o BI, revela casos de uso para análise de texto em junho de 2011.
- Valor e benefícios da mineração de texto. Sep 2015.
- Texto Mining South Park Fev 2016 - Um blog de mineração de texto que abrange vários tópicos.
- Processamento de linguagem natural: uma introdução
- Tutorial de processamento de linguagem natural. Junho de 2013.
- Blog de processamento de linguagem natural.
- Uma introdução à mineração de texto usando a API de streaming do Twitter e Python
- Repo Github com código: https://github.com/adilmoujahid/twitter_analytics
- Como entrar no processamento de linguagem natural '. Introdução não técnica básica à PNL.
- Betty: Uma interface amigável em inglês para sua linha de comando.
- Criando modelos de aprendizado de máquina para analisar as notícias de inicialização - parte1. Parte 2. Parte 3.
- Comparação das APIs de processamento de texto mais úteis
- 100 papéis de NLP obrigatórios
- Guia Python para lidar com dados de texto
- Verdade do fundamento do crowdsourcing para extração de relação médica
- Previsão financeira baseada em linguagem natural: uma pesquisa
- Previsão financeira baseada em linguagem natural: uma pesquisa. Um artigo que esclarece o escopo da previsão financeira da linguagem natural.
- 5 ferramentas heróicas para processamento de linguagem natural
- Processamento de linguagem natural desbloqueia dados ocultos para transformar a eficiência, qualidade e custo da assistência médica
- Extraindo problemas médicos de documentos clínicos eletrônicos
- Processamento de linguagem natural (PNL) para aprendizado de máquina. Inclui pré -processamento básico, fácil de entender e compara alguns modelos de ML ClassificAiotn em Python.
- Como escrever um corretor de ortografia - por Peter Norvig
- Usando a IA para liberar o poder dos dados do governo não estruturado: (W. Eggers, N. Malik e M. Gracie, janeiro de 2019). “Pense no texto não estruturado como 'preso' em armários de arquivos físicos e virtuais. A promessa é clara: os governos podem melhorar a eficácia e impedir muitas catástrofes, melhorando sua capacidade de 'conectar os pontos' e identificar padrões nos dados disponíveis". Este artigo da Deloitte fornece um primer e histórico fácil de compreender na PNL, e os vários aplicativos PNL podem ser usados em dados de texto não estruturados do governo. O artigo inclui muitos exemplos do governo dos EUA sobre como a PNL está atualmente implantada em diferentes domínios (por exemplo, para ajudar a analisar o feedback do público/análise/modelagem de tópicos, para melhorar as investigações forenses, para ajudar na formulação do governo e na conformidade regulatória). O ponto principal é aplicar diferentes técnicas de PNL para explorar e descobrir as principais idéias de inteligência do governo.
- Extraindo características de produtos de entretenimento: uma abordagem de alocação de Dirichlet guiada informada pela psicologia do consumo de mídia: (O. Toubia, G. Iyengar, R. Bunnell e A. Lemaire, fevereiro de 2019). “Confiamos na literatura da PNL para desenvolver um método para marcar produtos de entretenimento de maneira automatizada e escalável. No contexto dos filmes, primeiro mostramos que os recursos propostos melhoram nossa capacidade de prever o consumo no nível individual ... também mostramos que os recursos guiados do LDA têm o potencial de melhorar o desempenho dos modelos que previam os resultados do desempenho agregado, em vez de o nível individual de nível individual.” Este artigo acadêmico fornece uma estrutura e implicações gerenciais que sugerem a aplicação de LDA e PNL para extração de recursos em produtos de entretenimento que podem ajudar nos modelos tradicionais de comportamento do consumidor baseados em conteúdo e modelos de marketing relevantes aplicados à indústria de mídia e entretenimento.
- Lições aprendidas Construindo sistemas de processamento de linguagem natural nos cuidados de saúde
- Como os algoritmos sabem o que você digitará a seguir
Vieses em NLP
- Viés de IA: é de responsabilidade dos humanos garantir a justiça
- VentureBeat BlogPost - vieses de gênero em conjuntos de dados - com base no artigo de pesquisa da UCLA "Aprendendo incorporação de palavras neutras de gênero" agosto de 2018.
- Examinando o viés de gênero e raça em duzentos sistemas de análise de sentimentos. 2018
- O homem é para o programador de computadores como mulher é dona de casa? Debiasing Word incorporando.
Raspando
- Raspando o HTML usando o tutorial de scrapy sobre o uso do módulo Python para facilitar a extração de dados de sites HTML confusos.
- Extrair texto de qualquer documento; Sem muss, sem barulho. Julho de 2014.
- Usando o SCRAPY para construir seu próprio conjunto de dados setembro de 2017.
Limpeza
- Como resolver 90% dos problemas da PNL: um guia passo a passo em janeiro de 2018. Um guia passo a passo sobre a limpeza e exploração de dados para a construção de modelos de PNL bem-sucedidos.
- Pré -processamento de texto em python: etapas, ferramentas e exemplos. Outubro de 2018
- Como limpar o texto para aprendizado de máquina com Python outubro de 2017. Guia passo a passo de como executar o pré-processamento de dados de texto.
- Extração de recursos, pré-processamento básico e processamento avançado
PARE PALAVRAS
- Removendo palavras de parada com NLTK em Python
- Classificação de texto para análise de sentimentos - palavras de parada e colocações
Stemming
- Artigo: Texto Stemming: Abordagens, aplicações e desafios. Dezembro de 2016.
- Qual é a diferença entre Stemming e Lemmatization?. Fevereiro de 2018. Diferenças e exemplos de uso de Stemming e Lemmatização em diferentes idiomas.
- Stemming e Lemmatização em Python. Em outubro de 2018. Comparação de Stemming e Lemmatização com algoritmos por trás, resultados, prós e contras, contexto para usar e codificar sintaxe.
- Tutorial do Simpósio de Sentimento: Stemming
Redução da dimensionalidade
- Texto domesticado com o SVD. Sas. Jan 2004.
- Redução de dimensionalidade para modelos de saco de palavras: PCA vs LSA
- Uma introdução ao saco de palavras e como codificá -lo em Python para NLP
- Saco de palavras e TF-IDF explicou
Detecção de sarcasmo
- Detecção automática de sarcasmo: uma pesquisa da ACM Computer Pesquisa, setembro de 2017.
- Cascade: Detecção contextual de sarcasmo em fóruns de discussão on -line 27ª Conferência Internacional sobre Linguística Computacional, agosto de 2018.
- Uma visão mais profunda dos tweets sarcásticos usando profundas redes neurais convolucionais International Journal of Advanced Research in Computer Engineering & Technology, volume 6, edição 1, janeiro de 2017.
- Detectando sarcasmo com profundas redes neurais convolucionais. 30 de abril de 2018. Aprendizagem contextual usando CNNs para detecção efetiva de sarcasmo.
Classificação de documentos
- Bayes e classificação de texto ingênuos, 2014. Uma visão geral aprofundada do algoritmo ingênuo Bayes e como ele pode ser usado no processo de classificação de documentos.
- Bag de truques para classificação eficiente de texto, 2016. Um artigo de pesquisadores do Facebook que introduz o FastText, um algoritmo de classificação de documentos rápido e eficaz.
- Algoritmos do classificador de texto em Machine Learning, 2017. Um artigo do blog que mostra como aplicar vários algoritmos de aprendizado profundo para documentar problemas de classificação.
- Classificando documentos no conjunto de dados Reuters-21578 R8, 2016. Um bom tutorial em R que mostra como classificar artigos de notícias usando três algoritmos diferentes de ML.
- Revisões de cerveja de mineração de texto Tidy, 2018. Usa o algoritmo KNN para classificar as críticas de produtos de cerveja artesanal em estilos de cerveja (por exemplo, "Pilsner", "IPA" ou "belga").
- Usando FastText e Comet.ml para classificar relacionamentos em gráficos de conhecimento
- Classificação de texto de várias classes com Scikit-Learn, 2018. Um artigo que mostra como lidar com problemas de várias classes, como classificar reclamações de consumidores em uma das 12 categorias.
- Aprendizado de máquina com texto no Scikit-Learn (Pycon 2016), 2016. Um bom tutorial em vídeo que discute como usar o Scikit-Learn no processo de classificação de documentos.
- Guia final para lidar com dados de texto (usando Python) - para cientistas e engenheiros de dados, 2018. O título diz tudo.
- Classificação de texto em Python com Scikit-Learn e NLTK, 2017. Outro tutorial mostrando como executar a classificação de texto usando o Scikit-Learn.
- Apresentando a classificação de texto de última geração com modelos de linguagem universal, 2019. Introduz um método inovador de aprendizado de transferência para classificação de documentos.
- Aprendizagem de documentos de aprendizagem prevendo n -gramas para classificação de sentimentos de longas resenhas de filmes - papel com código no github
- Rumo a PNL explicável: uma estrutura de explicação generativa para classificação de texto, 2019. Um artigo que descreve uma nova abordagem para explicar o funcionamento interno dos modelos de classificação de texto.
Entidade e extração de informações
- Extração de entidades e análise de rede. Python,
StanfordCoreNLP - Processamento de linguagem natural para extração de informações
- Técnicas de PNL para extrair informações. Exploração aprofundada da estrutura de sete etapas das ferramentas e técnicas de mineração de dados do PNL.
Cluster de documentos e similaridade de documentos
- Cluster de texto: Obtenha informações rápidas de dados não estruturados. Julho de 2017.
- Cluster de documentos. Tese de mestrado.
- Cluster de documentos: uma revisão detalhada. Shah e Mahajan. Ijais 2012.
- Documentar o agrupamento com Python A Github Repository que agrupa descrições de filmes do IMDB. Com base neste tutorial original, cujo repositório do GitHub está aqui.
- Análise de mineração e sentimento de texto em análises de usuários de videogame usando mineiro SAS® Enterprise
- Quem escreveu o Anti-Trump New York Times Opped? Usando o TidyText para encontrar a similaridade do documento
Análise de conceito/modelagem de tópicos
- Modelos de tópicos: passado, presente e futuro
- Vetores de palavras usando LSA, parte - 2
- Modelos de tópicos probabilísticos
- LEGO Color Themes como modelos de tópicos setembro de 2017.
- Como nossa startup mudou do LDA não supervisionado para o Guiedlda semi-supervisionado
- Modelagem de tópicos com LSA, PLSA, LDA & LDA2VEC agosto de 2018.
- Descrição do TEXT2VEC dos modelos de tópicos
- Portal de modelagem de tópicos
- Aplicações dos modelos de tópicos 2017.
- Macs 30500: Análise de texto: Modelagem de tópicos
- Cota, abordagem de modelagem de tópicos da Uber para melhorar o suporte ao cliente
- Usando modelos de tópicos LDA como entrada do modelo de classificação
- PNL: extraindo os principais tópicos do seu conjunto de dados usando LDA em minutos
- Modelagem de tópicos O assunto legal e atividade judicial do Supremo Tribunal da Austrália, 1903–2015
Análise de sentimentos
Métodos
- CACM: Técnicas e aplicações para análise de sentimentos, 2013. Uma boa visão geral da análise de sentimentos das comunicações do ACM Journal.
- Análise de sentimentos não supervisionados com redes sociais assinadas, 2017. Um artigo de conferência que descreve os desafios da aplicação de análise de sentimentos às redes sociais e apresenta um novo método não supervisionado.
- Métodos baseados em léxico para análise de sentimentos, 2010. Usa a SO-Cal (Calculadora de Orientação Semântica), uma medida de subjetividade e opinião para análises sentimentais.
- Esse sentimento sentimental, 2015. Compara o resultado do pacote Syezhet de R com rótulos humanos em uma série de romances. Uma atualização de 2016.
- Neurônio do Sentimento Não Supervisionado, 2017. A equipe da Openai desenvolveu uma nova maneira de usar o NNS profundo para realizar análises de sentimentos, com muito menos dados do que o habitual.
- Análise atual do sentimento do estado de texto da opinião para a mineração de emoções, 2017. Um artigo da revista que examina o estado atual de pesquisa e ferramentas de análise de sentimentos.
- Visão geral das ferramentas de análise de sentimentos, Parte 1. Bancos de dados de palavras positivas e negativas, 2017. Um artigo do blog que descreve alguns bancos de dados do léxico.
- Análise de sentimentos, Análise de Conceito e Aplicações, 2018. Uma visão geral da análise de sentimentos, com uma análise de tweets sobre o Uber.
- Documentos de pesquisa inovadores e modelos de análise de sentimentos, 2018. Um blog que compara o desempenho de métodos simples a avançados para análise de sentimentos.
- Análise de sentimentos do Twitter usando modelos combinados LSTM-CNN, 2018. Um artigo do blog que descreve um novo método para análise de sentimentos que usa o aprendizado profundo.
- Vader: Um modelo parcimonioso baseado em regras para análise de sentimentos do texto da mídia social, 2014. Um artigo de conferência que apresenta a Vader, um simples modelo de análise de sentimentos baseado em regras.
- Uma comparação de abordagens baseadas em léxico para análise de sentimentos de postagens de microblog, 2014. Um artigo de conferência que apresenta uma nova abordagem baseada em léxico para análise de sentimentos de postagens no Twitter, com base em recursos lexicais, como a SentiWordNet.
Desafios
- Sobre a negatividade da negação, 2011. Um artigo de conferência que discute os desafios de lidar com a negatividade no texto, com um estudo de caso sobre críticas de filmes da IMDB.
- Desafios na análise de sentimentos, 2015. Um guia prático do Conselho Nacional de Reach do Canadá que descreve alguns dos principais desafios da análise de sentimentos.
- Uma pesquisa sobre desafios de análise de sentimentos, 2016. Um artigo de periódico que discute e compara os desafios da análise de sentimentos entre quarenta e sete artigos.
Política
- Análise de sentimentos sobre os tweets de Trump usando Python, 2017. Análise de sentimentos sobre os tweets de Trump usando Tweepy e TextBlob para processamento de PNL.
- Donald Trump vs Hillary Clinton: Análise de sentimentos no Twitter, 2016. Compara o sentimento dos tweets de Trump e os tweets de Hillary que antecederam as eleições presidenciais dos EUA em 2016.
- A análise de sentimentos funciona? Uma análise arrumada das revisões do Yelp, 2016. Resultados combinados de previsão e palavras individuais em revisões para mostrar que a análise de sentimentos funcionou bem nas revisões do Yelp.
- De tweets a pesquisas: vinculando o sentimento de texto às séries temporais de opinião pública, 2010. Um artigo de conferência que descreve como a análise de sentimentos no Twitter está conectada às pesquisas de opinião pública.
Mercado de ações
- O humor do Twitter prevê o mercado de ações, 2010. Um artigo de periódico que mede o "humor" do feedsa diário do Twitter e mostra que o humor pode prever o DJIA.
- Um impacto não linear: evidências dos efeitos causais das mídias sociais nos preços de mercado, 2016. Um artigo de periódico que mostra que o relacionamento da mídia social com o DJIA não é linear.
- Forbes: Como os comerciantes quantificam o sentimento para obter uma vantagem no mercado, 2015. Um artigo que mostra como os comerciantes quant de quantidades podem usar a análise de sentimentos.
- SentDex: Quantificando a qualitativa. Uma ferramenta on -line que mede o sentimento geral de diferentes ações.
- Trump2cash: um bot de negociação de ações alimentado por Tweets de Trump. Um bot que observa a conta do Twitter de Donald Trump e espera que ele mencione qualquer empresa com capital aberto. Um artigo do blog relacionado descreve um bot que transforma os tweets de Trump em doações da Planned Parenthood.
Aplicações
- Perdido no mar: como as mídias sociais estão ajudando as linhas de cruzeiro a atrair millennials, 2016. Um whitepaper descrevendo como as linhas de cruzeiro podem atrair um público diferente.
- Harry Plotter: Celebrando o aniversário de 20 anos com Tidytext e o Tidyverse em R, 2015. Um artigo técnico mostrando como aplicar a análise de sentimentos ao texto da série Harry Potter.
- Data Science 101: Análise de sentimentos em R Tutorial, 2017. Um artigo técnico que descreve como usar o pacote TidyText em R para analisar discursos presidenciais dos EUA.
- Cannes Lions 2017: Hungerithm, Mars Chocolate Austrália (Clemenger BBDO, Melbourne), 2017. Um vídeo que mostra como os Snickers desenvolveram uma ferramenta para alterar o preço do Snickers Bar com base no humor da Internet.
- Análise de sentimentos: 10 Aplicativos e 4 Serviços, 2018. Uma breve mas concisa introdução à análise de sentimentos, suas implicações comerciais e quatro provedores de serviços em nuvem de análise de sentimentos, incluindo Google, Amazon e Microsoft.
- O que seu chefe poderia aprender lendo os e -mails de toda a empresa, 2018. "A lição: descubra a verdade sobre como a força de trabalho não está sentindo escutando a substância do que os funcionários dizem, mas examinando como estão dizendo isso". Este artigo está centrado no tópico da aplicação da análise de sentimentos a grandes conjuntos de dados internos de texto não estruturados (por exemplo, e-mails de funcionários). A análise de texto e a PNL tornaram-se uma abordagem cada vez mais popular para ajudar a procurar pistas que possam indicar o nível de envolvimento dos funcionários no local de trabalho e quaisquer possíveis 'bandeiras vermelhas' que devem receber atenção especial por uma organização e suas implicações éticas.
- Análise de sentimentos baseados em aspectos das revisões de produtos da Amazon, 2018. Um artigo mostrando como aplicar a análise de sentimentos sobre diferentes aspectos de uma revisão do produto na Amazon.
- Análise de sentimentos de 2,2 milhões de tweets do Super Bowl 51, 2017. Um artigo mostrando como aplicar a análise de sentimentos a tweets sobre o Super Bowl.
- Análise de emoção e sentimento: um guia de profissionais para a PNL, 2018. Uma visão geral da análise de sentimentos, aplicada a artigos de notícias.
Ferramentas e tecnologia
- Tutorial de análise de streaming sobre o Azure.
- Como analisar o sentimento no Azure.
- Como fazer o desempenho do desempenho-análise-uso-python-tutorial/.
- Visão geral da análise de sentimentos do Twitter, 2016. Visão geral da análise de sentimentos e um passo a passo passo a passo sobre como executar a análise de sentimentos usando o textblob.
- ELMO ENCONTRAÇÕES EM KERAS Usando o Tensorflow Hub, 2018. Um guia para usar o ELMO do Google no seu modelo Keras usando o Tensorflow Hub.
- Análise de sentimentos do Twitter em Python usando o TextBlob, 2018.
Resumo do texto
- Resumo de texto com Gensim
- Resumo de texto não supervisionado usando incorporações de sentença
- Melhorando a abstração no resumo de texto, propondo duas técnicas para melhorias
- Resumo do texto e categorização para resumo de dados de dados científicos e relacionados à saúde com o TensorFlow. 2016. Um estudo básico sobre resumo de texto.
Tradução da máquina
- Postagem do blog: Encontrado na Tradução: frases mais precisas e fluentes no Google Translate em novembro de 2016
- NYTIMES: A grande AI Awakening de 2016. Como o Google usou a inteligência artificial para transformar o Google Translate, um de seus serviços mais populares - e como o aprendizado de máquina está pronto para reinventar a própria computação.
- Tradução de aprendizado de máquina e algoritmo do Google Translate
- Tutorial de Tradução da Máquina Neural (SEQ2SEQ)
- Artigo dissecado: “A atenção é tudo o que você precisa” explicou a explicação de um artigo importante que introduziu o 'mecanismo de atenção' pela primeira vez em 2017.
- O transformador anotado é uma implementação linha a linha de "Atenção é tudo o que você precisa".
- Bert: Pré-treinamento de transformadores bidirecionais profundos para entender o idioma Um novo modelo de representação de idiomas publicado em 2018. Código de implementação. Porta Pytorch.
- A tradução da máquina baseada em frase e neural não supervisionada propôs duas variantes de modelo: modelo neural e baseado em frase. Concedido como o prêmio de melhor artigo no EMNLP 2018. Código de implementação.
Sistemas de perguntas e respostas, chatbots
- Conheça Lucy: Criando um protótipo de chatbot
- Microsoft Bot Framework.
- Treinando milhões de agentes de diálogo personalizados
- Guia final para alavancar o NLP e o aprendizado de máquina para o seu chatbot. 2016.
- Construindo um chatbot simples do zero no Python (usando o NLTK). Sep 2018
- Uma pesquisa sobre sistemas de diálogo: avanços recentes e novas fronteiras de janeiro de 2018.
- Examinando o impacto de um chatbot de tradução automatizada na caixa de diálogo colaborativa online para aprendizado incidental de L2
- Crie um chatbot bancário com descoberta de perguntas frequentes, detecção de raiva e entendimento da linguagem natural
- Modelo generativo chatbots- maio de 2017
- Um guia para construir um slackbot com vários recursos com Python- março de 2017
- Construindo um chatbot simples do zero em Python (usando NLTK)- setembro de 2018
- O caminho para um futuro de conversação em fevereiro de 2019
- Chatbots - Projetando intenções e entidades para modelos de PNL em janeiro de 2017
- Sistema de diálogo orientado a tarefas para diagnóstico automático. 2018. Fala sobre o uso do conjunto de dados treinado pelo MDP e seus aplicativos de diagnóstico médico.
- Li Deng na AI Frontiers: três gerações de sistemas de diálogo falado (bots). 2017. Slides do cientista -chefe da Microsoft para a IA.
- PNL - Construindo um modelo de resposta a perguntas. Março de 2018
Combinação difusa, correspondência probabilística, vínculo de gravação, etc.
- Método de acordes em R. Matching aproximado de string (correspondência difusa)
- Pacote Fuzzywuzzy em R. Exemplo de uso.
- Combinação de cordas difusas - uma habilidade de sobrevivência para combater informações não estruturadas
- O pacote RecordLinkage: Detectando erros nos dados
- R FastLink do pacote: Link de registro probabilístico rápido
- Fuzzy se fundir em R a R Função para mesclar arquivos, definindo um arquivo -chave
- Aprendendo a similaridade do texto com redes recorrentes siamesas
- Dedupe: Uma biblioteca Python para correspondência difusa precisa e escalável, desduplicação e resolução de entidades.
- RecordLinkage: um kit de ferramentas para ligação de registro e desduplicação escrita em Python.
Incorporação de palavras e documentos
- As melhores incorporações e incorporações de palavras universais de palavras universais
- Uma compreensão intuitiva das incorporações de palavras: de vetores de contagem a word2vec
- Uma avaliação empírica do DOC2VEC com idéias práticas sobre a geração de incorporação de documentos 2016. Da IBM.
- Documentar a incorporação com os vetores do parágrafo 2015. do Google.
- Demonstração de incorporação de Word Word de luva 2017. De Fasti.
- Classificação de texto com Word2Vec 2016.
- Documento Incorporação de 2017
- De incorporações de palavras para documentar as distâncias 2015.
- Incorporações de palavras, preconceito em ML, por que você não gosta de matemática, e por que a IA precisa de você 2017. Rachel Thomas (fastai)
- Vetores de palavras no processamento de linguagem natural: vetores globais (luva). Agosto de 2018.
- Tutorial do DOC2VEC sobre o conjunto de dados Lee
- Incorporações de palavras em python com spacy e gensim
- Palavras contextualizadas profundas representam. Elmo. Implementação de Pytorch. Implementação de TF
- Modelo de linguagem universal Tuneamento fino para classificação de texto. Código de implementação.
- Aprendizagem supervisionada de representações universais de sentenças a partir de dados de inferência de linguagem natural.
- Aprendido na tradução: vetores de palavras contextualizados. Enseada.
- Representações distribuídas de frases e documentos. Vetores de parágrafos. Veja o tutorial do DOC2VEC em Gensim
- Sense2vec. Desambiguação do senso de palavras.
- Pule vetores de pensamento. Método de representação de palavras.
- Sequência para seqüência de aprendizado com redes neurais
- O incrível poder dos vetores de palavras. 2016.
- Incorporação de string contextual para rotulagem de sequência. 2018.
- Uma abordagem hierárquica de várias tarefas para aprender incorporações de tarefas semânticas que introduzem uma abordagem de aprendizado de várias tarefas para um conjunto de tarefas inter-relacionadas de PNL. Apresentado na Conferência AAAI em janeiro de 2019. Código de implementação.
- ELMO PALAVRAS INCORMAÇÕES
- Guia de um idiota para o processamento da linguagem natural do Word2vec
- Ocupar-se com incorporações de palavras- uma introdução (fevereiro de 2018)
- Chegou o momento do imagenet da NLP. Julho de 2018. Visão geral dos modelos de idiomas de NLP pré-treinados, atraindo paralelos às contribuições da Imagenet para a visão computacional.
- Word2vec: peixe + música = baixo
- O codificador de sentença universal explicou visualmente. Junho de 2020.
Transformadores e modelos de idiomas
- Compreendendo grandes modelos de linguagem. Sebastian Raschka. Fevereiro de 2023.
- Uma cartilha em Bertologia: o que sabemos sobre como Bert funciona. Nov 2020.
- Uma revisão dos modelos baseados em Bert. Julho de 2019.
- Bert explicou - modelo de idioma de última geração para a PNL. Uma ótima explicação dos fundamentos de como Bert funciona.
- O ilustrado Bert, Elmo e co. (Como o aprendizado de transferência rachado da PNL). Dezembro de 2018.
- As máquinas venceram os seres humanos em um teste de leitura. Mas eles entendem?
- O que todo engenheiro de PNL precisa saber sobre modelos de idiomas pré-treinados. 2019.
- o transformador ... "explicado"?
- O transformador ilustrado
- Abraçando o curso do rosto nos modelos de transformadores
- OpenAI: Melhores modelos de idiomas e suas implicações: modelo de linguagem não supervisionado baseado em transformadores pré-treinados que atinge o estado da arte em muitos benchmarks de idiomas com foco na geração de texto. Liberação controversa limitada. 14 de fevereiro de 2019.
Chatgpt
- Blog de lançamento do chatgpt
- Prompts de chatgpt impressionantes
... na educação
- Experiência do usuário do chatgpt: implicações para a educação. Xiaoming Zhai (Unviversity of Georgia). Dezembro de 2022.
- Novos modos de aprendizado habilitados pela AI Chatbots: três métodos e atribuições Mollick e Mollick (Universidade da Pensilvânia). Dezembro de 2022.
- Os educadores combatem o plágio, pois 89% dos estudantes admitem usar o ChatGPT do Openai para a lição de casa. Forbes, janeiro de 2023
- Chatgpt: amigo educacional ou inimigo?. Hirsh-Pasek e Blinkoff (Temple University). Janeiro de 2023.
- Não banir Chatgpt nas escolas. Ensine com ele .. New York Times (janeiro de 2023).
- Chatgpt e o futuro da educação comercial. Fevereiro de 2023.
- Curso Udemy (janeiro de 2023). Chatgpt para professores em educação.
Aprendizado profundo
- Keras LSTM Tutorial - Como construir facilmente um poderoso modelo de linguagem de aprendizado profundo.
- A primeira metade do artigo descreve RNNs, a anatomia de uma célula LSTM, redes LSTM. A segunda metade é um passo a passo dos recursos em Keras para implementação do LSTM usando geradores para entrada de dados.
- Aprendizagem profunda para processamento de linguagem natural: tutoriais com notebooks Jupyter.
- Um pequeno artigo contendo links e descrições para outros tutoriais em vídeo para abordagens DL para problemas de PNL. Cinco lições no total, incluindo pré -processamento, representações de palavras e LSTM, entre outros tópicos.
- Uma pesquisa sobre os usos de aprendizado profundo no processamento de linguagem natural.
- Uma revisão de literatura acadêmica de 35 páginas da DL na PNL (Universidade do Colorado, julho de 2018). Descrição detalhada das arquiteturas de rede neural, seguidas de um conjunto abrangente de aplicativos.
- Classificação de sequência com atenção humana: usando a atenção humana derivada de corpora de rastreamento ocular para regularizar a atenção em redes neurais recorrentes (RNN). Código de implementação.
- Tutorial sobre Classificação de Texto (NLP) Usando Ulmfit e Fastai Library em Python
- Redes neurais profundas de várias tarefas para o entendimento da linguagem natural. Artigo acadêmico detalhando o algoritmo MTDNN da Microsoft, que superou Bert, Elmo & Bilstm em fevereiro de 2019 na referência de cola.
- Tutorial de processamento de linguagem natural para pesquisadores de aprendizagem profunda: um repositório de tutorial de PNL de 2019 usando o Tensorflow e o Pytorch.
- Aprendizagem profunda para análise de sentimentos: uma pesquisa
- Compreensão da leitura neural e além de dezembro de 2018 Stanford - Modelos de compreensão de leitura construídos sobre as redes neurais profundas.
- Microsoft: Rede Neural Deep Multi-Task (MT-DNN): Melhoria da Microsoft no Bert do Google com foco no entendimento da linguagem natural. Código a ser lançado. 31 de janeiro de 2019.
- Uma sentença auto-atenta estruturada incorporando
Redes de cápsulas
- Investigando redes de cápsulas com roteamento dinâmico para classificação de texto. 2018.
- Redes de cápsulas baseadas em atenção com roteamento dinâmico para extração de relação. 2018.
- Análise de sentimentos do Twitter usando redes de cápsulas e GRU. 2018.
- Identificando a agressão e a toxicidade nos comentários usando a rede de cápsulas. 2018. São os primeiros dias para as redes de cápsulas, que foram introduzidas por Geoffrey Hinton, et al., Em 2017 como uma tentativa de introduzir uma arquitetura NN superior aos CNNs clássicos. A idéia tem como objetivo capturar as relações hierarquais na camada de entrada através do roteamento dinâmico entre "cápsulas" dos neurônios. Devido à probabilidade de a afinição do tema de abordar complexidades hierárquicas, a extensão da idéia para o campo da PNL tem sido um sujbect de pesquisa ativa, como nos trabalhos listados acima.
- Roteamento dinâmico entre cápsulas. 2017.
- Cápsulas da matriz com roteamento EM. 2018.
Gráficos de conhecimento
- Usando FastText e Comet.ml para classificar relacionamentos em gráficos de conhecimento
- WTF é um gráfico de conhecimento?
- Uma pesquisa com gráficos no processamento de linguagem natural. Nastase et al, 2015.
Principais conferências de PNL
- Neurips
- Associação para Linguística Computacional (ACL)
- Métodos empíricos no processamento de linguagem natural (EMNLP)
- Capítulo norte -americano da Associação de Linguística Computacional (NAACL)
- Capítulo Europeu da Associação de Linguística Computacional (EACL)
- Conferência Internacional sobre Linguística Computacional (Coling)
Benchmarks
- Tabela de classificação do esquadrão. Uma lista dos modelos de NLP com desempenho mais forte no conjunto de dados de resposta a Stanford.
- Esquadrão 1.0 Artigo (último atualizado em outubro de 2016). O Squad V1.1 inclui mais de 100.000 pares de perguntas e respostas com base nos artigos da Wikipedia.
- Esquadrão 2.0 Artigo (outubro de 2018). A segunda geração de esquadrão inclui perguntas sem resposta que o modelo de PNL deve identificar como sem resposta a partir dos dados de treinamento.
- Coloquelate Toard.
- Papel de cola (setembro de 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
Outros
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Processamento de linguagem natural | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
Produtos
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- Portão
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
Nuvem
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
Conjuntos de dados
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- Afinn
- Bing
- nrc
- vaderSentiment
Misc
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
Contribuir
Contributions are more than welcome! Please read the contribution guidelines first.
Licença
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.