Download awesome nlp - download awesome nlp

awesome nlp

Outro código-fonte

1.0.0

Baixar

Awesome-NLP

Uma lista com curadoria de recursos dedicados ao processamento de linguagem natural

Logotipo NLP incrível

Leia isso em inglês, chinês tradicional

Leia as diretrizes de contribuição antes de contribuir. Adicione seu recurso NLP favorito, aumentando uma solicitação de tração

Conteúdo

Resumos e tendências de pesquisa
Laboratórios de pesquisa proeminentes de PNL
Tutoriais
- Lendo conteúdo
- Vídeos e cursos
- Livros
Bibliotecas
- Node.js
- Python
- C ++
- Java
- Kotlin
- Scala
- R
- Clojure
- Rubi
- Ferrugem
- NLP ++
- Julia
Serviços
Ferramentas de anotação
Conjuntos de dados
PNL em coreano
PNL em árabe
PNL em chinês
PNL em alemão
PNL em polonês
PNL em espanhol
PNL em idiomas indicadores
NLP em tailandês
PNL em dinamarquês
PNL em vietnamita
PNL para holandês
PNL em indonésio
PNL em urdu
PNL em persa
PNL no ucraniano
PNL em húngaro
PNL em português
Outros idiomas
Créditos

Resumos e tendências de pesquisa

O NLP-overview é uma visão geral atualizada das técnicas de aprendizado profundo aplicadas à PNL, incluindo teoria, implementações, aplicativos e resultados de ponta. Esta é uma ótima introdução profunda da PNL para pesquisadores.
Programa de NLP rastreia o progresso no processamento de linguagem natural, incluindo os conjuntos de dados e o atual ponta para as tarefas de PNL mais comuns
Chegou o momento da imagenet da NLP
Destaques da ACL 2018: Compreendendo a representação e avaliação em ambientes mais desafiadores
Quatro tendências de aprendizado profundo da ACL 2017. Parte um: Estrutura Linguística e Incorporação de Palavras
Quatro tendências de aprendizado profundo da ACL 2017. Parte dois: interpretabilidade e atenção
Destaques do EMNLP 2017: conjuntos de dados emocionantes, retorno dos clusters e muito mais!
Aprendizagem profunda para processamento de linguagem natural (PNL): avanços e tendências
Pesquisa do estado da arte na geração de linguagem natural

Laboratórios de pesquisa proeminentes de PNL

De volta ao topo

O Grupo NLP de Berkeley - Contribuições notáveis incluem uma ferramenta para reconstruir idiomas longos mortos, mencionados aqui e retirando corpora de 637 idiomas atualmente falados na Ásia e no Pacífico e recriando seu descendente.
Instituto de Tecnologias de Idiomas, Universidade Carnegie Mellon - Projetos notáveis incluem o Avenue Project, um sistema de tradução de máquinas dirigido por sintaxe para idiomas ameaçados de extinção como Quechua e Aymara e anteriormente, a Arca de Noah, que criou o AQMAR para melhorar as ferramentas de PNL para o árabe.
PNLP Research Group, Columbia University - Responsável pela criação de Bolt (manuseio de erros interativos para sistemas de tradução de fala) e um projeto não nomeado para caracterizar o riso no diálogo.
O Centro ou Língua e Processamento da Fala, Universidade John Hopkins - recentemente nas notícias para o desenvolvimento de software de reconhecimento de fala para criar um teste de diagnóstico ou a doença de Parkinson, aqui.
Grupo de Linguística Computacional e Processamento de Informações, Universidade de Maryland-Contribuições notáveis incluem cooperação humana-computador ou resposta a perguntas e modelagem de perguntas e modelagem de representações fonéticas.
Penn Natural Language Processing, Universidade da Pensilvânia- famoso por criar o Penn Trebank.
O Grupo de Processamento de Linguagem Náutral de Stanford- um dos principais laboratórios de pesquisa da PNL do mundo, notável por criar Stanford Corenlp e seu sistema de resolução de coreferência

Tutoriais

De volta ao topo

Lendo conteúdo

Aprendizado em máquinas em geral

Machine Learning 101 do engenheiro criativo sênior do Google explica o aprendizado de máquina para engenheiros e executivos
AI Playbook - A16Z AI Playbook é um ótimo link para encaminhar para seus gerentes ou conteúdo para suas apresentações
Blog de Ruder de Sebastian Ruder para comentários sobre o melhor da pesquisa da PNL
Como rotular o Guia de dados para gerenciar projetos de anotação linguística maiores
Depende da coleção de definição de postagens de blog, cobrindo uma ampla variedade de tópicos de PNL com implementação detalhada

Introduções e guias para a PNL

Entender e implementar o processamento de linguagem natural
PNL em Python - Coleção de notebooks Github
Processamento de linguagem natural: uma introdução - Oxford
Aprendizado profundo para a PNL com pytorch
Tutorial NLTK prático - tutoriais do NLTK, notebooks Jupyter
Processamento de linguagem natural com Python - Analisando o texto com o kit de ferramentas de linguagem natural - um livro on -line e de impressão que apresenta conceitos de PNL usando o NLTK. Os autores do livro também escreveram a biblioteca NLTK.
Treinar um novo modelo de idioma do zero - abraçando o rosto?
O Repo (SDNLPR) do Super Duper NLP (SDNLPR): Coleção de notebooks Colab, cobrindo uma ampla variedade de implementações de tarefas de PNL.

Blogs e boletins

Aprendizagem profunda, PNL e representações
O ilustrado Bert, Elmo e co. (Como o aprendizado de transferência rachado da PNL) e o transformador ilustrado
Processamento de linguagem natural por Hal Daumé III
ARXIV: Processamento de linguagem natural (quase) do zero
A eficácia irracional de Karpathy de redes neurais recorrentes
Domínio do aprendizado de máquina: aprendizado profundo para processamento de linguagem natural
Resumos visuais de papel PNL

Vídeos e cursos online

De volta ao topo

Processamento avançado de linguagem natural - CS 685, UMass Amherst CS
Processamento de linguagem natural profunda - Série de palestras de Oxford
Aprendizagem profunda para o processamento de linguagem natural (CS224 -N) - Richard Socher e Stanford Course de Christopher Manning
Redes neurais para NLP - Instituto de Tecnologia da Idioma Carnegie Mellon
Curso Deep PNL da Yandex Data School, cobrindo idéias importantes da incorporação de texto à tradução da máquina, incluindo modelagem de sequência, modelos de idiomas e assim por diante.
Introdução Fast.ai Código -primeiro ao processamento de linguagem natural - Isso abrange uma mistura de tópicos tradicionais de PNL (incluindo regex, SVD, ingênuo bayes, tokenização) e abordagens recentes de rede neural (incluindo RNNs, seq2seq, GRus e DISS), como abordando questões éticas urgentes, como bias, como bias e disin e o disination. Encontre os cadernos Jupyter aqui
Machine Learning University - Processamento acelerado de linguagem natural - Palestras passam da introdução ao processamento de PNL e texto a redes e transformadores neurais recorrentes. O material pode ser encontrado aqui.
Série de processamento de linguagem natural aplicada do IIT Madras, retirando o básico até os autoencoders e tudo mais. Os notebooks do Github para este curso também estão disponíveis aqui

Livros

Processamento de fala e linguagem - Grátis, pelo Prof. Dan Jurafsy
Processamento de linguagem natural - Notas gratuitas, PNL do Dr. Jacob Eisenstein em Georgiatech
PNL com Pytorch - Brian e Delip Rao
Mineração de texto em r
Processamento de linguagem natural com Python
Processamento prático de linguagem natural
Processamento de linguagem natural com Spark NLP
Aprendizagem profunda para o processamento de linguagem natural por Stephan Raaijmakers
Processamento de linguagem natural do mundo real - por Masato Hagiwara
Processamento de linguagem natural em ação, segunda edição - de Hobson Lane e Maria Dyshel

Bibliotecas

De volta ao topo

Node.js e JavaScript - Node.js Libaries para NLP | De volta ao topo
- Twitter -Text - Uma implementação JavaScript da Biblioteca de Processamento de Texto do Twitter
- KNWL.JS - Um processador de linguagem natural em JS
- RETEXT - Sistema extensível para analisar e manipular a linguagem natural
- Compromisso de PNL - processamento de linguagem natural no navegador
- Instalações de linguagem natural natural - em geral para o nó
- Poplar - Uma ferramenta de anotação baseada na Web para processamento de linguagem natural (PNL)
- NLP.JS - Uma biblioteca de NLP para construção de bots
- Answering de inquestação-Resposta de perguntas rápidas e prontas para produção com destilbert em node.js
Python - Bibliotecas Python NLP | De volta ao topo
- Sentimental-onix Sentiment Models for Spacy usando ONNX
- Textattack - ataques adversários, treinamento adversário e aumento de dados na PNL
- TextBlob - fornecendo uma API consistente para mergulhar em tarefas comuns de processamento de linguagem natural (PNL). Fica sobre os ombros gigantes do kit de ferramentas de linguagem natural (NLTK) e padrão, e toca muito bem com ambos?
- Spacy - PNL de força industrial com Python e Cython?
- Speedster - Aplique automaticamente técnicas de otimização SOTA para obter a velocidade máxima de inferência em seu hardware
  - TEXTACE - NLP de nível superior construído em Spacy
- GENSIM - Biblioteca Python para realizar modelagem semântica não supervisionada a partir de texto simples?
- ScatterText - Biblioteca Python para produzir visualizações D3 de como a linguagem difere entre corpora
- Gluonnlp-Um kit de ferramentas de aprendizado profundo para PNL, construído no MXNET/GLUON, para prototipagem de pesquisa e implantação industrial de modelos de última geração em uma ampla gama de tarefas de PNL.
- ALLENNLP-Uma biblioteca de pesquisa da PNL, construída sobre Pytorch, para o desenvolvimento de modelos de aprendizado profundo de última geração em uma ampla variedade de tarefas linguísticas.
- Pytorch -NLP - NLP Research Toolkit Projetado para suportar prototipagem rápida com melhores carregadores de dados, carregadores de vetores de palavras, representações de camadas de rede neural, métricas de PNM comuns, como bleu
- Rosetta - Ferramentas de processamento de texto e invólucros (por exemplo, Vowpal Wabbit)
- PYNLPL - Biblioteca de processamento de linguagem natural Python. A Biblioteca NLP de uso geral para Python, lida com alguns formatos específicos, como modelos de idiomas ARPA, Phrasetables de Moses, alinhamentos Giza ++.
- FoliApy - Biblioteca Python para trabalhar com Folia, um formato XML para anotação linguística.
- Pyss3 - Pacote Python que implementa um novo modelo de aprendizado de máquina de caixa branca para classificação de texto, chamada SS3. Como o SS3 tem a capacidade de explicar visualmente sua lógica, este pacote também vem com ferramentas de visualizações interativas fáceis de usar (demos online).
- JPTDP-Um kit de ferramentas para marcação de partida de partida da junta (POS) e análise de dependência. O JPTDP fornece modelos pré-treinados para mais de 40 idiomas.
- Bicartartm - uma biblioteca rápida para modelagem de tópicos
- SNIPS NLU - Uma biblioteca pronta de produção para análise de intenções
- Chazutsu - uma biblioteca para baixar e analisar conjuntos de dados de pesquisa de NLP padrão
- Formulários de palavras - os formulários de palavras podem gerar com precisão todas as formas possíveis de uma palavra em inglês
- Alocação de Dirichlet latente multilíngue (LDA) - Um pipeline multilíngue e extensível de agrupamento de documentos
- Kit de ferramentas de linguagem natural (NLTK) - Uma biblioteca que contém uma grande variedade de funcionalidades da PNL, suportando mais de 50 corpora.
- NLP Architect-Uma biblioteca para explorar as topologias e técnicas de aprendizado profundo de última geração para PNL e NLU
- Flair-Uma estrutura muito simples para o NLP multilíngue de última geração construído em Pytorch. Inclui incorporações de Bert, Elmo e Flair.
- Kashgari-A estrutura multilíngue de NLP simples e movida a Keras permite criar seus modelos em 5 minutos para tarefas de reconhecimento de entidade (NER) nomeadas, marcação de parte do fala (POS) e classificação de texto. Inclui Bert e Word2Vec incorporando.
- Fazenda - aprendizado rápido e fácil de transferência para a PNL. Colheita de modelos de linguagem para a indústria. Concentre -se na resposta das perguntas.
- HayStack-Estrutura Python de ponta a ponta para criar interfaces de pesquisa de idiomas naturais para dados. Aproveita os transformadores e o estado da arte da PNL. Suporta DPR, Elasticsearch, ModelHub do Huggingface e muito mais!
- Rita dsl - um dsl, vagamente baseado em ruta no apache uima. Permite definir padrões de linguagem (PNL baseada em regras) que são traduzidos em spacy, ou se você preferir menos recursos e padrões leves e leves.
- Transformadores - Processamento de linguagem natural para Tensorflow 2.0 e Pytorch.
- Tokenizers - Tokenizers otimizados para pesquisa e produção.
- Fairseq Facebook AI Pesquisa implementações dos modelos SOTA SEQ2SEQ em Pytorch.
- Corex_topic - Modelagem de tópicos hierárquicos com conhecimento mínimo de domínio
- SOCKEYE - Kit de ferramentas de tradução da máquina neural (NMT) que o Amazon traduz.
- DL TRANSTEMENT - Uma biblioteca de tradução baseada em aprendizado profundo para 50 idiomas, construído sobre transformers e MBART do Facebook Large.
- Júri - Avaliação de saídas do modelo de PNL que oferecem várias métricas automatizadas.
- Python-UCTO-Tokenizador baseado regular em expressão regular da Unicode para vários idiomas. A ligação do Python à biblioteca C ++ suporta o formato Folia.

C ++ - Bibliotecas C ++ | De volta ao topo
- INSNET-Uma biblioteca de rede neural para construir modelos de PNL dependentes da instância com lotes dinâmicos sem preenchimento.
- MIT Informações Extração Toolkit - C, C ++ e Python Tools para reconhecimento de entidade nomeado e extração de relação
- CRF ++ - Implementação de código aberto de campos aleatórios condicionais (CRFs) para segmentar/rotular dados seqüenciais e outras tarefas de processamento de linguagem natural.
- CRFSUITE - CRFSUITE é uma implementação de campos aleatórios condicionais (CRFs) para rotular dados seqüenciais.
- Analisador Bllip - analisador de linguagem natural Bllip (também conhecido como o analisador de Charniak -Johnson)
- Biblioteca Colibri-Core-C ++, ferramentas de linha de comando e ligação do Python para extrair e trabalhar com construções linguísticas básicas, como n-gramas e skipgrams de uma maneira rápida e com eficiência de memória.
- UCTO-Tokenizador baseado em expressão regular com consciência unicode para vários idiomas. Ferramenta e biblioteca C ++. Apoia o formato Folia.
- Libfolia - Biblioteca C ++ para o Formato Folia
- Frog - Suíte NLP baseado em memória desenvolvido para holandês: POS Tagger, Lemmatiser, analisador de dependência, nerd, analisador raso, analisador morfológico.
- Meta - Meta: A análise de texto moderna é um kit de ferramentas de ciências de dados C ++ que facilita a mineração de dados de texto grandes.
- Mecab (japonês)
- Moisés
- Starspace-Uma biblioteca do Facebook para criar incorporações de nível de palavra, nível de parágrafo, nível de documentos e classificação de texto
Java - Bibliotecas Java NLP | De volta ao topo
- Stanford NLP
- Opennlp
- NLP4J
- Word2vec em java
- Extração de informações abertas em escala de reverb Web
- OpenRegex Uma linguagem de expressão regular e eficiente e flexível baseada em token.
- Cogcompnlp - As bibliotecas principais desenvolvidas no grupo de computação cognitiva da U of Illinois.
- Mallet - Machine Learning for Language Toolkit - Pacote para processamento estatístico de linguagem natural, classificação de documentos, clustering, modelagem de tópicos, extração de informações e outros aplicativos de aprendizado de máquina para texto.
- RDRPOSTIGHT - Um kit de ferramentas de marcação de POS robusto disponível (em Java e Python), juntamente com modelos pré -treinados para mais de 40 idiomas.
Kotlin - Bibliotecas Kotlin NLP | De volta ao topo
- Biblioteca de detecção de idiomas da Lingua para Kotlin e Java, adequada para texto longo e curto
- KOTIDGY-Um gerador de dados de texto baseado em índice escrito em Kotlin
Scala - Bibliotecas Scala NLP | De volta ao topo
- Saul - Biblioteca para o desenvolvimento de sistemas de PNL, incluindo módulos incorporados como SRL, POS, etc.
- ATR4S-Kit de ferramentas com métodos de reconhecimento de termos automáticos de última geração.
- TM - Implementação da modelagem de tópicos com base em PLSA multilíngue regularizada.
- Word2vec -scala - interface scala para o modelo word2vec; Inclui operações sobre vetores como distância de palavras e análise de palavras.
- EPIC - EPIC é um analisador estatístico de alto desempenho escrito em Scala, juntamente com uma estrutura para a construção de modelos complexos de previsão estruturados.
- Spark NLP - Spark NLP é uma biblioteca de processamento de linguagem natural criada no topo do Apache Spark ML que fornece anotações NLP simples, de desempenho e preciso para pipelines de aprendizado de máquina que escalam facilmente em um ambiente distribuído.
R - R NLP Bibliotecas | De volta ao topo
- Text2vec - Vectorização rápida, modelagem de tópicos, distâncias e incorporações de palavras de luvas em R.
- WordVectors - um pacote R para criar e explorar o Word2vec e outros modelos de incorporação de palavras
- RMALLET - R PACOTE para interagir com a ferramenta de aprendizado de máquina Java Mallet
- DFR Browser - cria visualizações D3 para navegar modelos de tópicos de texto em um navegador da web.
- DFRTOPICS - R Pacote para explorar modelos de tópicos de texto.
- Sentiment_classifier - Classificação de sentimentos usando a desambiguação do sentido de palavra e o leitor WordNet
- JProcessing - Bibliotecas de processamento de Langauge naturais japoneses, com classificação de sentimentos japoneses
- CorporaExplorer - um pacote R para exploração dinâmica de coleções de texto
- TidyText - Mineração de texto usando ferramentas arrumadas
- spacyr - r wrapper para spacy nlp
- Visualização da tarefa do cran: processamento de linguagem natural
Clojure | De volta ao topo
- CLOJURE -OPENNLP - Processamento de linguagem natural em Clojure (OpenNLP)
- Infecções-clj-Biblioteca de inflexão semelhante a trilhos para clojure e clojurescript
- Postagga - Uma biblioteca para analisar a linguagem natural em Clojure e Clojurescript
Rubi | De volta ao topo
- Kevin Dias é uma coleção de bibliotecas de processamento de linguagem natural (PNL), ferramentas e software
- Processamento prático de linguagem natural feito em rubi
Ferrugem | De volta ao topo
- Whatlang - Biblioteca de reconhecimento de linguagem natural baseada em trigramas
- SNIPS-NLU-RS-Uma biblioteca pronta de produção para análise de intenção
- Rust-Bert-Pipelines NLP prontos para uso e modelos baseados em transformadores
NLP ++ - Idioma NLP ++ | De volta ao topo
- Extensão da linguagem VSCode - Extensão da linguagem NLP ++ para VSCODE
- Engine NLP - motor NLP ++ para executar o código NLP ++ no Linux, incluindo um analisador inglês completo
- VisualText - Página inicial para a linguagem NLP ++
- NLP ++ Wiki - entrada wiki para a linguagem NLP ++
Julia | De volta ao topo
- Corpusloaders - uma variedade de carregadores para vários corpora de NLP
- Idiomas - um pacote para trabalhar com idiomas humanos
- Pacote de textanálise - Julia para análise de texto
- TEXTMODELS - Modelos baseados em rede neural para processamento de linguagem natural
- WordTokenizers - Tokenizers de alto desempenho para processamento de linguagem natural e outras tarefas relacionadas
- Word2vec - Interface Julia para Word2vec

Serviços

PNL como API com funcionalidade de nível superior, como NER, marcação de tópicos e assim por diante | De volta ao topo

Wit -AI - Interface de linguagem natural para aplicativos e dispositivos
Entendimento de linguagem natural do IBM Watson - Demoção da API e Github
Amazon compreende - NLP e ML Suite abrange tarefas mais comuns como NER, marcação e análise de sentimentos
Google Cloud Natural Language API - Análise de sintaxe, NER, análise de sentimentos e marcação de conteúdo em pelo menos 9 idiomas incluem inglês e chinês (simplificado e tradicional).
ParallelDots - Serviço de API de análise de texto de alto nível que varia de análise de sentimentos à análise de intenções
Microsoft Cognitive Service
Textrazor
Roseta
Textalytic - Processamento de linguagem natural no navegador com análise de sentimentos, extração de entidade, marcação de POS, frequências de palavras, modelagem de tópicos, nuvens de palavras e mais
NLP Cloud - Modelos Spacy PNL (os personalizados e pré -treinados) servidos através de uma API RESTful para reconhecimento de entidade nomeado (NER), marcação de POS e muito mais.
CloudMersive - APIs de NLP unificadas e gratuitas que executam ações como marcação de fala, rehretas de texto, tradução/detecção de idiomas e análise de frases

Ferramentas de anotação

Portão - Arquitetura geral e engenharia de texto tem mais de 15 anos, de código aberto gratuito e aberto
Anafora é uma ferramenta de anotação de texto bruto de código aberto e de código aberto, baseado na Web
Brat - Brat Rapid Anotation Tool é um ambiente on -line para anotação de texto colaborativo
Doccano - Doccano é gratuito, de código aberto e fornece recursos de anotação para classificação de texto, marcação de sequência e sequência à sequência
Início - uma plataforma de anotação semântica que oferece assistência inteligente e gerenciamento de conhecimento
Tagtog, Team primeiro ferramenta da web para encontrar, criar, manter e compartilhar conjuntos de dados - custa $
Prodigy é uma ferramenta de anotação alimentada por aprendizado ativo, custa $ $
LightTag - Ferramenta de anotação de texto hospedado e gerenciado para equipes, custa $
RSTWEB - Ferramenta local ou on -line de código aberto para anotações de árvore do discurso
GitDox - Ferramenta de anotação de servidor de código aberto com controle e validação da versão do GitHub para dados XML e grãos de planilha colaborativa
Label Studio - Ferramenta de anotação de texto hospedado e gerenciado para equipes, baseado em freemium, custa $
DataSaur suporta várias tarefas de PNL para individuais ou equipes, baseado em freemium
KONFUZIO-Equipe primeiro a ferramenta de anotação hospedada e no local, com base em aprendizado ativo, baseado em freemium, custa $
UBIAI-Ferramenta de anotação de texto fácil de usar para equipes com os recursos mais abrangentes de anulação automática. Suporta NER, Relações e Classificação de Documentos, bem como anotação OCR para rotulagem de fatura, custa $
Shoonya - Shoonya é uma plataforma de anotação de dados de código aberta e de código aberto, com grandes variadas do sistema de gerenciamento de níveis de organização e espaço de trabalho. O Shoonya é agnóstico de dados, pode ser usado pelas equipes para anotar dados com vários níveis de etapas de verificação em escala.
Laboratório de anotação-plataforma sem código de ponta a ponta gratuita para anotação de texto e treinamento/ajuste de modelo DL. Suporte pronta para uso para modelos de reconhecimento de entidade, classificação, extração de relação e status de asserção nomeados. Suporte ilimitado para usuários, equipes, projetos, documentos. Não foss.
Flat-Flat é um ambiente de anotação lingüística baseada na Web baseada no formato Folia, um rico formato baseado em XML para anotação linguística. Código aberto e de código aberto.

Técnicas

Incorporação de texto

Incorporação de palavras

Regra do polegar: Fasttext >> luva> word2vec
Word2vec - Implementação - Blog explicativo
luva - blog explicativo
FastText - Implementação - Paper - Blog Explicação

Incorporação de palavras baseadas em frases e modelos de idiomas

De volta ao topo

ELMO - Representações de palavras contextualizadas profundas - Pytorch Implementation - TF Implementation
Ulmfit - Modelo de linguagem universal Tuneamento fino para classificação de texto por Jeremy Howard e Sebastian Ruder
Infecsent - Aprendizagem supervisionada de representações universais de sentenças de dados de inferência de linguagem natural pelo Facebook
Cove - Aprendido na tradução: vetores de palavras contextualizados
Vetores de Pargraph - de representações distribuídas de frases e documentos. Veja o tutorial do DOC2VEC em Gensim
Sense2vec - On Word Sense Desambiguação
Vetores de pensamento pular - método de representação de palavras
Skip -Gram Adaptive - abordagem semelhante, com propriedades adaptativas
Sequência a seqüência de aprendizado - vetores de palavras para tradução para a máquina

Resposta de perguntas e extração de conhecimento

De volta ao topo

DRQA - Open Domain Perguntas Respondendo a Trabalho da Pesquisa do Facebook sobre dados da Wikipedia
Document-Qa-Compreensão de leitura de vários parágrafos simples e eficaz por Allenai
Extração de informações baseadas em modelos sem os modelos
Privee: uma arquitetura para analisar automaticamente as políticas de privacidade da Web

Conjuntos de dados

De volta ao topo

NLP-Datasets Grande coleção de conjuntos de dados NLP
GENSIM -DATA - Repositório de dados para modelos de PNL pré -terenciados e corpora de NLP.

Estruturas multilíngues de NLP

De volta ao topo

O Udpipe é um oleoduto treinável para tokenização, marcação, lematizando e analisando os arquivos de árvores universais e outros arquivos conll-u. Escrito principalmente em C ++, oferece uma solução rápida e confiável para o processamento multilíngue de PNL.
NLP-cubo: pipeline de processamento de linguagem natural-divisão de frases, tokenização, lemmatização, marcação de parte da fala e análise de dependência. Nova plataforma, escrita em Python com o Dynet 2.0. Oferece funcionalidade independente (CLI/Python) e funcionalidade do servidor (API REST).
O urralicnlp é uma biblioteca de NLP principalmente para muitos idiomas urral em extinção, como idiomas sami, idiomas de Mordvin, idiomas Mari, idiomas Komi e assim por diante. Além disso, alguns idiomas que não têm como se aliviarem são suportados, como finlandês, juntamente com idiomas não-natural, como sueco e árabe. O urralicnlp pode fazer análises morfológicas, geração, lemmatização e desambiguação.

PNL em coreano

De volta ao topo

Bibliotecas

Konlpy - Pacote Python para processamento de linguagem natural coreana.
Mecab (coreano) - Biblioteca C ++ para PNL coreana
Koalanlp - Biblioteca Scala para processamento de linguagem natural coreana.
Konlp - R Pacote para processamento de linguagem natural coreana

Blogs e tutoriais

Blog de Dsindex
Curso de PNs da Universidade de Kangwon em coreano

Conjuntos de dados

Kaist Corpus - Um corpus do Instituto Avançado de Ciência e Tecnologia da Coréia em coreano.
Corpus de filme de sentimento Naver em coreano
Chosun Ilbo Archive - DataSet em coreano de um dos principais jornais da Coréia do Sul, o Chosun Ilbo.
Dados de bate -papo - dados de chatbot em coreano
Petições - Colete dados de petição vencidos no local da petição nacional Blue House.
DataSet coreano Parallel Corpora - Tradução de Máquina Neural (NMT) para coreano para francês e coreano para inglês
Korquad - conjunto de dados coreano de esquadrão com fonte Wiki HTML. Menciona v1.0 e v2.1 no momento de adicionar ao Awesome PN.

PNL em árabe

De volta ao topo

Bibliotecas

Pacote Goarabic - Go para processamento de texto em árabe
JSastem - JavaScript para o árabe Stemming
Pyarabic - Bibliotecas Python para árabe
Rftokenizer - segmento de python treinável para árabe, hebraico e copta

Conjuntos de dados

Conjuntos de dados multidomain - maiores recursos de vários domínios disponíveis para análise de sentimentos em árabe
LABR - LIGADOS LIVROS ÁRABICAIS DATASET
Palavras de parada em árabe - uma lista de palavras de parada em árabe de vários recursos

PNL em chinês

De volta ao topo

Bibliotecas

Jieba - Pacote Python para Utilitários de Segmentação de Palavras em Chinês
Snowlp - pacote python para NLP chinês
Fudannlp - Biblioteca Java para processamento de texto chinês
Hanlp - a biblioteca multilíngue de NLP

Antologia

FUNNLP - Coleção de ferramentas e recursos de PNL principalmente para chinês

PNL em alemão

Alemão-NLP-Lista com curadoria de recursos e ferramentas de acesso aberto/de código aberto/fora de prateleira desenvolvidos com um foco particular no alemão

PNL em polonês

Polonês -NLP - Uma lista com curadoria de recursos dedicados ao processamento de linguagem natural (PNL) no polonês. Modelos, ferramentas, conjuntos de dados.

PNL em espanhol

De volta ao topo

Bibliotecas

Spanlp - Biblioteca Python para detectar, censurar e palavrões, vulgaridades, palavras odiosas, racismo, xenofobia e bullying em textos escritos em espanhol. Ele contém dados de 21 países de língua espanhola.

Dados

Discursos políticos colombianos
Copenhagen Treebank
Bilhões de palavras espanholas corpus com incorporações Word2vec
Compilação de corpora não anotada espanhola

Incorporações de palavras e frases

Incorporações de palavras em espanhol calculadas com diferentes métodos e de diferentes corpora
Incorporações de palavras espanholas calculadas a partir de grandes corpora e tamanhos diferentes usando o FastText
Sentença espanhola incorporadas calculadas a partir de grandes corpora usando o Sent2vec
BETO - BERT para espanhol

PNL em idiomas indicadores

De volta ao topo

Dados, corpora e treebanks

Dependência Hindi Treebank-Um Treebank Multi-Representacional de Multi-camadas para Hindi e Urdu
Dependências Universal Treebank em hindi
- Dependências universais paralelas Treebank em hindi - uma parte menor do banco de árvores acima mencionado.
Lista de palavras de parada de incêndio ISI (hindi e bangla)
Lista de palavras de parada de Peter Graham
NLTK Corpus 60k Pals POS Tagged, Bangla, Hindi, Marathi, Telugu
DataSet de resenhas de filmes em hindi ~ 1k Amostras, 3 classes de polaridade
BBC News Hindi DataSet 4.3K Amostras, 14 classes
IIT Patna Hindi ABSA DATASET 5.4K Amostras, 12 domínios, termos de aspecto 4K, aspecto e polaridade do nível de sentença em 4 classes
Amostras de Bangla Absa 5,5k, 2 domínios, 10 termos de aspecto
IIT Patna Review Review Sentimento DataSet 2K Amostras, 3 rótulos de polaridade

Corpora/conjuntos de dados que precisam de um login/acesso podem ser obtidos por e -mail

Sail 2015 Twitter e Facebook rotularam amostras de sentimentos em hindi, bengali, tamil, telugu.
IIT Bombaim NLP Resources SentiWordNet, filme e turismo paralelamente corporados corporados, polaridade rotulada pela sensação corpus anotada, marathi polaridade rotulada corpus.
A TDIL-IC agrega muitos recursos úteis e fornece acesso a conjuntos de dados fechados

Modelos de idiomas e incorporações de palavras

Hindi2Vec e NLP-For-Hindi Ulmfit Model Languge
IIT Patna Bilingal Word ENCEDDINGS HI-EN
INCLIMENTOS DE PALAVRAS FASTTEXT em vários idiomas, treinados em rastreamento comum
Hindi e Bengali Word2vec
Modelo Hindi e Urdu Elmo
Sânscrito Albert treinou na Wikipedia sânscrita e no Oscar Corpus

Bibliotecas e ferramentas

Analisador morfológico profundo de múltiplas tarefas analisador profundo baseado em rede morfológica para hindi e urdu
Anoop Kunchukuttan 18 idiomas, todo o hospedeiro de recursos da tokenização à tradução
Analisador de dependência de dependência de Sivareddy e POS Tagger para Kannada, Hindi e Telugu. Porta python3
INLTK - Um kit de ferramentas de linguagem natural para idiomas indicadores (idiomas subcontinentes indianos) construídos sobre o Pytorch/Fastai, que visa fornecer suporte fora da caixa para tarefas comuns de PNL.

NLP em tailandês

De volta ao topo

Bibliotecas

Pythainlp - pacote tailandês em python
JTCC - uma biblioteca de cluster de personagens em java
Cutkum - Segmentação de palavras com aprendizado profundo no tensorflow
Kit de ferramentas de idioma tailandês - baseado em um artigo de Firote Aroonmanakun em 2002 com o conjunto de dados incluído
Synthai - Segmentação de palavras e marcação de POS usando o aprendizado profundo em Python

Dados

Inter -Best - um corpus de texto com 5 milhões de palavras com segmentação de palavras
Primeiro Ministro 29 - DataSet contendo discursos do atual primeiro -ministro da Tailândia

PNL em dinamarquês

Reconhecimento de entidade nomeado para dinamarquês
Danlp - Recursos de PNL em dinamarquês
Awesome dinamarquês - uma lista com curadoria de recursos impressionantes para tecnologia de idioma dinamarquês

PNL em vietnamita

Bibliotecas

Underthesea - kit de ferramentas do NLP vietnamita
vn.vitk - um kit de ferramentas de processamento de texto vietnamita
Vncorenlp - um kit de ferramentas de processamento de linguagem natural vietnamita
Phobert - modelos de idiomas pré -treinados para vietnamita
Pyvi - Python Vietnamita Core NLP Toolkit

Dados

Vietnamita Treebank - 10.000 frases para a tarefa de análise do círculo eleitoral
BktreeBank - uma dependência vietnamita Treebank
Ud_vietnamese - dependência universal vietnamita Treebank
Vivos - um corpus de fala vietnamita livre que consiste em 15 horas de discurso de gravação por Ailab
Vntqcorpus (grande) .txt - 1,75 milhão de frases em notícias
VITEXT2SQL-Um conjunto de dados para análise semântica de texto para SQL (EMNLP-2020 ACLHERTS)
EVB Corpus-20.000.000 de palavras (20 milhões) de 15 livros bilíngues, 100 textos paralelos de inglês-vietnamita / vietnamita-inglês, 250 textos de lei e ordenança paralelos, 5.000 artigos de notícias e 2.000 subtítulos de filmes.

PNL para holandês

De volta ao topo

Python -Frog - Python Liging to Frog, uma suíte de NLP para holandês. (marcação de poss, lematização, análise de dependência, nerd)
Simplenlg_nl - Realiser de superfície holandês usado para geração de linguagem natural em holandês, com base na implementação do SimpleNlg para inglês e francês.
Alpino - analisador de dependência para holandês (também faz marcação de POS e lemmatização).
Kaldi NL - Modelos de reconhecimento de fala holandês baseados em Kaldi.
Spacy - modelo holandês disponível. - PNL de força industrial com Python e Cython.

PNL em indonésio

Conjuntos de dados

Coleções de Kompas e Tempo na ILPS
PANL10N para marcação de POS: 39k frases e fichas de 900k Word
Idn for POS Tagging: Este corpus contém 10k frases e 250k tokens de palavras
Indonésia Treebank e dependências universais-indonésias
Indosum para resumo e classificação de texto ambos
WordNet -Bahasa - dicionário grande, livre e semântico
Indobenchmark Indonlu inclui modelo de idioma pré-treinado (IndoBert), modelo FastText, Indo4b Corpus e vários conjuntos de dados de referência da NLU

Bibliotecas e incorporação

Kit de ferramentas de linguagem natural bahasa
Incorporação de palavras indonésias
TEXTO INDONESIANO DE TEXTO INDONESIANO INDESIANA Incorporado treinado na Wikipedia
Indobenchmark Indonlu inclui modelo de idioma pré -treinamento (IndoBert), modelo FastText, Indo4b Corpus e vários conjuntos de dados de referência da NLU

PNL em urdu

Conjuntos de dados

Coleção de conjuntos de dados urdu para tarefas de POS, NER e PNL

Bibliotecas

Biblioteca de processamento de linguagem natural para (??) Urdu

PNL em persa

De volta ao topo

Bibliotecas

Hazm - kit de ferramentas do PNI PERSA.
Parsivar: um kit de ferramentas de processamento de idiomas para persa
Perke: Perke é um pacote de extração da etapa de chave do Python para a língua persa. Ele fornece um pipeline de extração de primavera de ponta a ponta, no qual cada componente pode ser facilmente modificado ou estendido para desenvolver novos modelos.
Perstem: Stemmer persa, analisador morfológico, transliterador e tagger parcial de parte do fala
ParsiAnalyzer: analisador persa para elasticsearch
Virastar: Limpando o texto persa!

Conjuntos de dados

Bijankhan Corpus: Bijankhan Corpus é um corpus marcado adequado para pesquisas de processamento de linguagem natural sobre a língua persa (FARSI). Esta coleção é reunida de notícias diárias e textos comuns. Nesta coleção, todos os documentos são categorizados em diferentes assuntos, como política, cultural e assim por diante. Totalmente, existem 4300 indivíduos diferentes. A coleção Bijankhan contém cerca de 2,6 milhões de palavras marcadas manualmente com um conjunto de tags que contém 40 tags de POS persas.
Uppsala Corpus persa (UPC): o corpus persa Uppsala (UPC) é um grande corpus persa disponível gratuitamente. O corpus é uma versão modificada do corpus de Bijankhan, com segmentação de frases adicionais e tokenização consistente contendo 2.704.028 tokens e anotada com 31 tags de parte do discurso. As tags de parte de fala estão listadas com explicações nesta tabela.
Persa coloquial em larga escala: O conjunto de dados coloquial persa coloquial em larga escala (LSCP) é hierarquicamente organizado em taxonomia asse-em-imemântica, que se concentra no entendimento da linguagem persa informal de várias tarefas como um problema abrangente. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

De volta ao topo

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

De volta ao topo

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

De volta ao topo

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

De volta ao topo

Credits for initial curators and sources