Awesome-NLP
Uma lista com curadoria de recursos dedicados ao processamento de linguagem natural

Leia isso em inglês, chinês tradicional
Leia as diretrizes de contribuição antes de contribuir. Adicione seu recurso NLP favorito, aumentando uma solicitação de tração
Conteúdo
- Resumos e tendências de pesquisa
- Laboratórios de pesquisa proeminentes de PNL
- Tutoriais
- Lendo conteúdo
- Vídeos e cursos
- Livros
- Bibliotecas
- Node.js
- Python
- C ++
- Java
- Kotlin
- Scala
- R
- Clojure
- Rubi
- Ferrugem
- NLP ++
- Julia
- Serviços
- Ferramentas de anotação
- Conjuntos de dados
- PNL em coreano
- PNL em árabe
- PNL em chinês
- PNL em alemão
- PNL em polonês
- PNL em espanhol
- PNL em idiomas indicadores
- NLP em tailandês
- PNL em dinamarquês
- PNL em vietnamita
- PNL para holandês
- PNL em indonésio
- PNL em urdu
- PNL em persa
- PNL no ucraniano
- PNL em húngaro
- PNL em português
- Outros idiomas
- Créditos
Resumos e tendências de pesquisa
- O NLP-overview é uma visão geral atualizada das técnicas de aprendizado profundo aplicadas à PNL, incluindo teoria, implementações, aplicativos e resultados de ponta. Esta é uma ótima introdução profunda da PNL para pesquisadores.
- Programa de NLP rastreia o progresso no processamento de linguagem natural, incluindo os conjuntos de dados e o atual ponta para as tarefas de PNL mais comuns
- Chegou o momento da imagenet da NLP
- Destaques da ACL 2018: Compreendendo a representação e avaliação em ambientes mais desafiadores
- Quatro tendências de aprendizado profundo da ACL 2017. Parte um: Estrutura Linguística e Incorporação de Palavras
- Quatro tendências de aprendizado profundo da ACL 2017. Parte dois: interpretabilidade e atenção
- Destaques do EMNLP 2017: conjuntos de dados emocionantes, retorno dos clusters e muito mais!
- Aprendizagem profunda para processamento de linguagem natural (PNL): avanços e tendências
- Pesquisa do estado da arte na geração de linguagem natural
Laboratórios de pesquisa proeminentes de PNL
De volta ao topo
- O Grupo NLP de Berkeley - Contribuições notáveis incluem uma ferramenta para reconstruir idiomas longos mortos, mencionados aqui e retirando corpora de 637 idiomas atualmente falados na Ásia e no Pacífico e recriando seu descendente.
- Instituto de Tecnologias de Idiomas, Universidade Carnegie Mellon - Projetos notáveis incluem o Avenue Project, um sistema de tradução de máquinas dirigido por sintaxe para idiomas ameaçados de extinção como Quechua e Aymara e anteriormente, a Arca de Noah, que criou o AQMAR para melhorar as ferramentas de PNL para o árabe.
- PNLP Research Group, Columbia University - Responsável pela criação de Bolt (manuseio de erros interativos para sistemas de tradução de fala) e um projeto não nomeado para caracterizar o riso no diálogo.
- O Centro ou Língua e Processamento da Fala, Universidade John Hopkins - recentemente nas notícias para o desenvolvimento de software de reconhecimento de fala para criar um teste de diagnóstico ou a doença de Parkinson, aqui.
- Grupo de Linguística Computacional e Processamento de Informações, Universidade de Maryland-Contribuições notáveis incluem cooperação humana-computador ou resposta a perguntas e modelagem de perguntas e modelagem de representações fonéticas.
- Penn Natural Language Processing, Universidade da Pensilvânia- famoso por criar o Penn Trebank.
- O Grupo de Processamento de Linguagem Náutral de Stanford- um dos principais laboratórios de pesquisa da PNL do mundo, notável por criar Stanford Corenlp e seu sistema de resolução de coreferência
Tutoriais
De volta ao topo
Lendo conteúdo
Aprendizado em máquinas em geral
- Machine Learning 101 do engenheiro criativo sênior do Google explica o aprendizado de máquina para engenheiros e executivos
- AI Playbook - A16Z AI Playbook é um ótimo link para encaminhar para seus gerentes ou conteúdo para suas apresentações
- Blog de Ruder de Sebastian Ruder para comentários sobre o melhor da pesquisa da PNL
- Como rotular o Guia de dados para gerenciar projetos de anotação linguística maiores
- Depende da coleção de definição de postagens de blog, cobrindo uma ampla variedade de tópicos de PNL com implementação detalhada
Introduções e guias para a PNL
- Entender e implementar o processamento de linguagem natural
- PNL em Python - Coleção de notebooks Github
- Processamento de linguagem natural: uma introdução - Oxford
- Aprendizado profundo para a PNL com pytorch
- Tutorial NLTK prático - tutoriais do NLTK, notebooks Jupyter
- Processamento de linguagem natural com Python - Analisando o texto com o kit de ferramentas de linguagem natural - um livro on -line e de impressão que apresenta conceitos de PNL usando o NLTK. Os autores do livro também escreveram a biblioteca NLTK.
- Treinar um novo modelo de idioma do zero - abraçando o rosto?
- O Repo (SDNLPR) do Super Duper NLP (SDNLPR): Coleção de notebooks Colab, cobrindo uma ampla variedade de implementações de tarefas de PNL.
Blogs e boletins
- Aprendizagem profunda, PNL e representações
- O ilustrado Bert, Elmo e co. (Como o aprendizado de transferência rachado da PNL) e o transformador ilustrado
- Processamento de linguagem natural por Hal Daumé III
- ARXIV: Processamento de linguagem natural (quase) do zero
- A eficácia irracional de Karpathy de redes neurais recorrentes
- Domínio do aprendizado de máquina: aprendizado profundo para processamento de linguagem natural
- Resumos visuais de papel PNL
Vídeos e cursos online
De volta ao topo
- Processamento avançado de linguagem natural - CS 685, UMass Amherst CS
- Processamento de linguagem natural profunda - Série de palestras de Oxford
- Aprendizagem profunda para o processamento de linguagem natural (CS224 -N) - Richard Socher e Stanford Course de Christopher Manning
- Redes neurais para NLP - Instituto de Tecnologia da Idioma Carnegie Mellon
- Curso Deep PNL da Yandex Data School, cobrindo idéias importantes da incorporação de texto à tradução da máquina, incluindo modelagem de sequência, modelos de idiomas e assim por diante.
- Introdução Fast.ai Código -primeiro ao processamento de linguagem natural - Isso abrange uma mistura de tópicos tradicionais de PNL (incluindo regex, SVD, ingênuo bayes, tokenização) e abordagens recentes de rede neural (incluindo RNNs, seq2seq, GRus e DISS), como abordando questões éticas urgentes, como bias, como bias e disin e o disination. Encontre os cadernos Jupyter aqui
- Machine Learning University - Processamento acelerado de linguagem natural - Palestras passam da introdução ao processamento de PNL e texto a redes e transformadores neurais recorrentes. O material pode ser encontrado aqui.
- Série de processamento de linguagem natural aplicada do IIT Madras, retirando o básico até os autoencoders e tudo mais. Os notebooks do Github para este curso também estão disponíveis aqui
Livros
- Processamento de fala e linguagem - Grátis, pelo Prof. Dan Jurafsy
- Processamento de linguagem natural - Notas gratuitas, PNL do Dr. Jacob Eisenstein em Georgiatech
- PNL com Pytorch - Brian e Delip Rao
- Mineração de texto em r
- Processamento de linguagem natural com Python
- Processamento prático de linguagem natural
- Processamento de linguagem natural com Spark NLP
- Aprendizagem profunda para o processamento de linguagem natural por Stephan Raaijmakers
- Processamento de linguagem natural do mundo real - por Masato Hagiwara
- Processamento de linguagem natural em ação, segunda edição - de Hobson Lane e Maria Dyshel
Bibliotecas
De volta ao topo
C ++ - Bibliotecas C ++ | De volta ao topo
- INSNET-Uma biblioteca de rede neural para construir modelos de PNL dependentes da instância com lotes dinâmicos sem preenchimento.
- MIT Informações Extração Toolkit - C, C ++ e Python Tools para reconhecimento de entidade nomeado e extração de relação
- CRF ++ - Implementação de código aberto de campos aleatórios condicionais (CRFs) para segmentar/rotular dados seqüenciais e outras tarefas de processamento de linguagem natural.
- CRFSUITE - CRFSUITE é uma implementação de campos aleatórios condicionais (CRFs) para rotular dados seqüenciais.
- Analisador Bllip - analisador de linguagem natural Bllip (também conhecido como o analisador de Charniak -Johnson)
- Biblioteca Colibri-Core-C ++, ferramentas de linha de comando e ligação do Python para extrair e trabalhar com construções linguísticas básicas, como n-gramas e skipgrams de uma maneira rápida e com eficiência de memória.
- UCTO-Tokenizador baseado em expressão regular com consciência unicode para vários idiomas. Ferramenta e biblioteca C ++. Apoia o formato Folia.
- Libfolia - Biblioteca C ++ para o Formato Folia
- Frog - Suíte NLP baseado em memória desenvolvido para holandês: POS Tagger, Lemmatiser, analisador de dependência, nerd, analisador raso, analisador morfológico.
- Meta - Meta: A análise de texto moderna é um kit de ferramentas de ciências de dados C ++ que facilita a mineração de dados de texto grandes.
- Mecab (japonês)
- Moisés
- Starspace-Uma biblioteca do Facebook para criar incorporações de nível de palavra, nível de parágrafo, nível de documentos e classificação de texto
Java - Bibliotecas Java NLP | De volta ao topo
- Stanford NLP
- Opennlp
- NLP4J
- Word2vec em java
- Extração de informações abertas em escala de reverb Web
- OpenRegex Uma linguagem de expressão regular e eficiente e flexível baseada em token.
- Cogcompnlp - As bibliotecas principais desenvolvidas no grupo de computação cognitiva da U of Illinois.
- Mallet - Machine Learning for Language Toolkit - Pacote para processamento estatístico de linguagem natural, classificação de documentos, clustering, modelagem de tópicos, extração de informações e outros aplicativos de aprendizado de máquina para texto.
- RDRPOSTIGHT - Um kit de ferramentas de marcação de POS robusto disponível (em Java e Python), juntamente com modelos pré -treinados para mais de 40 idiomas.
Kotlin - Bibliotecas Kotlin NLP | De volta ao topo
- Biblioteca de detecção de idiomas da Lingua para Kotlin e Java, adequada para texto longo e curto
- KOTIDGY-Um gerador de dados de texto baseado em índice escrito em Kotlin
Scala - Bibliotecas Scala NLP | De volta ao topo
- Saul - Biblioteca para o desenvolvimento de sistemas de PNL, incluindo módulos incorporados como SRL, POS, etc.
- ATR4S-Kit de ferramentas com métodos de reconhecimento de termos automáticos de última geração.
- TM - Implementação da modelagem de tópicos com base em PLSA multilíngue regularizada.
- Word2vec -scala - interface scala para o modelo word2vec; Inclui operações sobre vetores como distância de palavras e análise de palavras.
- EPIC - EPIC é um analisador estatístico de alto desempenho escrito em Scala, juntamente com uma estrutura para a construção de modelos complexos de previsão estruturados.
- Spark NLP - Spark NLP é uma biblioteca de processamento de linguagem natural criada no topo do Apache Spark ML que fornece anotações NLP simples, de desempenho e preciso para pipelines de aprendizado de máquina que escalam facilmente em um ambiente distribuído.
R - R NLP Bibliotecas | De volta ao topo
- Text2vec - Vectorização rápida, modelagem de tópicos, distâncias e incorporações de palavras de luvas em R.
- WordVectors - um pacote R para criar e explorar o Word2vec e outros modelos de incorporação de palavras
- RMALLET - R PACOTE para interagir com a ferramenta de aprendizado de máquina Java Mallet
- DFR Browser - cria visualizações D3 para navegar modelos de tópicos de texto em um navegador da web.
- DFRTOPICS - R Pacote para explorar modelos de tópicos de texto.
- Sentiment_classifier - Classificação de sentimentos usando a desambiguação do sentido de palavra e o leitor WordNet
- JProcessing - Bibliotecas de processamento de Langauge naturais japoneses, com classificação de sentimentos japoneses
- CorporaExplorer - um pacote R para exploração dinâmica de coleções de texto
- TidyText - Mineração de texto usando ferramentas arrumadas
- spacyr - r wrapper para spacy nlp
- Visualização da tarefa do cran: processamento de linguagem natural
Clojure | De volta ao topo
- CLOJURE -OPENNLP - Processamento de linguagem natural em Clojure (OpenNLP)
- Infecções-clj-Biblioteca de inflexão semelhante a trilhos para clojure e clojurescript
- Postagga - Uma biblioteca para analisar a linguagem natural em Clojure e Clojurescript
Rubi | De volta ao topo
- Kevin Dias é uma coleção de bibliotecas de processamento de linguagem natural (PNL), ferramentas e software
- Processamento prático de linguagem natural feito em rubi
Ferrugem | De volta ao topo
- Whatlang - Biblioteca de reconhecimento de linguagem natural baseada em trigramas
- SNIPS-NLU-RS-Uma biblioteca pronta de produção para análise de intenção
- Rust-Bert-Pipelines NLP prontos para uso e modelos baseados em transformadores
NLP ++ - Idioma NLP ++ | De volta ao topo
- Extensão da linguagem VSCode - Extensão da linguagem NLP ++ para VSCODE
- Engine NLP - motor NLP ++ para executar o código NLP ++ no Linux, incluindo um analisador inglês completo
- VisualText - Página inicial para a linguagem NLP ++
- NLP ++ Wiki - entrada wiki para a linguagem NLP ++
Julia | De volta ao topo
- Corpusloaders - uma variedade de carregadores para vários corpora de NLP
- Idiomas - um pacote para trabalhar com idiomas humanos
- Pacote de textanálise - Julia para análise de texto
- TEXTMODELS - Modelos baseados em rede neural para processamento de linguagem natural
- WordTokenizers - Tokenizers de alto desempenho para processamento de linguagem natural e outras tarefas relacionadas
- Word2vec - Interface Julia para Word2vec
Serviços
PNL como API com funcionalidade de nível superior, como NER, marcação de tópicos e assim por diante | De volta ao topo
- Wit -AI - Interface de linguagem natural para aplicativos e dispositivos
- Entendimento de linguagem natural do IBM Watson - Demoção da API e Github
- Amazon compreende - NLP e ML Suite abrange tarefas mais comuns como NER, marcação e análise de sentimentos
- Google Cloud Natural Language API - Análise de sintaxe, NER, análise de sentimentos e marcação de conteúdo em pelo menos 9 idiomas incluem inglês e chinês (simplificado e tradicional).
- ParallelDots - Serviço de API de análise de texto de alto nível que varia de análise de sentimentos à análise de intenções
- Microsoft Cognitive Service
- Textrazor
- Roseta
- Textalytic - Processamento de linguagem natural no navegador com análise de sentimentos, extração de entidade, marcação de POS, frequências de palavras, modelagem de tópicos, nuvens de palavras e mais
- NLP Cloud - Modelos Spacy PNL (os personalizados e pré -treinados) servidos através de uma API RESTful para reconhecimento de entidade nomeado (NER), marcação de POS e muito mais.
- CloudMersive - APIs de NLP unificadas e gratuitas que executam ações como marcação de fala, rehretas de texto, tradução/detecção de idiomas e análise de frases
Ferramentas de anotação
- Portão - Arquitetura geral e engenharia de texto tem mais de 15 anos, de código aberto gratuito e aberto
- Anafora é uma ferramenta de anotação de texto bruto de código aberto e de código aberto, baseado na Web
- Brat - Brat Rapid Anotation Tool é um ambiente on -line para anotação de texto colaborativo
- Doccano - Doccano é gratuito, de código aberto e fornece recursos de anotação para classificação de texto, marcação de sequência e sequência à sequência
- Início - uma plataforma de anotação semântica que oferece assistência inteligente e gerenciamento de conhecimento
- Tagtog, Team primeiro ferramenta da web para encontrar, criar, manter e compartilhar conjuntos de dados - custa $
- Prodigy é uma ferramenta de anotação alimentada por aprendizado ativo, custa $ $
- LightTag - Ferramenta de anotação de texto hospedado e gerenciado para equipes, custa $
- RSTWEB - Ferramenta local ou on -line de código aberto para anotações de árvore do discurso
- GitDox - Ferramenta de anotação de servidor de código aberto com controle e validação da versão do GitHub para dados XML e grãos de planilha colaborativa
- Label Studio - Ferramenta de anotação de texto hospedado e gerenciado para equipes, baseado em freemium, custa $
- DataSaur suporta várias tarefas de PNL para individuais ou equipes, baseado em freemium
- KONFUZIO-Equipe primeiro a ferramenta de anotação hospedada e no local, com base em aprendizado ativo, baseado em freemium, custa $
- UBIAI-Ferramenta de anotação de texto fácil de usar para equipes com os recursos mais abrangentes de anulação automática. Suporta NER, Relações e Classificação de Documentos, bem como anotação OCR para rotulagem de fatura, custa $
- Shoonya - Shoonya é uma plataforma de anotação de dados de código aberta e de código aberto, com grandes variadas do sistema de gerenciamento de níveis de organização e espaço de trabalho. O Shoonya é agnóstico de dados, pode ser usado pelas equipes para anotar dados com vários níveis de etapas de verificação em escala.
- Laboratório de anotação-plataforma sem código de ponta a ponta gratuita para anotação de texto e treinamento/ajuste de modelo DL. Suporte pronta para uso para modelos de reconhecimento de entidade, classificação, extração de relação e status de asserção nomeados. Suporte ilimitado para usuários, equipes, projetos, documentos. Não foss.
- Flat-Flat é um ambiente de anotação lingüística baseada na Web baseada no formato Folia, um rico formato baseado em XML para anotação linguística. Código aberto e de código aberto.
Técnicas
Incorporação de texto
Incorporação de palavras
Regra do polegar: Fasttext >> luva> word2vec
Word2vec - Implementação - Blog explicativo
luva - blog explicativo
FastText - Implementação - Paper - Blog Explicação
Incorporação de palavras baseadas em frases e modelos de idiomas
De volta ao topo
- ELMO - Representações de palavras contextualizadas profundas - Pytorch Implementation - TF Implementation
- Ulmfit - Modelo de linguagem universal Tuneamento fino para classificação de texto por Jeremy Howard e Sebastian Ruder
- Infecsent - Aprendizagem supervisionada de representações universais de sentenças de dados de inferência de linguagem natural pelo Facebook
- Cove - Aprendido na tradução: vetores de palavras contextualizados
- Vetores de Pargraph - de representações distribuídas de frases e documentos. Veja o tutorial do DOC2VEC em Gensim
- Sense2vec - On Word Sense Desambiguação
- Vetores de pensamento pular - método de representação de palavras
- Skip -Gram Adaptive - abordagem semelhante, com propriedades adaptativas
- Sequência a seqüência de aprendizado - vetores de palavras para tradução para a máquina
Resposta de perguntas e extração de conhecimento
De volta ao topo
- DRQA - Open Domain Perguntas Respondendo a Trabalho da Pesquisa do Facebook sobre dados da Wikipedia
- Document-Qa-Compreensão de leitura de vários parágrafos simples e eficaz por Allenai
- Extração de informações baseadas em modelos sem os modelos
- Privee: uma arquitetura para analisar automaticamente as políticas de privacidade da Web
Conjuntos de dados
De volta ao topo
- NLP-Datasets Grande coleção de conjuntos de dados NLP
- GENSIM -DATA - Repositório de dados para modelos de PNL pré -terenciados e corpora de NLP.
Estruturas multilíngues de NLP
De volta ao topo
- O Udpipe é um oleoduto treinável para tokenização, marcação, lematizando e analisando os arquivos de árvores universais e outros arquivos conll-u. Escrito principalmente em C ++, oferece uma solução rápida e confiável para o processamento multilíngue de PNL.
- NLP-cubo: pipeline de processamento de linguagem natural-divisão de frases, tokenização, lemmatização, marcação de parte da fala e análise de dependência. Nova plataforma, escrita em Python com o Dynet 2.0. Oferece funcionalidade independente (CLI/Python) e funcionalidade do servidor (API REST).
- O urralicnlp é uma biblioteca de NLP principalmente para muitos idiomas urral em extinção, como idiomas sami, idiomas de Mordvin, idiomas Mari, idiomas Komi e assim por diante. Além disso, alguns idiomas que não têm como se aliviarem são suportados, como finlandês, juntamente com idiomas não-natural, como sueco e árabe. O urralicnlp pode fazer análises morfológicas, geração, lemmatização e desambiguação.
PNL em coreano
De volta ao topo
Bibliotecas
- Konlpy - Pacote Python para processamento de linguagem natural coreana.
- Mecab (coreano) - Biblioteca C ++ para PNL coreana
- Koalanlp - Biblioteca Scala para processamento de linguagem natural coreana.
- Konlp - R Pacote para processamento de linguagem natural coreana
Blogs e tutoriais
- Blog de Dsindex
- Curso de PNs da Universidade de Kangwon em coreano
Conjuntos de dados
- Kaist Corpus - Um corpus do Instituto Avançado de Ciência e Tecnologia da Coréia em coreano.
- Corpus de filme de sentimento Naver em coreano
- Chosun Ilbo Archive - DataSet em coreano de um dos principais jornais da Coréia do Sul, o Chosun Ilbo.
- Dados de bate -papo - dados de chatbot em coreano
- Petições - Colete dados de petição vencidos no local da petição nacional Blue House.
- DataSet coreano Parallel Corpora - Tradução de Máquina Neural (NMT) para coreano para francês e coreano para inglês
- Korquad - conjunto de dados coreano de esquadrão com fonte Wiki HTML. Menciona v1.0 e v2.1 no momento de adicionar ao Awesome PN.
PNL em árabe
De volta ao topo
Bibliotecas
- Pacote Goarabic - Go para processamento de texto em árabe
- JSastem - JavaScript para o árabe Stemming
- Pyarabic - Bibliotecas Python para árabe
- Rftokenizer - segmento de python treinável para árabe, hebraico e copta
Conjuntos de dados
- Conjuntos de dados multidomain - maiores recursos de vários domínios disponíveis para análise de sentimentos em árabe
- LABR - LIGADOS LIVROS ÁRABICAIS DATASET
- Palavras de parada em árabe - uma lista de palavras de parada em árabe de vários recursos
PNL em chinês
De volta ao topo
Bibliotecas
- Jieba - Pacote Python para Utilitários de Segmentação de Palavras em Chinês
- Snowlp - pacote python para NLP chinês
- Fudannlp - Biblioteca Java para processamento de texto chinês
- Hanlp - a biblioteca multilíngue de NLP
Antologia
- FUNNLP - Coleção de ferramentas e recursos de PNL principalmente para chinês
PNL em alemão
- Alemão-NLP-Lista com curadoria de recursos e ferramentas de acesso aberto/de código aberto/fora de prateleira desenvolvidos com um foco particular no alemão
PNL em polonês
- Polonês -NLP - Uma lista com curadoria de recursos dedicados ao processamento de linguagem natural (PNL) no polonês. Modelos, ferramentas, conjuntos de dados.
PNL em espanhol
De volta ao topo
Bibliotecas
- Spanlp - Biblioteca Python para detectar, censurar e palavrões, vulgaridades, palavras odiosas, racismo, xenofobia e bullying em textos escritos em espanhol. Ele contém dados de 21 países de língua espanhola.
Dados
- Discursos políticos colombianos
- Copenhagen Treebank
- Bilhões de palavras espanholas corpus com incorporações Word2vec
- Compilação de corpora não anotada espanhola
Incorporações de palavras e frases
- Incorporações de palavras em espanhol calculadas com diferentes métodos e de diferentes corpora
- Incorporações de palavras espanholas calculadas a partir de grandes corpora e tamanhos diferentes usando o FastText
- Sentença espanhola incorporadas calculadas a partir de grandes corpora usando o Sent2vec
- BETO - BERT para espanhol
PNL em idiomas indicadores
De volta ao topo
Dados, corpora e treebanks
- Dependência Hindi Treebank-Um Treebank Multi-Representacional de Multi-camadas para Hindi e Urdu
- Dependências Universal Treebank em hindi
- Dependências universais paralelas Treebank em hindi - uma parte menor do banco de árvores acima mencionado.
- Lista de palavras de parada de incêndio ISI (hindi e bangla)
- Lista de palavras de parada de Peter Graham
- NLTK Corpus 60k Pals POS Tagged, Bangla, Hindi, Marathi, Telugu
- DataSet de resenhas de filmes em hindi ~ 1k Amostras, 3 classes de polaridade
- BBC News Hindi DataSet 4.3K Amostras, 14 classes
- IIT Patna Hindi ABSA DATASET 5.4K Amostras, 12 domínios, termos de aspecto 4K, aspecto e polaridade do nível de sentença em 4 classes
- Amostras de Bangla Absa 5,5k, 2 domínios, 10 termos de aspecto
- IIT Patna Review Review Sentimento DataSet 2K Amostras, 3 rótulos de polaridade
Corpora/conjuntos de dados que precisam de um login/acesso podem ser obtidos por e -mail
- Sail 2015 Twitter e Facebook rotularam amostras de sentimentos em hindi, bengali, tamil, telugu.
- IIT Bombaim NLP Resources SentiWordNet, filme e turismo paralelamente corporados corporados, polaridade rotulada pela sensação corpus anotada, marathi polaridade rotulada corpus.
- A TDIL-IC agrega muitos recursos úteis e fornece acesso a conjuntos de dados fechados
Modelos de idiomas e incorporações de palavras
- Hindi2Vec e NLP-For-Hindi Ulmfit Model Languge
- IIT Patna Bilingal Word ENCEDDINGS HI-EN
- INCLIMENTOS DE PALAVRAS FASTTEXT em vários idiomas, treinados em rastreamento comum
- Hindi e Bengali Word2vec
- Modelo Hindi e Urdu Elmo
- Sânscrito Albert treinou na Wikipedia sânscrita e no Oscar Corpus
Bibliotecas e ferramentas
- Analisador morfológico profundo de múltiplas tarefas analisador profundo baseado em rede morfológica para hindi e urdu
- Anoop Kunchukuttan 18 idiomas, todo o hospedeiro de recursos da tokenização à tradução
- Analisador de dependência de dependência de Sivareddy e POS Tagger para Kannada, Hindi e Telugu. Porta python3
- INLTK - Um kit de ferramentas de linguagem natural para idiomas indicadores (idiomas subcontinentes indianos) construídos sobre o Pytorch/Fastai, que visa fornecer suporte fora da caixa para tarefas comuns de PNL.
NLP em tailandês
De volta ao topo
Bibliotecas
- Pythainlp - pacote tailandês em python
- JTCC - uma biblioteca de cluster de personagens em java
- Cutkum - Segmentação de palavras com aprendizado profundo no tensorflow
- Kit de ferramentas de idioma tailandês - baseado em um artigo de Firote Aroonmanakun em 2002 com o conjunto de dados incluído
- Synthai - Segmentação de palavras e marcação de POS usando o aprendizado profundo em Python
Dados
- Inter -Best - um corpus de texto com 5 milhões de palavras com segmentação de palavras
- Primeiro Ministro 29 - DataSet contendo discursos do atual primeiro -ministro da Tailândia
PNL em dinamarquês
- Reconhecimento de entidade nomeado para dinamarquês
- Danlp - Recursos de PNL em dinamarquês
- Awesome dinamarquês - uma lista com curadoria de recursos impressionantes para tecnologia de idioma dinamarquês
PNL em vietnamita
Bibliotecas
- Underthesea - kit de ferramentas do NLP vietnamita
- vn.vitk - um kit de ferramentas de processamento de texto vietnamita
- Vncorenlp - um kit de ferramentas de processamento de linguagem natural vietnamita
- Phobert - modelos de idiomas pré -treinados para vietnamita
- Pyvi - Python Vietnamita Core NLP Toolkit
Dados
- Vietnamita Treebank - 10.000 frases para a tarefa de análise do círculo eleitoral
- BktreeBank - uma dependência vietnamita Treebank
- Ud_vietnamese - dependência universal vietnamita Treebank
- Vivos - um corpus de fala vietnamita livre que consiste em 15 horas de discurso de gravação por Ailab
- Vntqcorpus (grande) .txt - 1,75 milhão de frases em notícias
- VITEXT2SQL-Um conjunto de dados para análise semântica de texto para SQL (EMNLP-2020 ACLHERTS)
- EVB Corpus-20.000.000 de palavras (20 milhões) de 15 livros bilíngues, 100 textos paralelos de inglês-vietnamita / vietnamita-inglês, 250 textos de lei e ordenança paralelos, 5.000 artigos de notícias e 2.000 subtítulos de filmes.
PNL para holandês
De volta ao topo
- Python -Frog - Python Liging to Frog, uma suíte de NLP para holandês. (marcação de poss, lematização, análise de dependência, nerd)
- Simplenlg_nl - Realiser de superfície holandês usado para geração de linguagem natural em holandês, com base na implementação do SimpleNlg para inglês e francês.
- Alpino - analisador de dependência para holandês (também faz marcação de POS e lemmatização).
- Kaldi NL - Modelos de reconhecimento de fala holandês baseados em Kaldi.
- Spacy - modelo holandês disponível. - PNL de força industrial com Python e Cython.
PNL em indonésio
Conjuntos de dados
- Coleções de Kompas e Tempo na ILPS
- PANL10N para marcação de POS: 39k frases e fichas de 900k Word
- Idn for POS Tagging: Este corpus contém 10k frases e 250k tokens de palavras
- Indonésia Treebank e dependências universais-indonésias
- Indosum para resumo e classificação de texto ambos
- WordNet -Bahasa - dicionário grande, livre e semântico
- Indobenchmark Indonlu inclui modelo de idioma pré-treinado (IndoBert), modelo FastText, Indo4b Corpus e vários conjuntos de dados de referência da NLU
Bibliotecas e incorporação
- Kit de ferramentas de linguagem natural bahasa
- Incorporação de palavras indonésias
- TEXTO INDONESIANO DE TEXTO INDONESIANO INDESIANA Incorporado treinado na Wikipedia
- Indobenchmark Indonlu inclui modelo de idioma pré -treinamento (IndoBert), modelo FastText, Indo4b Corpus e vários conjuntos de dados de referência da NLU
PNL em urdu
Conjuntos de dados
- Coleção de conjuntos de dados urdu para tarefas de POS, NER e PNL
Bibliotecas
- Biblioteca de processamento de linguagem natural para (??) Urdu
PNL em persa
De volta ao topo
Bibliotecas
- Hazm - kit de ferramentas do PNI PERSA.
- Parsivar: um kit de ferramentas de processamento de idiomas para persa
- Perke: Perke é um pacote de extração da etapa de chave do Python para a língua persa. Ele fornece um pipeline de extração de primavera de ponta a ponta, no qual cada componente pode ser facilmente modificado ou estendido para desenvolver novos modelos.
- Perstem: Stemmer persa, analisador morfológico, transliterador e tagger parcial de parte do fala
- ParsiAnalyzer: analisador persa para elasticsearch
- Virastar: Limpando o texto persa!
Conjuntos de dados
- Bijankhan Corpus: Bijankhan Corpus é um corpus marcado adequado para pesquisas de processamento de linguagem natural sobre a língua persa (FARSI). Esta coleção é reunida de notícias diárias e textos comuns. Nesta coleção, todos os documentos são categorizados em diferentes assuntos, como política, cultural e assim por diante. Totalmente, existem 4300 indivíduos diferentes. A coleção Bijankhan contém cerca de 2,6 milhões de palavras marcadas manualmente com um conjunto de tags que contém 40 tags de POS persas.
- Uppsala Corpus persa (UPC): o corpus persa Uppsala (UPC) é um grande corpus persa disponível gratuitamente. O corpus é uma versão modificada do corpus de Bijankhan, com segmentação de frases adicionais e tokenização consistente contendo 2.704.028 tokens e anotada com 31 tags de parte do discurso. As tags de parte de fala estão listadas com explicações nesta tabela.
- Persa coloquial em larga escala: O conjunto de dados coloquial persa coloquial em larga escala (LSCP) é hierarquicamente organizado em taxonomia asse-em-imemântica, que se concentra no entendimento da linguagem persa informal de várias tarefas como um problema abrangente. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
De volta ao topo
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
De volta ao topo
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
De volta ao topo
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
De volta ao topo
Credits for initial curators and sources
Licença
License - CC0