The NLP Pandect - The NLP Pandect Código Download

The NLP Pandect

Outro código-fonte

1.0.0

Baixar

O-NLP-PANDECT

Este pandecto (πανδέκτης é grego antigo para a enciclopédia) foi criado para ajudá -lo a encontrar quase qualquer coisa relacionada ao processamento de linguagem natural disponível online.

Observe a lenda rápida sobre os tipos de recursos disponíveis:
- Projeto de código aberto, geralmente um repositório do GitHub com seu número de estrelas
? - Recurso que você pode ler, geralmente uma postagem no blog ou um artigo
- Uma coleção de recursos adicionais
? - Ferramenta de origem não aberta, estrutura ou serviço pago
? Aste - um recurso que você pode assistir
? Aste - um recurso que você pode ouvir

Índice

? Seção principal	? Sustctions amostra
Recursos de PNL	Resumos de papel, resumos de conferências, conjuntos de dados de PNL
Podcasts de NLP	Podcasts apenas para NLP, podcasts com muitos episódios de PNL
Boletins de NLP	-
NLP Meetups	-
Canais do NLP no YouTube	-
Benchmarks de NLP	NLU geral, resposta a perguntas, multilíngue
Recursos de pesquisa	Recurso em modelos de transformadores, destilação e poda, resumo automatizado
Recursos da indústria	Melhores práticas para sistemas de PNL, MLOPs para PNL
Reconhecimento de fala	Recursos gerais, texto para fala, fala para texto, conjuntos de dados
Modelagem de tópicos	Blogs, estruturas, repositórios e projetos
Extração de palavras -chave	Classificação de texto, rake, outras abordagens
NLP responsável	Interpretabilidade, ética, viés e igualdade de NLP e ML na PNL, ataques adversários para a PNL
Estruturas de NLP	Objetivo geral, aumento de dados, tradução de máquinas, ataques adversários, sistemas de diálogo e fala, entidade e correspondência de cordas, estruturas não inglesas, anotação de texto
Aprendendo NLP	Cursos, livros, tutoriais
Comunidades de PNL	-
Outros tópicos da PNL	Tokenização, aumento de dados, reconhecimento de entidade nomeado, correção de erros, automl/automático, geração de texto

Nota Palavras -chave da seção: resumos de papel, compêndio, lista incrível

Compêndios e listas impressionantes sobre o tópico da PNL:

O Índice de PNL - Índice pesquisável de papéis de PNL por quântico stat / cypher de NLP
NLP incrível de Keon [Github, 16528 estrelas]
Lista incrível de processamento de fala e linguagem natural de Elaboshira [Github, 2189 estrelas]
Aprendiz de aprendizado profundo para processamento de linguagem natural (PNL) [Github, 1274 estrelas]
Recursos de mineração de texto e processamento de linguagem natural por Stepthom [Github, 557 estrelas]
Brainsources para os entusiastas #NLP de Philip Vollet
A incrível seção AI/ML/DL - NLP [Github, 1473 estrelas]
Artigos de PNL da DevOpedia

Conferências de PNL, resumos de papel e compêndios em papel:

Documentos e resumos de papel

100 Documentos de NLP obrigatórios 100 Documentos de NLP obrigatórios [Github, 3732 estrelas]
Resumos de papel PNL de Dair-AI [Github, 1475 estrelas]
Coleção com curadoria de papéis para o praticante de PNL [Github, 1075 estrelas]
Artigos sobre ataque adversário textual e defesa [Github, 1501 estrelas]
Documentos recentes de aprendizagem profunda na NLU e RL de Valentin Malykh [Github, 296 estrelas]
Uma pesquisa com pesquisas (NLP e ML): Coleção de Documentos de Pesquisa de PNL [Github, 1997 Stars]
Uma lista de papel para transferência de estilo em texto [Github, 1609 estrelas]
? Índice de gravações de vídeo para papéis

Resumos da conferência

PNL Top 10 Conferências Compêndio por Soulbliss [Github, 459 estrelas]
? ICLR 2020 Tendências
? Conferência Spacyirl 2019 em Visão Geral
? Paper Digest - Conferências e papéis em visão geral

Progresso da PNL e tarefas de PNL:

Progresso da PNL de Sebastianruder [Github, 22568 estrelas]
Tarefas de PNL de Kyubyong [Github, 3017 estrelas]

Conjuntos de dados de NLP:

Conjuntos de dados de NLP por Niderhoff [Github, 5741 estrelas]
Conjuntos de dados por huggingface [github, 19096 estrelas]
Big Bad Database NLP
Anotações de palavras não ambíguas -
MLDOC - Corpus para classificação multilíngue de documentos em oito idiomas [Github, 152 estrelas]

EMBALAGENS DE PALAVRAS E SINAÇÕES:

Modelos incríveis incríveis de Hironsan [Github, 1752 estrelas]
Lista incrível de incorporações de frases por Separius [Github, 2219 estrelas]
Awesome Bert de Jiakui [Github, 1846 estrelas]

Cadernos, scripts e repositórios

The Super Duper NLP Repo [Site, 2020]

Recursos e compêndios não ingleses

Recursos de PNL para Bahasa Indonésia [Github, 480 estrelas]
Catálogo de NLP indic [Github, 552 estrelas]
Modelos de linguagem pré-treinados para vietnamita [Github, 653 estrelas]
Kit de ferramentas de linguagem natural para idiomas Indic (INLTK) [Github, 814 estrelas]
Indic NLP Library [Github, 550 estrelas]
Portal Ai4Bharat-Indicnlp
ARBML - Implementação de muitos projetos de NLP e ML em árabe [Github, 387 estrelas]
Zemberek -NLP - Ferramentas NLP para turco [Github, 1146 estrelas]
TDD AI - Uma plataforma de código aberto para todos os conjuntos de dados turcos, modelos de idiomas e ferramentas de PNL.
KLUE - Avaliação de entendimento da língua coreana [Github, 560 estrelas]
Benchmark Persa PNL - referência para avaliação e comparação de várias tarefas de PNL na língua persa [Github, 73 estrelas]
NLP -Greek - Fontes de linguagem grega [Github, 5 estrelas]
Recursos incríveis de PNL para húngaro [Github, 221 estrelas]

Modelos de PNL pré-treinados

Lista de modelos de NLP pré-treinados [Github, 170 estrelas]
Modelos de linguagem pré -treinados desenvolvidos pelo Huawei Noah's Ark Lab [Github, 3019 estrelas]
Modelos e recursos de língua espanhola [Github, 251 estrelas]

História do NLP

Em geral

Técnicas modernas de aprendizado profundo aplicadas ao processamento de linguagem natural [Github, 1328 estrelas]
? Uma revisão da história neural do processamento de linguagem natural [blog, outubro de 2018]

2020 ano em revisão

? Processamento de linguagem natural em 2020: o ano em revisão [blog, dezembro de 2020]
? Destaques de pesquisa de ML e PNL de 2020 [Blog, janeiro de 2021]

? De volta ao índice

Podcasts somente para NLP

? Aste destaques do NLP [anos: 2017 - agora, status: ativo]
? Aste os episódios da zona da NLP [anos: 2021 - agora, status: ativo]

Muitos episódios de PNL

? Iqud twiml ai [anos: 2016 - agora, status: ativo]
? Sustta prática [anos: 2018 - agora, status: ativo]
? Sustctoming Data Exchange [anos: 2019 - agora, status: ativo]
? Aste DISPENSÃO DO GRADIAL [ANOS: 2020 - Agora, status: ativo]
? Aste palestra de rua de aprendizado de máquina [anos: 2020 - agora, status: ativo]
? Iqud DataFramed - as últimas tendências e insights sobre como escalar o impacto da ciência de dados nas organizações [anos: 2019 - agora, status: ativo]

Alguns episódios de PNL

? Aste O podcast Super Data Science [anos: 2016 - agora, status: ativo]
? Aste Rádio de hacker de dados [anos: 2018 - agora, status: ativo]
? Sustctings ai games [anos: 2020, status: ativo]
? Aste as análises mostram [anos: 2019 - agora, status: ativo]

? NLP News de Sebastian Ruder
? Esta semana em PN de Robert Dale
? Documentos com código
? O lote de Deeplearning.ai
? Paper Digest by PaperDigest
? Cypher de NLP por Quantumstat

? NLP Zurique [gravações do YouTube]
? Hacking-Machine-Learning [gravação do YouTube]
? NY-NLP (Nova York)

? Yannic Kilcher
? Huggingface
? Grupo de leitura de Kaggle
? Leitura de papel rasa
? Stanford CS224N: NLP com aprendizado profundo
? Nlpxing
? ML explicou - círculos socráticos da AI - AISC
? Deeplearning.ai
? Machine Learning Street Talk

? De volta ao índice

Geral NLU

Cola - benchmark de avaliação de entendimento de idioma geral (cola)
Superclue - referência estilizada após cola com um novo conjunto de tarefas mais difíceis de compreensão de idiomas
Decanlp - O decatlo de linguagem natural (Decanlp) para estudar modelos gerais de PNL
Dialoglue - Dialoglue: Um benchmark de compreensão da linguagem natural para o diálogo orientado para tarefas [Github, 280 estrelas]
Dynabench - Dynabench é uma plataforma de pesquisa para coleta dinâmica de dados e benchmarking
Benchmark colaborativo para medir e extrapolar as capacidades dos modelos de linguagem [Github, 2835 estrelas]

Resumo

Wikiasp-Wikiasp: conjunto de dados de resumo baseado em aspectos de vários documentos
Wikilingua - um conjunto de dados de resumo abstrato multilíngue

Resposta de perguntas

Esquadrão - Stanford Pergunta Respondendo a DataSet (Esquadrão)
Xquad-Xquad (DataSet de resposta a perguntas transversal) para resposta a perguntas cruzadas
Grailqa - Resposta de perguntas fortemente generalizáveis (Grailqa)
CSQA - Resposta de perguntas seqüenciais complexas

Benchmarks multilíngues e não ingleses

? Xtreme - benchmark multitarefa multifustres massivamente multilíngues
Gluecos - Uma referência para NLP com comutação de código
Indicglue - benchmark de compreensão da linguagem natural para idiomas indicados
Linhamento - referência de avaliação de troca de código lingüística
Supercúlia russa - referência russa de supercola

Biografia, lei e outros domínios científicos

Blurb - Compreensão da linguagem biomédica e referência de raciocínio
Azul - Linguagem biomédica Entendendo a referência de avaliação
Lexglue - um conjunto de dados de referência para o entendimento da linguagem legal em inglês

Eficiência do transformador

Arena de longo alcance-Arena de longo alcance para benchmarking eficiente transformadores (pré-impressão) [Github, 716 estrelas]

Processamento de fala

Soberbo - Processamento de fala benchmark de desempenho universal

Outro

CodexGlue - um conjunto de dados de referência para inteligência de código
Crossner - Crossner: avaliando o domínio cruzado de reconhecimento de entidade nomeado
Multinli - Corpus de inferência de linguagem natural de vários gêneros
ISARCASM: Um conjunto de dados de sarcasmo pretendido - iscarm é um conjunto de dados de tweets, cada um rotulado como sarcástico ou não_sarcástico

? De volta ao índice

Em geral

? Uma receita para o treinamento de redes neurais de Andrej Karpathy [Palavras -chave: Pesquisa, Treinamento, 2019]
? Avanços recentes na PNL através de grandes modelos de idiomas pré-treinados: uma pesquisa [Paper, novembro de 2021]

Incorporação

Repositórios

Representações Elmo pré-treinadas para muitos idiomas [Github, 1458 estrelas]
Sense2vec - Vetores de palavras com chave contextualmente [Github, 1617 estrelas]
Wikipedia2vec [Github, 935 estrelas]
Starspace [Github, 3938 estrelas]
FastText [Github, 25871 estrelas]

Blogs

? Modelos de idiomas e incorporação de palavras contextualizadas de David S. Batista [blog, 2018]
? Um guia essencial para incorporações de palavras pré -tenhadas para os profissionais de PNL da AnalyticsVidhya [blog, 2020]
? Poliglot Word incorporações Discover Language Clusters [Blog, 2020]
? The Illustrated Word2vec de Jay Alammar [Blog, 2019]

Palavras e incorporações transversais

VECMAP - VECMAP (mapeamentos de incorporação de palavras cruzadas) [Github, 644 estrelas]
Transformadores de frases - sentenças multilíngues e incorporações de imagem com Bert [Github, 14981 estrelas]

Codificação de par de bytes

BPEMB-INCLIMENTOS DE SUBWORAÇÕES PRÉ-TREADO EM 275 IDIOMOS, baseados na codificação de pares de bytes (BPE) [Github, 1179 estrelas]
Subpatil -NMT - Segmentação de palavras não supervisionada para tradução para máquinas neurais e geração de texto [Github, 2185 estrelas]
Python -BPE - Byte Par Codificando para Python [Github, 223 estrelas]

Arquiteturas baseadas em transformador

Em geral

? A família Transformer de Lilian Weng [blog, 2020]
? Jogando na loteria com recompensas e vários idiomas - sobre o efeito da inicialização aleatória [papel ICLR 2020]
? Atenção? Atenção! Por Lilian Weng [blog, 2018]
? o transformador ... "explicado"? [Blog, 2019]
? ️ Atenção é tudo que você precisa; Modelos de rede neural atencional de łukasz Kaiser [Talk, 2017]
? A atenção está desativada por um [julho de 2023]
? Sustcendo e aplicando a auto-distribuição para a PNL [Talk, 2018]
? O livro de receitas da PNL: receitas modernas para arquiteturas de aprendizado profundo baseado em transformador [Paper, abril de 2021]
? Modelos pré-treinados: passado, presente e futuro [Paper, junho de 2021]
? Uma pesquisa com Transformers [Paper, junho de 2021]

Transformador

? O transformador anotado de Harvard NLP [blog, 2018]
? The Illustrated Transformer de Jay Alammar [Blog, 2018]
? Guia ilustrado para transformadores de Hong Jing [blog, 2020]
? Transformador seqüencial com atenção adaptativa pelo Facebook. Blog [Blog, 2019]
? Evolução de representações no transformador de Lena Voita [blog, 2019]
? Reformer: The Eficiente Transformer [Blog, 2020]
? Longformer-O transformador de longa data de Viktor Karlsson [Blog, 2020]
? Transformers do zero [blog, 2019]
? Transformadores em Processamento de Linguagem Natural - Uma breve pesquisa de George Ho [Blog, maio de 2020]
Transformador Lite - Transformador Lite com Atenção de Longo Longo [Github, 596 estrelas]
? Transformers do zero [blog, outubro de 2021]

Bert

? Um guia visual para usar Bert pela primeira vez por Jay Alammar [blog, 2019]
? The Dark Secrets of Bert de Anna Rogers [Blog, 2020]
? Entendendo as pesquisas melhor do que nunca [blog, 2019]
? Desmistificação Bert: um guia abrangente para a estrutura inovadora do NLP [blog, 2019]
Samert - semântica - consciente Bert para compreensão de idiomas [Github, 286 estrelas]
Bertweet - Bertweet: um modelo de idioma pré -treinado para tweets em inglês [Github, 574 estrelas]
Extração ideal de subarquitetura para Bert [Github, 470 estrelas]
Caracterbert: reconciliando Elmo e Bert [Github, 195 estrelas]
? Quando Bert toca na loteria, todos os ingressos estão ganhando [blog, dezembro de 2020]
Documentos relacionados a Bert Uma lista de papéis relacionados a Bert [Github, 2032 estrelas]

Outras variantes do transformador

T5

? T5 Compreendendo arquiteturas auto-supervisionadas baseadas em transformador [Blog, agosto de 2020]
? T5: O transformador de transferência de texto em texto [blog, 2020]
Multilíngue-T5-T5 multilíngue (MT5) é um modelo de transformador de texto para texto com teio pré-textio de forma multilíngue [Github, 1245 estrelas]

BigBird

? Big Bird: Transformers for Long Sequências Artigo original do Google Research [Artigo, julho de 2020]

Reformer / Linformer / Longformer / Performers

? ️ Reformer: The Eficiente Transformer - [Paper, fevereiro de 2020] [Vídeo, outubro de 2020]
? Sustctformer: The Long -Document Transformer - [Paper, abril de 2020] [Vídeo, abril de 2020]
? Linformer: Auto -ataque com complexidade linear - [Paper, junho de 2020] [Vídeo, junho de 2020]
? Aste repensando a atenção com os artistas - [Paper, setembro de 2020] [Vídeo, setembro de 2020]
Performer-Pytorch-Uma implementação do artista, um transformador linear baseado em atenção, em Pytorch [Github, 1084 estrelas]

Transformador de comutação

? Transformadores de troca: escala para trilhões de modelos de parâmetros Artigo original do Google Research [Artigo, janeiro de 2021]

GPT-Family

Em geral

? O GPT-2 ilustrado de Jay Alammar [blog, 2019]
? O GPT-2 anotado por Aman Arora
? GPT-2 do OpenAI: o modelo, o hype e a controvérsia de Ryan Lowe [blog, 2019]
? Como gerar texto de Patrick von Platen [blog, 2020]

GPT-3

Recursos de aprendizagem

? Zero Shot Learning for Text Classification de Amit Chaudhary [Blog, 2020]
? GPT-3 Um breve resumo de Leo Gao [Blog, 2020]
? GPT-3, um passo gigante para o Deep Learning e PNL de Yoel Zeldes [Blog, junho de 2020]
? Modelo de Idioma GPT-3: Uma Visão Geral Técnica de Chuan Li [Blog, junho de 2020]
? É possível para os modelos de idiomas alcançarem o entendimento da linguagem? por Christopher Potts

Aplicações

Awesome GPT-3-Lista de todos os recursos relacionados ao GPT-3 [Github, 4589 estrelas]
Projetos GPT-3-Um mapa de todas as startups GPT-3 e projetos comerciais
GPT-3 Demo Showcase-GPT-3 Demo Showcase, mais de 180 aplicativos, exemplos e recursos
? API OpenAI - Demo da API para usar o OpenAI GPT para aplicações comerciais

Esforços de código aberto

? GPT-NEO-Inprossion GPT-3 Replicação de código aberto Hub de Hushgingface
GPT -J - um parâmetro de 6 bilhões, modelo de geração de texto autoregressivo treinado na pilha
? Usando efetivamente o GPT-J com aprendizado de poucos tiros [blog, julho de 2021]

Outro

? O que é a auto-distribuição de dois fluxos em XLNet por Xu Liang [Blog, 2019]
? Resumo do Papel Visual: Albert (A Lite Bert) de Amit Chaudhary [Blog, 2020]
? Turing NLG pela Microsoft
? Classificação de texto com vários rótulos com XLNet de Josh Xin Jie Lee [Blog, 2019]
Electra [Github, 2326 estrelas]
Implementação do artista do artista, um transformador linear baseado em atenção, em Pytorch [Github, 1084 estrelas]

Destilação, poda e quantização

Material de leitura

? Destilando conhecimento de redes neurais para construir modelos menores e rápidos do Floydhub [Blog, 2019]
? Compressão de modelos de aprendizado profundo para texto: uma pesquisa [artigo, abril de 2021]

Ferramentas

BERT-SQUEZE-Código para reduzir o tamanho dos modelos baseados em transformadores ou diminuir sua latência em tempo de inferência [Github, 79 estrelas]
Xtremedistil - Xtremedistiltransformers para destilar redes neurais multilíngues maciças [Github, 153 estrelas]

Resumo automatizado

? PEGASUS: Um modelo de última geração para resumo abstrato de texto pelo Google AI [blog, junho de 2020]
Ctrlsum - Ctrlsum: Rumo ao resumo genérico de texto controlável [Github, 146 estrelas]
XL SUM-XL SUM: Resumo abstrato multilíngue em larga escala para 44 idiomas [Github, 252 estrelas]
Summertime-um kit de ferramentas de resumo de texto de código aberto para não especialistas [Github, 265 estrelas]
Primer-Primer: Sentença mascarada baseada em pirâmide, pré-treinamento para resumo de vários documentos [Github, 151 estrelas]
Summarus - Modelos para resumo abstrato automático [Github, 170 estrelas]

Gráficos de conhecimento e NLP

? Fusando conhecimento no modelo de linguagem [Apresentação, outubro de 2021]

Nota Palavras -chave da seção: práticas recomendadas, mlops

? De volta ao índice

Melhores práticas para a construção de projetos de PNL

? Em busca de práticas recomendadas para projetos de PNL [slides, dezembro de 2020]
? EMNLP 2020: Processamento de linguagem natural de alto desempenho pelo Google Research, Recording, novembro de 2020]
? Processamento prático de linguagem natural - um guia abrangente para a construção de sistemas PNL do mundo real [Livro, junho de 2020]
? Como estruturar e gerenciar projetos de PNL [blog, maio de 2021]
? Aplicado PNL Thinking - Aplicado PNS Pensamento: Como traduzir problemas em soluções [blog, junho de 2021]
? Introdução ao PNL para uso da indústria - DataTalkSclub Apresentação sobre Introdução à PNL para uso da indústria [gravação, dezembro de 2021]
? Medição de incorporação Drift - Melhores práticas para monitorar a deriva dos modelos de PNL [blog, dezembro de 2022]

Mlops para PN

O MLOPS, especialmente quando aplicado à PNL, é um conjunto de melhores práticas em torno da automação de várias partes do fluxo de trabalho ao criar e implantar pipelines de NLP.

Em geral, o MLOPS para PNL inclui ter os seguintes processos em vigor:

Versão de dados - verifique se o seu treinamento, anotação e outros tipos de dados estão em versão e rastreado
Rastreamento do experimento - verifique se todas as suas experiências são rastreadas e salvas automaticamente, onde podem ser facilmente replicadas ou retraídas
Modelo Registro - Verifique se os modelos neurais que você treina são versionados e rastreados e é fácil reverter para qualquer um deles
Testes automatizados e testes comportamentais - Além dos testes regulares de unidade e integração, você deseja fazer testes comportamentais que verificam viés ou possíveis ataques adversários
Modelo de implantação e porção - automatize a implantação do modelo, idealmente também com implantações de tempo de partida zero como azul/verde, implantações de Canary etc.
Observabilidade de dados e modelo - rastrear desvio de dados, desvio de precisão do modelo etc.

Além disso, existem mais dois componentes que não são tão prevalentes para a PNL e são usados principalmente para visão computacional e outros subfieldas de IA:

Store de recursos - armazenamento centralizado de todos os recursos desenvolvidos para modelos de ML do que pode ser facilmente reutilizado por qualquer outro projeto ML
Gerenciamento de metadados - armazenamento para todas as informações relacionadas ao uso de modelos de ML, principalmente para reproduzir o comportamento de modelos de ML implantados, rastreamento de artefatos etc.

Compilações Mlops e listas incríveis

Awesome-Mlops [Github, 12526 estrelas]
Melhor de ML-Python [Github, 16309 estrelas]
MLOPS.TOYS - Uma lista com curadoria de projetos MLOPs

Material de leitura

? Operações de aprendizado de máquina (MLOPS): Visão geral, definição e arquitetura [Artigo, maio de 2022]
? Requisitos e arquitetura de referência para MLOPs: Insights da indústria [Artigo, outubro de 2022]
? MLOPS: O que é, por que importa e como implementá -lo por Netuno AI [Blog, julho de 2021]
? Melhores ferramentas MLOPs que você precisa conhecer como cientista de dados da Netuno AI [blog, julho de 2021]
? State of Mlops 2021 por Valohai [Blog, agosto de 2021]
? Os Mlops Stack by Valohai [Blog, outubro de 2020]
? Controle de versão de dados para aplicativos de aprendizado de máquina por megagon ai [blog, julho de 2021]
? A rápida evolução da pilha canônica para aprendizado de máquina [blog, julho de 2021]
? MLOPS: Guia abrangente para iniciantes [blog, março de 2021]
? O que aprendi sobre o MLOPs de falar com mais de 100 ml de praticantes [blog, maio de 2021]
? Modelos Datarobot Challenger - MOPS CHAMPE
? Blog do Estado de Mlops do Dr. Ori Cohen
? Visão geral do ecossistema do Mlops [blog, 2021]

Material de aprendizado

? Mlops Cource by feito com ML
? Github Mlops - Coleção de recursos sobre como facilitar o OPS de aprendizado de máquina com o GitHub
? Curso de Fundamentos de Observabilidade da ML Aprenda a monitorar e causar problemas de causa raiz com os modelos de PNL de produção

Comunidades de mlops

A Comunidade Mlops - Blogs, Slack Group, Newsletter e muito mais sobre Mlops

Versão de dados

DVC - Controle de versão de dados (DVC) rastreia modelos ML e conjuntos de dados [LIGADO LIVRO E OPENS] Link para o GitHub
? Pesos e vieses - ferramentas para rastreamento de experimentos e versão do conjunto de dados [serviço pago]
? Pachyderm-Controle de versão para dados com as ferramentas para construir pipelines escaláveis de ponta a ponta ML/AI [serviço pago com camada gratuita]

Rastreamento do experimento

MLFlow - Plataforma de código aberto para o ciclo de vida do aprendizado de máquina [LINK FREE AND Open Source] Link para GitHub
? Pesos e vieses - ferramentas para rastreamento de experimentos e versão do conjunto de dados [serviço pago]
? Netuno AI - Rastreamento de experimentos e registro de modelos construídos para equipes de pesquisa e produção [serviço pago]
? Comet ML - Permite que cientistas e equipes de dados rastreem, comparem, expliquem e otimizem experimentos e modelos [Serviço pago]
? SIGOpt - Automatize o treinamento e o ajuste, visualize e compare execuções [Serviço pago]
Optuna - Estrutura de otimização de hiperparâmetro [Github, 10650 estrelas]
Clear ML - Experimento, orquestrar, implantar e construir lojas de dados, tudo em um só lugar [LIGO E LIGADO E ABERTO] Link para o GitHub
Metaflow-Biblioteca Python/R favorável ao homem que ajuda cientistas e engenheiros a construir e gerenciar projetos de ciência de dados da vida real [Github, 8093 estrelas]

Modelo Registro

DVC - Controle de versão de dados (DVC) rastreia modelos ML e conjuntos de dados [LIGADO LIVRO E OPENS] Link para o GitHub
MLFlow - Plataforma de código aberto para o ciclo de vida do aprendizado de máquina [LINK FREE AND Open Source] Link para GitHub
ModelDB - Sistema de código aberto para versão do modelo de aprendizado de máquina, metadados e gerenciamento de experimentos [Github, 1696 estrelas]
? Netuno AI - Rastreamento de experimentos e registro de modelos construídos para equipes de pesquisa e produção [serviço pago]
? Valohai-Pipelines ML de ponta a ponta [serviço pago]
? Pachyderm-Controle de versão para dados com as ferramentas para construir pipelines escaláveis de ponta a ponta ML/AI [serviço pago com camada gratuita]
? POLAIXON - Reproduzir, automatizar e dimensionar seus fluxos de trabalho de ciência de dados com ferramentas MLOPs de grau de produção [serviço pago]
? Comet ML - Permite que cientistas e equipes de dados rastreem, comparem, expliquem e otimizem experimentos e modelos [Serviço pago]

Testes automatizados e testes comportamentais

Lista de verificação - Além da precisão: teste comportamental de modelos de PNL [Github, 2003 estrelas]
Textattack - Framework para ataques adversários, aumento de dados e treinamento de modelos em PNL [Github, 2922 estrelas]
Wildnlp - corrompe um texto de entrada para testar a robustez dos modelos de NLP [Github, 76 estrelas]
Grandes expectativas - Escreva testes para seus dados [Github, 9874 estrelas]
Checks DeepChecks - pacote Python para validar de maneira abrangente seus modelos e dados de aprendizado de máquina [Github, 3582 estrelas]

Modelo de implantabilidade e porção

MLFlow - Plataforma de código aberto para o ciclo de vida do aprendizado de máquina [LINK FREE AND Open Source] Link para GitHub
? Amazon Sagemaker [serviço pago]
? Valohai-Pipelines ML de ponta a ponta [serviço pago]
? NLP Cloud - API NLP pronta para produção [serviço pago]
? Saturn Cloud [serviço pago]
? Seldon - Implantação de aprendizado de máquina para empresa [serviço pago]
? Comet ML - Permite que cientistas e equipes de dados rastreem, comparem, expliquem e otimizem experimentos e modelos [Serviço pago]
? POLAIXON - Reproduzir, automatizar e dimensionar seus fluxos de trabalho de ciência de dados com ferramentas MLOPs de grau de produção [serviço pago]
TorchServe - ferramenta flexível e fácil de usar para servir modelos Pytorch [Github, 4174 estrelas]
? Kubeflow - O Kit de Ferramentas de Aprendizagem de Machine para Kubernetes [Github, 10600 estrelas]
KfServing - Inferência sem servidor em Kubernetes [Github, 3504 estrelas]
? TFX - TensorFlow Extended - Plataforma de ponta a ponta para implantar pipelines ML de produção [serviço pago]
? Pachyderm-Controle de versão para dados com as ferramentas para construir pipelines escaláveis de ponta a ponta ML/AI [serviço pago com camada gratuita]
? Cortex - Contêineres como um serviço na AWS [Serviço pago]
? Aprendizado de máquina do Azure-ciclo de vida de aprendizado de máquina de ponta a ponta [serviço pago]
END2END TRANSFORMERS SEMVERVERS ON AWS LAMBDA [GitHub, 121 estrelas]
NLP -Service - Demonstração de amostra de PNL como uma plataforma de serviço construída usando FASTAPI e HAGGING FACE [Github, 13 estrelas]
? Dagster - Data Orchestrator for Machine Learning [de código aberto e de código aberto]
? Verta - AI e Machine Learning Delantment and Operations [Serviço pago]
Metaflow-Biblioteca Python/R favorável ao homem que ajuda cientistas e engenheiros a construir e gerenciar projetos de ciência de dados da vida real [Github, 8093 estrelas]
Flyte - Plataforma de automação de fluxo de trabalho para dados complexos e de missão e processos de ML em escala [Github, 5525 estrelas]
MLRUN - Automação e rastreamento de aprendizado de máquina [Github, 1425 estrelas]
? DataROBOT MLOPS - DataRobot Mlops fornece um centro de excelência para a sua produção AI

Depuração de modelos

Imodels - Pacote para modelagem preditiva concisa, transparente e precisa [Github, 1375 estrelas]
Cockpit - Uma ferramenta de depuração prática para treinar redes neurais profundas [Github, 474 estrelas]

Previsão de precisão do modelo

Weightwatcher - Ferramenta Weightwatcher para prever a precisão das redes neurais profundas [Github, 1453 estrelas]

Observabilidade de dados e modelo

Em geral

Arize ai - incorporação de monitoramento de deriva para modelos de PNL
ARIZE -PHOENIX - MOMENTAÇÃO ML PARA LLMS, VISÃO, IDIONAGEM E MODELOS TABULARES
WhyLogs - Padrão de código aberto para dados e registro de ML [Github, 2636 estrelas]
Rubrix - Ferramenta de código aberto para explorar e itentar dados para projetos de inteligência artificial [Github, 3843 estrelas]
MLRUN - Automação e rastreamento de aprendizado de máquina [Github, 1425 estrelas]
? DataROBOT MLOPS - DataRobot Mlops fornece um centro de excelência para a sua produção AI
? Cortex - Contêineres como um serviço na AWS [Serviço pago]

Modelo centrado

? Algoritmia - Minimize o risco com relatórios avançados e segurança e governança de nível corporativo em todos os dados, modelos e infraestrutura [serviço pago]
? Dataiku - Dataiku é para equipes que desejam fornecer análises avançadas usando as técnicas mais recentes em escala de big data [serviço pago]
Evidentemente AI - Ferramentas para analisar e monitorar modelos de aprendizado de máquina [de código aberto e de código aberto] Link para o GitHub
? Fiddler - Ferramenta de Gerenciamento de Desempenho do Modelo ML [Serviço pago]
? Hydrofera - plataforma de código aberto para gerenciar modelos ML [serviço pago]
? Verta - AI e Machine Learning Delantment and Operations [Serviço pago]
? Domino Model Ops - Implante e gerencie modelos para impulsionar o impacto dos negócios [serviço pago]

Dados centrados

? DataFold - Qualidade dos dados através de diferenças, perfil e detecção de anomalias [Serviço pago]
? Acceldata - Melhore a confiabilidade, acelere a escala e reduza os custos em todos os pipelines de dados [serviço pago]
? Bigeye - Monitorando e alerta para seus conjuntos de dados em minutos [Serviço pago]
? Datakin-Solução de linhagem de dados em tempo real de ponta a ponta [Serviço pago]
? Monte Carlo - Integridade de dados, deriva, esquema, linhagem [serviço pago]
? Soda - Monitoramento de dados, teste e validação [serviço pago]

Lojas de recursos

? Tecton - loja de recursos corporativos para aprendizado de máquina [serviço pago]
FEAST - Site de recursos de código aberto para o site de aprendizado de máquina [Github, 5525 estrelas]
? HOPSWORKS FECHAR STORE - Sistema de gerenciamento de dados para gerenciar recursos de aprendizado de máquina [Serviço pago]

Gerenciamento de metadados

ML METADATA - Uma biblioteca para gravar e recuperar metadados associados ao desenvolvedor de ML e fluxos de trabalho do cientista de dados [Github, 617 estrelas]
? Netuno AI - Rastreamento de experimentos e registro de modelos construídos para equipes de pesquisa e produção [serviço pago]

MLOPS Frameworks

Metaflow-Biblioteca Python/R favorável ao homem que ajuda cientistas e engenheiros a construir e gerenciar projetos de ciência de dados da vida real [Github, 8093 estrelas]
Kedro - estrutura Python para criar código de ciência de dados reprodutível, sustentável e modular [Github, 9883 estrelas]
Seldon Core - Mlops Framework para empacotar, implantar, monitorar e gerenciar milhares de modelos de aprendizado de máquina de produção [Github, 4353 estrelas]
ZenML - Mlops Framework para criar pipelines ML reprodutíveis para aprendizado de máquina de produção [Github, 3972 estrelas]
? Google Vertex AI - Construir, implantar e escalar modelos ML mais rapidamente, com ferramentas pré -treinadas e personalizadas dentro de uma plataforma de IA unificada [serviço pago]
Diffgram - plataforma de dados de treinamento completa para aprendizado de máquina entregue como um único aplicativo [Github, 1834 estrelas]
? Continuual.ai - Construa, implante e operacionalize os modelos de ML mais fáceis e rápidos com uma interface declarativa em data warehouses em nuvem como floco de neve, bigqery, desvio para o vermelho e bancos de dados. [Serviço pago]

Arquiteturas baseadas em transformador

? De volta ao índice

Em geral

? Por que Bert falha em ambientes comerciais da Intel AI [blog, 2020]
? Tuning Fine Bert para classificação de texto com Farm de Sebastian Guggisberg [Blog, 2020]
Modelos de Transformers de pré -train em Pytorch usando Transformers de rosto de abraço [Github, 254 estrelas]
? Aste PNLP prático para o mundo real [Apresentação, 2019]
? Sustct de papel em produto - como implementamos Bert por Christoph Henkelmann [Talk, 2020]

Transformadores multi-GPU

Parallelfformers: um modelo de ferramentas de paralelização de modelo eficiente para implantação [Github, 776 estrelas]

Transformadores de treinamento efetivamente

Treinando Bert com orçamento de computação/tempo (acadêmico) [Github, 309 estrelas]

Incorporação como um serviço

Incorporação como serviço [Github, 204 estrelas]
Bert-As-Service [Github, 12399 estrelas]

Receitas de PNL Aplicações industriais:

Receitas de PNL da Microsoft [Github, 6367 estrelas]
PNL com Python por Susanli2016 [Github, 2721 estrelas]
Utilitários básicos para Pytorch NLP por petrochukm [Github, 2210 estrelas]

Aplicações de PNL em indústrias Bio, Finanças, Legal e Outros

Blackstone - Um oleoduto e modelo de Spacy para PNL em texto legal não estruturado [Github, 636 estrelas]
Sci Spacy - Pipeline e modelos de Spacy para documentos científicos/biomédicos [Github, 1688 estrelas]
Finbert: pré-treinado em registros da SEC para tarefas financeiras de PNL [Github, 197 estrelas]
LEXNLP - Recuperação de informações e extração para texto legal real e não estruturado [Github, 692 estrelas]
NERDL e NERCRF - Tutorial sobre reconhecimento de entidade nomeado para a saúde com Sparknlp
Análise de texto legal - Uma lista de recursos selecionados dedicados à análise de texto legal [Github, 613 estrelas]
Bioie - Uma lista com curadoria de recursos relevantes para fazer extração de informações biomédicas [Github, 338 estrelas]

Nota Palavras -chave da seção: reconhecimento de fala

? De volta ao índice

Reconhecimento geral da fala

WAV2LETTER - Kit de reconhecimento automático de fala [Github, 6370 estrelas]
DeepSpeech - Arquitetura DeepSpeech do Baidu [Github, 25166 estrelas]
? Incorporação de palavras acústicas de Maria Obedkova [blog, 2020]
Kaldi - Kaldi é um kit de ferramentas para reconhecimento de fala [Github, 14177 estrelas]
Awesome -Kaldi - Recursos para o uso de kaldi [github, 532 estrelas]
ESPNET-Toolkit de processamento de fala de ponta a ponta [Github, 8355 estrelas]
? Hubert - Aprendizagem de representação auto -supervisionada para reconhecimento, geração e compressão de fala [blog, junho de 2021]

Texto para a geração de fala / fala

FastSpeech - A implementação do FastSpeech baseado em Pytorch [Github, 857 estrelas]
TTS-Um kit de ferramentas de aprendizado profundo para o texto em fala [GitHub, 34356 estrelas]
? Notebooklm - Google Gemini Powerd Personal Assistant / Podcast Generator

Discurso para texto

Whisper - reconhecimento robusto de fala por meio de supervisão fraca em larga escala, por Openai [Github, 68884 estrelas]
Vibe - Ferramenta GUI para trabalhar com sussurro, multilíngue e suporte CUDA incluíram [Github, 931 estrelas]

Conjuntos de dados

Voxpopuli - Corpus de fala multilíngue em larga escala para aprendizado de representação [Github, 507 estrelas]

Nota Seção Palavras -chave: Modelagem de tópicos

? De volta ao índice

Blogs

? Modelagem de tópicos com Pyspark e Spark NLP por Maria Obedkova [Spark, Blog, 2020]
? Uma abordagem única para o cluster de texto curto (teoria algorítmica) de Brittany Bowers [blog, 2020]

Estruturas para modelagem de tópicos

GENSIM - Estrutura para modelagem de tópicos [Github, 15597 estrelas]
Spark NLP [Github, 3826 estrelas]

Repositórios

TOP2VEC [Github, 2924 estrelas]
Modelagem de tópicos de explicação de correlação ancorada [Github, 303 estrelas]
Topic Modeling in Embedding Spaces [GitHub, 540 stars] Paper
TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
Contextualized Topic Models [GitHub, 1196 stars]
GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]

Note Section keywords: keyword extraction

? Back to the Table of Contents

Text Rank

PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]

RAKE - Rapid Automatic Keyword Extraction

rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]

Other Approaches

flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]

Leitura adicional

? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]

Note Section keywords: ethics, responsible NLP

? Back to the Table of Contents

NLP and ML Interpretability

NLP-centric

Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]

Em geral

Language Interpretability Tool (LIT) [GitHub, 3474 stars]
WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]

Ethics, Bias, and Equality in NLP

? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
Ethics in NLP - resources from ACLs Ethics in NLP track
The Institute for Ethical AI & Machine Learning
? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]

Adversarial Attacks for NLP

? Privacy Considerations in Large Language Models [Blog, Dec 2020]
DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]

Hate Speech Analysis

HateXplain - BERT for detecting abusive language [GitHub, 187 stars]

Note Section keywords: frameworks

? Back to the Table of Contents

Objetivo geral

spaCy by Explosion AI [GitHub, 29784 stars]
flair by Zalando [GitHub, 13855 stars]
AllenNLP by AI2 [GitHub, 11740 stars]
stanza (former Stanford NLP) [GitHub, 7253 stars]
spaCy stanza [GitHub, 723 stars]
nltk [GitHub, 13489 stars]
gensim - framework for topic modeling [GitHub, 15597 stars]
pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
FARM [GitHub, 1734 stars]
gobbli by RTI International [GitHub, 275 stars]
headliner - training and deployment of seq2seq models [GitHub, 229 stars]
SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
textacy - NLP, before and after spaCy [GitHub, 2209 stars]
texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
jiant - jiant is an NLP toolkit [GitHub, 1639 stars]

Data Augmentation

WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
snorkel Framework to generate training data [GitHub, 5791 stars]
NLPAug Data augmentation for NLP [GitHub, 4419 stars]
SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
faker - Python package that generates fake data for you [GitHub, 17648 stars]
textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]

Adversarial NLP Attacks & Behavioral Testing

TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]

Transformer-oriented

transformers by HuggingFace [GitHub, 132974 stars]
Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]

Dialogue Systems and Speech

DeepPavlov by MIPT [GitHub, 6676 stars]
ParlAI by FAIR [GitHub, 10477 stars]
rasa - Framework for Conversational Agents [GitHub, 18726 stars]
wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]

Word/Sentence-embeddings oriented

MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]

Social Media Oriented

Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]

Fonética

DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]

Morfologia

LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]

Multi-lingual tools

polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]

Distributed NLP / Multi-GPU NLP

Spark NLP [GitHub, 3826 stars]
Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]

Machine Translation

COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]

Entity and String Matching

PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
textdistance - Compute distance between sequences [GitHub, 3367 stars]
DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]

Discourse Analysis

ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]

PII scrubbing

scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]

Hastag Segmentation

hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]

Books Analysis / Literary Analysis / Semantic Search

booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]

Non-English oriented

japonês

fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]

Thai

AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]

chinês

Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]

ucraniano

recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)

Outro

textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]

Text Data Labelling & Classification

Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
? Prodigy - annotation tool powered by active learning [Paid Service]

Note Section keywords: learn NLP

? Back to the Table of Contents

Em geral

? Learn NLP the practical way [Blog, Nov. 2019]
? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
? Choosing the right course for a Practical NLP Engineer
? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP

Cursos

?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
? NLP Course | For You - Great and interactive course on NLP
? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
? Transformer models for NLP by HuggingFace
?️ Stanford NLP Seminar - slides from the Stanford NLP course

Livros

? Natural Language Processing with Transformers - [Book, February 2022]
? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
? Practical Natural Language Processing - [Book, June 2020]
? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]

Tutoriais

nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
Hands-On NLTK Tutorial [GitHub, 540 stars]
Modern Practical Natural Language Processing [GitHub, 266 stars]
Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
CalmCode Tutorials - Set of Python Data Science Tutorials

r/LanguageTechnology - NLP Reddit forum

? Back to the Table of Contents

Tokenization

tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]

Data Augmentation and Weak Supervision

Libraries and Frameworks

WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
NLPAug Data augmentation for NLP [GitHub, 4419 stars]
SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
snorkel Framework to generate training data [GitHub, 5791 stars]
dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]

Reading Material and Tutorials

A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]

Named Entity Recognition (NER)

Datasets for Entity Recognition [GitHub, 1497 stars]
Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]

Extração de relação

tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]

Resolução de Coreferência

NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]

Análise de sentimentos

Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]

Domain Adaptation

Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]

Low Resource NLP

CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]

Spell Correction / Error Correction

Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
? Speller100 by Microsoft [Blog, Feb 2021]
JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
pycorrector - spell correction for Chinese [GitHub, 5517 stars]
contractions - Fixes contractions such as you're to you are [GitHub, 308 stars]
? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]

Style Transfer for NLP

Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]

Automata Theory for NLP

pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]

Obscene words detection

LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]

Reddit Analysis

Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]

Skill Detection

SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]

Reinforcement Learning for NLP

nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]

AutoML / AutoNLP

AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
? AutoML Natural Language - Google's paid AutoML NLP service
Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]

OCR - Optical Character Recognition

?️ A framework for designing document processing solutions [Blog, June 2022]

Document AI

? Table Transformer + HuggingFace Models

Geração de texto

keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
? Controllable Neural Text Generation [Blog, Jan 2021]
BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]