
Este pandecto (πανδέκτης é grego antigo para a enciclopédia) foi criado para ajudá -lo a encontrar quase qualquer coisa relacionada ao processamento de linguagem natural disponível online.
Observe a lenda rápida sobre os tipos de recursos disponíveis:
- Projeto de código aberto, geralmente um repositório do GitHub com seu número de estrelas
? - Recurso que você pode ler, geralmente uma postagem no blog ou um artigo
- Uma coleção de recursos adicionais
? - Ferramenta de origem não aberta, estrutura ou serviço pago
? Aste - um recurso que você pode assistir
? Aste - um recurso que você pode ouvir
| ? Seção principal | ? Sustctions amostra |
|---|
| Recursos de PNL | Resumos de papel, resumos de conferências, conjuntos de dados de PNL |
| Podcasts de NLP | Podcasts apenas para NLP, podcasts com muitos episódios de PNL |
| Boletins de NLP | - |
| NLP Meetups | - |
| Canais do NLP no YouTube | - |
| Benchmarks de NLP | NLU geral, resposta a perguntas, multilíngue |
| Recursos de pesquisa | Recurso em modelos de transformadores, destilação e poda, resumo automatizado |
| Recursos da indústria | Melhores práticas para sistemas de PNL, MLOPs para PNL |
| Reconhecimento de fala | Recursos gerais, texto para fala, fala para texto, conjuntos de dados |
| Modelagem de tópicos | Blogs, estruturas, repositórios e projetos |
| Extração de palavras -chave | Classificação de texto, rake, outras abordagens |
| NLP responsável | Interpretabilidade, ética, viés e igualdade de NLP e ML na PNL, ataques adversários para a PNL |
| Estruturas de NLP | Objetivo geral, aumento de dados, tradução de máquinas, ataques adversários, sistemas de diálogo e fala, entidade e correspondência de cordas, estruturas não inglesas, anotação de texto |
| Aprendendo NLP | Cursos, livros, tutoriais |
| Comunidades de PNL | - |
| Outros tópicos da PNL | Tokenização, aumento de dados, reconhecimento de entidade nomeado, correção de erros, automl/automático, geração de texto |

Nota Palavras -chave da seção: resumos de papel, compêndio, lista incrível
Compêndios e listas impressionantes sobre o tópico da PNL:
- O Índice de PNL - Índice pesquisável de papéis de PNL por quântico stat / cypher de NLP
- NLP incrível de Keon [Github, 16528 estrelas]
- Lista incrível de processamento de fala e linguagem natural de Elaboshira [Github, 2189 estrelas]
- Aprendiz de aprendizado profundo para processamento de linguagem natural (PNL) [Github, 1274 estrelas]
- Recursos de mineração de texto e processamento de linguagem natural por Stepthom [Github, 557 estrelas]
- Brainsources para os entusiastas #NLP de Philip Vollet
- A incrível seção AI/ML/DL - NLP [Github, 1473 estrelas]
- Artigos de PNL da DevOpedia
Conferências de PNL, resumos de papel e compêndios em papel:
Documentos e resumos de papel
- 100 Documentos de NLP obrigatórios 100 Documentos de NLP obrigatórios [Github, 3732 estrelas]
- Resumos de papel PNL de Dair-AI [Github, 1475 estrelas]
- Coleção com curadoria de papéis para o praticante de PNL [Github, 1075 estrelas]
- Artigos sobre ataque adversário textual e defesa [Github, 1501 estrelas]
- Documentos recentes de aprendizagem profunda na NLU e RL de Valentin Malykh [Github, 296 estrelas]
- Uma pesquisa com pesquisas (NLP e ML): Coleção de Documentos de Pesquisa de PNL [Github, 1997 Stars]
- Uma lista de papel para transferência de estilo em texto [Github, 1609 estrelas]
- ? Índice de gravações de vídeo para papéis
Resumos da conferência
- PNL Top 10 Conferências Compêndio por Soulbliss [Github, 459 estrelas]
- ? ICLR 2020 Tendências
- ? Conferência Spacyirl 2019 em Visão Geral
- ? Paper Digest - Conferências e papéis em visão geral
Progresso da PNL e tarefas de PNL:
- Progresso da PNL de Sebastianruder [Github, 22568 estrelas]
- Tarefas de PNL de Kyubyong [Github, 3017 estrelas]
Conjuntos de dados de NLP:
- Conjuntos de dados de NLP por Niderhoff [Github, 5741 estrelas]
- Conjuntos de dados por huggingface [github, 19096 estrelas]
- Big Bad Database NLP
- Anotações de palavras não ambíguas -
- MLDOC - Corpus para classificação multilíngue de documentos em oito idiomas [Github, 152 estrelas]
EMBALAGENS DE PALAVRAS E SINAÇÕES:
- Modelos incríveis incríveis de Hironsan [Github, 1752 estrelas]
- Lista incrível de incorporações de frases por Separius [Github, 2219 estrelas]
- Awesome Bert de Jiakui [Github, 1846 estrelas]
Cadernos, scripts e repositórios
- The Super Duper NLP Repo [Site, 2020]
Recursos e compêndios não ingleses
- Recursos de PNL para Bahasa Indonésia [Github, 480 estrelas]
- Catálogo de NLP indic [Github, 552 estrelas]
- Modelos de linguagem pré-treinados para vietnamita [Github, 653 estrelas]
- Kit de ferramentas de linguagem natural para idiomas Indic (INLTK) [Github, 814 estrelas]
- Indic NLP Library [Github, 550 estrelas]
- Portal Ai4Bharat-Indicnlp
- ARBML - Implementação de muitos projetos de NLP e ML em árabe [Github, 387 estrelas]
- Zemberek -NLP - Ferramentas NLP para turco [Github, 1146 estrelas]
- TDD AI - Uma plataforma de código aberto para todos os conjuntos de dados turcos, modelos de idiomas e ferramentas de PNL.
- KLUE - Avaliação de entendimento da língua coreana [Github, 560 estrelas]
- Benchmark Persa PNL - referência para avaliação e comparação de várias tarefas de PNL na língua persa [Github, 73 estrelas]
- NLP -Greek - Fontes de linguagem grega [Github, 5 estrelas]
- Recursos incríveis de PNL para húngaro [Github, 221 estrelas]
Modelos de PNL pré-treinados
- Lista de modelos de NLP pré-treinados [Github, 170 estrelas]
- Modelos de linguagem pré -treinados desenvolvidos pelo Huawei Noah's Ark Lab [Github, 3019 estrelas]
- Modelos e recursos de língua espanhola [Github, 251 estrelas]
História do NLP
Em geral
- Técnicas modernas de aprendizado profundo aplicadas ao processamento de linguagem natural [Github, 1328 estrelas]
- ? Uma revisão da história neural do processamento de linguagem natural [blog, outubro de 2018]
2020 ano em revisão
- ? Processamento de linguagem natural em 2020: o ano em revisão [blog, dezembro de 2020]
- ? Destaques de pesquisa de ML e PNL de 2020 [Blog, janeiro de 2021]
? De volta ao índice
Podcasts somente para NLP
- ? Aste destaques do NLP [anos: 2017 - agora, status: ativo]
- ? Aste os episódios da zona da NLP [anos: 2021 - agora, status: ativo]
Muitos episódios de PNL
- ? Iqud twiml ai [anos: 2016 - agora, status: ativo]
- ? Sustta prática [anos: 2018 - agora, status: ativo]
- ? Sustctoming Data Exchange [anos: 2019 - agora, status: ativo]
- ? Aste DISPENSÃO DO GRADIAL [ANOS: 2020 - Agora, status: ativo]
- ? Aste palestra de rua de aprendizado de máquina [anos: 2020 - agora, status: ativo]
- ? Iqud DataFramed - as últimas tendências e insights sobre como escalar o impacto da ciência de dados nas organizações [anos: 2019 - agora, status: ativo]
Alguns episódios de PNL
- ? Aste O podcast Super Data Science [anos: 2016 - agora, status: ativo]
- ? Aste Rádio de hacker de dados [anos: 2018 - agora, status: ativo]
- ? Sustctings ai games [anos: 2020, status: ativo]
- ? Aste as análises mostram [anos: 2019 - agora, status: ativo]
- ? NLP News de Sebastian Ruder
- ? Esta semana em PN de Robert Dale
- ? Documentos com código
- ? O lote de Deeplearning.ai
- ? Paper Digest by PaperDigest
- ? Cypher de NLP por Quantumstat
- ? NLP Zurique [gravações do YouTube]
- ? Hacking-Machine-Learning [gravação do YouTube]
- ? NY-NLP (Nova York)
- ? Yannic Kilcher
- ? Huggingface
- ? Grupo de leitura de Kaggle
- ? Leitura de papel rasa
- ? Stanford CS224N: NLP com aprendizado profundo
- ? Nlpxing
- ? ML explicou - círculos socráticos da AI - AISC
- ? Deeplearning.ai
- ? Machine Learning Street Talk
? De volta ao índice
Geral NLU
- Cola - benchmark de avaliação de entendimento de idioma geral (cola)
- Superclue - referência estilizada após cola com um novo conjunto de tarefas mais difíceis de compreensão de idiomas
- Decanlp - O decatlo de linguagem natural (Decanlp) para estudar modelos gerais de PNL
- Dialoglue - Dialoglue: Um benchmark de compreensão da linguagem natural para o diálogo orientado para tarefas [Github, 280 estrelas]
- Dynabench - Dynabench é uma plataforma de pesquisa para coleta dinâmica de dados e benchmarking
- Benchmark colaborativo para medir e extrapolar as capacidades dos modelos de linguagem [Github, 2835 estrelas]
Resumo
- Wikiasp-Wikiasp: conjunto de dados de resumo baseado em aspectos de vários documentos
- Wikilingua - um conjunto de dados de resumo abstrato multilíngue
Resposta de perguntas
- Esquadrão - Stanford Pergunta Respondendo a DataSet (Esquadrão)
- Xquad-Xquad (DataSet de resposta a perguntas transversal) para resposta a perguntas cruzadas
- Grailqa - Resposta de perguntas fortemente generalizáveis (Grailqa)
- CSQA - Resposta de perguntas seqüenciais complexas
Benchmarks multilíngues e não ingleses
- ? Xtreme - benchmark multitarefa multifustres massivamente multilíngues
- Gluecos - Uma referência para NLP com comutação de código
- Indicglue - benchmark de compreensão da linguagem natural para idiomas indicados
- Linhamento - referência de avaliação de troca de código lingüística
- Supercúlia russa - referência russa de supercola
Biografia, lei e outros domínios científicos
- Blurb - Compreensão da linguagem biomédica e referência de raciocínio
- Azul - Linguagem biomédica Entendendo a referência de avaliação
- Lexglue - um conjunto de dados de referência para o entendimento da linguagem legal em inglês
Eficiência do transformador
- Arena de longo alcance-Arena de longo alcance para benchmarking eficiente transformadores (pré-impressão) [Github, 716 estrelas]
Processamento de fala
- Soberbo - Processamento de fala benchmark de desempenho universal
Outro
- CodexGlue - um conjunto de dados de referência para inteligência de código
- Crossner - Crossner: avaliando o domínio cruzado de reconhecimento de entidade nomeado
- Multinli - Corpus de inferência de linguagem natural de vários gêneros
- ISARCASM: Um conjunto de dados de sarcasmo pretendido - iscarm é um conjunto de dados de tweets, cada um rotulado como sarcástico ou não_sarcástico
? De volta ao índice
Em geral
- ? Uma receita para o treinamento de redes neurais de Andrej Karpathy [Palavras -chave: Pesquisa, Treinamento, 2019]
- ? Avanços recentes na PNL através de grandes modelos de idiomas pré-treinados: uma pesquisa [Paper, novembro de 2021]
Incorporação
Repositórios
- Representações Elmo pré-treinadas para muitos idiomas [Github, 1458 estrelas]
- Sense2vec - Vetores de palavras com chave contextualmente [Github, 1617 estrelas]
- Wikipedia2vec [Github, 935 estrelas]
- Starspace [Github, 3938 estrelas]
- FastText [Github, 25871 estrelas]
Blogs
- ? Modelos de idiomas e incorporação de palavras contextualizadas de David S. Batista [blog, 2018]
- ? Um guia essencial para incorporações de palavras pré -tenhadas para os profissionais de PNL da AnalyticsVidhya [blog, 2020]
- ? Poliglot Word incorporações Discover Language Clusters [Blog, 2020]
- ? The Illustrated Word2vec de Jay Alammar [Blog, 2019]
Palavras e incorporações transversais
- VECMAP - VECMAP (mapeamentos de incorporação de palavras cruzadas) [Github, 644 estrelas]
- Transformadores de frases - sentenças multilíngues e incorporações de imagem com Bert [Github, 14981 estrelas]
Codificação de par de bytes
- BPEMB-INCLIMENTOS DE SUBWORAÇÕES PRÉ-TREADO EM 275 IDIOMOS, baseados na codificação de pares de bytes (BPE) [Github, 1179 estrelas]
- Subpatil -NMT - Segmentação de palavras não supervisionada para tradução para máquinas neurais e geração de texto [Github, 2185 estrelas]
- Python -BPE - Byte Par Codificando para Python [Github, 223 estrelas]
Arquiteturas baseadas em transformador
Em geral
- ? A família Transformer de Lilian Weng [blog, 2020]
- ? Jogando na loteria com recompensas e vários idiomas - sobre o efeito da inicialização aleatória [papel ICLR 2020]
- ? Atenção? Atenção! Por Lilian Weng [blog, 2018]
- ? o transformador ... "explicado"? [Blog, 2019]
- ? ️ Atenção é tudo que você precisa; Modelos de rede neural atencional de łukasz Kaiser [Talk, 2017]
- ? A atenção está desativada por um [julho de 2023]
- ? Sustcendo e aplicando a auto-distribuição para a PNL [Talk, 2018]
- ? O livro de receitas da PNL: receitas modernas para arquiteturas de aprendizado profundo baseado em transformador [Paper, abril de 2021]
- ? Modelos pré-treinados: passado, presente e futuro [Paper, junho de 2021]
- ? Uma pesquisa com Transformers [Paper, junho de 2021]
Transformador
- ? O transformador anotado de Harvard NLP [blog, 2018]
- ? The Illustrated Transformer de Jay Alammar [Blog, 2018]
- ? Guia ilustrado para transformadores de Hong Jing [blog, 2020]
- ? Transformador seqüencial com atenção adaptativa pelo Facebook. Blog [Blog, 2019]
- ? Evolução de representações no transformador de Lena Voita [blog, 2019]
- ? Reformer: The Eficiente Transformer [Blog, 2020]
- ? Longformer-O transformador de longa data de Viktor Karlsson [Blog, 2020]
- ? Transformers do zero [blog, 2019]
- ? Transformadores em Processamento de Linguagem Natural - Uma breve pesquisa de George Ho [Blog, maio de 2020]
- Transformador Lite - Transformador Lite com Atenção de Longo Longo [Github, 596 estrelas]
- ? Transformers do zero [blog, outubro de 2021]
Bert
- ? Um guia visual para usar Bert pela primeira vez por Jay Alammar [blog, 2019]
- ? The Dark Secrets of Bert de Anna Rogers [Blog, 2020]
- ? Entendendo as pesquisas melhor do que nunca [blog, 2019]
- ? Desmistificação Bert: um guia abrangente para a estrutura inovadora do NLP [blog, 2019]
- Samert - semântica - consciente Bert para compreensão de idiomas [Github, 286 estrelas]
- Bertweet - Bertweet: um modelo de idioma pré -treinado para tweets em inglês [Github, 574 estrelas]
- Extração ideal de subarquitetura para Bert [Github, 470 estrelas]
- Caracterbert: reconciliando Elmo e Bert [Github, 195 estrelas]
- ? Quando Bert toca na loteria, todos os ingressos estão ganhando [blog, dezembro de 2020]
- Documentos relacionados a Bert Uma lista de papéis relacionados a Bert [Github, 2032 estrelas]
Outras variantes do transformador
T5
- ? T5 Compreendendo arquiteturas auto-supervisionadas baseadas em transformador [Blog, agosto de 2020]
- ? T5: O transformador de transferência de texto em texto [blog, 2020]
- Multilíngue-T5-T5 multilíngue (MT5) é um modelo de transformador de texto para texto com teio pré-textio de forma multilíngue [Github, 1245 estrelas]
BigBird
- ? Big Bird: Transformers for Long Sequências Artigo original do Google Research [Artigo, julho de 2020]
Reformer / Linformer / Longformer / Performers
- ? ️ Reformer: The Eficiente Transformer - [Paper, fevereiro de 2020] [Vídeo, outubro de 2020]
- ? Sustctformer: The Long -Document Transformer - [Paper, abril de 2020] [Vídeo, abril de 2020]
- ? Linformer: Auto -ataque com complexidade linear - [Paper, junho de 2020] [Vídeo, junho de 2020]
- ? Aste repensando a atenção com os artistas - [Paper, setembro de 2020] [Vídeo, setembro de 2020]
- Performer-Pytorch-Uma implementação do artista, um transformador linear baseado em atenção, em Pytorch [Github, 1084 estrelas]
Transformador de comutação
- ? Transformadores de troca: escala para trilhões de modelos de parâmetros Artigo original do Google Research [Artigo, janeiro de 2021]
GPT-Family
Em geral
- ? O GPT-2 ilustrado de Jay Alammar [blog, 2019]
- ? O GPT-2 anotado por Aman Arora
- ? GPT-2 do OpenAI: o modelo, o hype e a controvérsia de Ryan Lowe [blog, 2019]
- ? Como gerar texto de Patrick von Platen [blog, 2020]
GPT-3
Recursos de aprendizagem
- ? Zero Shot Learning for Text Classification de Amit Chaudhary [Blog, 2020]
- ? GPT-3 Um breve resumo de Leo Gao [Blog, 2020]
- ? GPT-3, um passo gigante para o Deep Learning e PNL de Yoel Zeldes [Blog, junho de 2020]
- ? Modelo de Idioma GPT-3: Uma Visão Geral Técnica de Chuan Li [Blog, junho de 2020]
- ? É possível para os modelos de idiomas alcançarem o entendimento da linguagem? por Christopher Potts
Aplicações
- Awesome GPT-3-Lista de todos os recursos relacionados ao GPT-3 [Github, 4589 estrelas]
- Projetos GPT-3-Um mapa de todas as startups GPT-3 e projetos comerciais
- GPT-3 Demo Showcase-GPT-3 Demo Showcase, mais de 180 aplicativos, exemplos e recursos
- ? API OpenAI - Demo da API para usar o OpenAI GPT para aplicações comerciais
Esforços de código aberto
- ? GPT-NEO-Inprossion GPT-3 Replicação de código aberto Hub de Hushgingface
- GPT -J - um parâmetro de 6 bilhões, modelo de geração de texto autoregressivo treinado na pilha
- ? Usando efetivamente o GPT-J com aprendizado de poucos tiros [blog, julho de 2021]
Outro
- ? O que é a auto-distribuição de dois fluxos em XLNet por Xu Liang [Blog, 2019]
- ? Resumo do Papel Visual: Albert (A Lite Bert) de Amit Chaudhary [Blog, 2020]
- ? Turing NLG pela Microsoft
- ? Classificação de texto com vários rótulos com XLNet de Josh Xin Jie Lee [Blog, 2019]
- Electra [Github, 2326 estrelas]
- Implementação do artista do artista, um transformador linear baseado em atenção, em Pytorch [Github, 1084 estrelas]
Destilação, poda e quantização
Material de leitura
- ? Destilando conhecimento de redes neurais para construir modelos menores e rápidos do Floydhub [Blog, 2019]
- ? Compressão de modelos de aprendizado profundo para texto: uma pesquisa [artigo, abril de 2021]
Ferramentas
- BERT-SQUEZE-Código para reduzir o tamanho dos modelos baseados em transformadores ou diminuir sua latência em tempo de inferência [Github, 79 estrelas]
- Xtremedistil - Xtremedistiltransformers para destilar redes neurais multilíngues maciças [Github, 153 estrelas]
Resumo automatizado
- ? PEGASUS: Um modelo de última geração para resumo abstrato de texto pelo Google AI [blog, junho de 2020]
- Ctrlsum - Ctrlsum: Rumo ao resumo genérico de texto controlável [Github, 146 estrelas]
- XL SUM-XL SUM: Resumo abstrato multilíngue em larga escala para 44 idiomas [Github, 252 estrelas]
- Summertime-um kit de ferramentas de resumo de texto de código aberto para não especialistas [Github, 265 estrelas]
- Primer-Primer: Sentença mascarada baseada em pirâmide, pré-treinamento para resumo de vários documentos [Github, 151 estrelas]
- Summarus - Modelos para resumo abstrato automático [Github, 170 estrelas]
Gráficos de conhecimento e NLP
- ? Fusando conhecimento no modelo de linguagem [Apresentação, outubro de 2021]
Nota Palavras -chave da seção: práticas recomendadas, mlops
? De volta ao índice
Melhores práticas para a construção de projetos de PNL
- ? Em busca de práticas recomendadas para projetos de PNL [slides, dezembro de 2020]
- ? EMNLP 2020: Processamento de linguagem natural de alto desempenho pelo Google Research, Recording, novembro de 2020]
- ? Processamento prático de linguagem natural - um guia abrangente para a construção de sistemas PNL do mundo real [Livro, junho de 2020]
- ? Como estruturar e gerenciar projetos de PNL [blog, maio de 2021]
- ? Aplicado PNL Thinking - Aplicado PNS Pensamento: Como traduzir problemas em soluções [blog, junho de 2021]
- ? Introdução ao PNL para uso da indústria - DataTalkSclub Apresentação sobre Introdução à PNL para uso da indústria [gravação, dezembro de 2021]
- ? Medição de incorporação Drift - Melhores práticas para monitorar a deriva dos modelos de PNL [blog, dezembro de 2022]
Mlops para PN
O MLOPS, especialmente quando aplicado à PNL, é um conjunto de melhores práticas em torno da automação de várias partes do fluxo de trabalho ao criar e implantar pipelines de NLP.
Em geral, o MLOPS para PNL inclui ter os seguintes processos em vigor:
- Versão de dados - verifique se o seu treinamento, anotação e outros tipos de dados estão em versão e rastreado
- Rastreamento do experimento - verifique se todas as suas experiências são rastreadas e salvas automaticamente, onde podem ser facilmente replicadas ou retraídas
- Modelo Registro - Verifique se os modelos neurais que você treina são versionados e rastreados e é fácil reverter para qualquer um deles
- Testes automatizados e testes comportamentais - Além dos testes regulares de unidade e integração, você deseja fazer testes comportamentais que verificam viés ou possíveis ataques adversários
- Modelo de implantação e porção - automatize a implantação do modelo, idealmente também com implantações de tempo de partida zero como azul/verde, implantações de Canary etc.
- Observabilidade de dados e modelo - rastrear desvio de dados, desvio de precisão do modelo etc.
Além disso, existem mais dois componentes que não são tão prevalentes para a PNL e são usados principalmente para visão computacional e outros subfieldas de IA:
- Store de recursos - armazenamento centralizado de todos os recursos desenvolvidos para modelos de ML do que pode ser facilmente reutilizado por qualquer outro projeto ML
- Gerenciamento de metadados - armazenamento para todas as informações relacionadas ao uso de modelos de ML, principalmente para reproduzir o comportamento de modelos de ML implantados, rastreamento de artefatos etc.
Compilações Mlops e listas incríveis
- Awesome-Mlops [Github, 12526 estrelas]
- Melhor de ML-Python [Github, 16309 estrelas]
- MLOPS.TOYS - Uma lista com curadoria de projetos MLOPs
Material de leitura
- ? Operações de aprendizado de máquina (MLOPS): Visão geral, definição e arquitetura [Artigo, maio de 2022]
- ? Requisitos e arquitetura de referência para MLOPs: Insights da indústria [Artigo, outubro de 2022]
- ? MLOPS: O que é, por que importa e como implementá -lo por Netuno AI [Blog, julho de 2021]
- ? Melhores ferramentas MLOPs que você precisa conhecer como cientista de dados da Netuno AI [blog, julho de 2021]
- ? State of Mlops 2021 por Valohai [Blog, agosto de 2021]
- ? Os Mlops Stack by Valohai [Blog, outubro de 2020]
- ? Controle de versão de dados para aplicativos de aprendizado de máquina por megagon ai [blog, julho de 2021]
- ? A rápida evolução da pilha canônica para aprendizado de máquina [blog, julho de 2021]
- ? MLOPS: Guia abrangente para iniciantes [blog, março de 2021]
- ? O que aprendi sobre o MLOPs de falar com mais de 100 ml de praticantes [blog, maio de 2021]
- ? Modelos Datarobot Challenger - MOPS CHAMPE
- ? Blog do Estado de Mlops do Dr. Ori Cohen
- ? Visão geral do ecossistema do Mlops [blog, 2021]
Material de aprendizado
- ? Mlops Cource by feito com ML
- ? Github Mlops - Coleção de recursos sobre como facilitar o OPS de aprendizado de máquina com o GitHub
- ? Curso de Fundamentos de Observabilidade da ML Aprenda a monitorar e causar problemas de causa raiz com os modelos de PNL de produção
Comunidades de mlops
- A Comunidade Mlops - Blogs, Slack Group, Newsletter e muito mais sobre Mlops
Versão de dados
- DVC - Controle de versão de dados (DVC) rastreia modelos ML e conjuntos de dados [LIGADO LIVRO E OPENS] Link para o GitHub
- ? Pesos e vieses - ferramentas para rastreamento de experimentos e versão do conjunto de dados [serviço pago]
- ? Pachyderm-Controle de versão para dados com as ferramentas para construir pipelines escaláveis de ponta a ponta ML/AI [serviço pago com camada gratuita]
Rastreamento do experimento
- MLFlow - Plataforma de código aberto para o ciclo de vida do aprendizado de máquina [LINK FREE AND Open Source] Link para GitHub
- ? Pesos e vieses - ferramentas para rastreamento de experimentos e versão do conjunto de dados [serviço pago]
- ? Netuno AI - Rastreamento de experimentos e registro de modelos construídos para equipes de pesquisa e produção [serviço pago]
- ? Comet ML - Permite que cientistas e equipes de dados rastreem, comparem, expliquem e otimizem experimentos e modelos [Serviço pago]
- ? SIGOpt - Automatize o treinamento e o ajuste, visualize e compare execuções [Serviço pago]
- Optuna - Estrutura de otimização de hiperparâmetro [Github, 10650 estrelas]
- Clear ML - Experimento, orquestrar, implantar e construir lojas de dados, tudo em um só lugar [LIGO E LIGADO E ABERTO] Link para o GitHub
- Metaflow-Biblioteca Python/R favorável ao homem que ajuda cientistas e engenheiros a construir e gerenciar projetos de ciência de dados da vida real [Github, 8093 estrelas]
Modelo Registro
- DVC - Controle de versão de dados (DVC) rastreia modelos ML e conjuntos de dados [LIGADO LIVRO E OPENS] Link para o GitHub
- MLFlow - Plataforma de código aberto para o ciclo de vida do aprendizado de máquina [LINK FREE AND Open Source] Link para GitHub
- ModelDB - Sistema de código aberto para versão do modelo de aprendizado de máquina, metadados e gerenciamento de experimentos [Github, 1696 estrelas]
- ? Netuno AI - Rastreamento de experimentos e registro de modelos construídos para equipes de pesquisa e produção [serviço pago]
- ? Valohai-Pipelines ML de ponta a ponta [serviço pago]
- ? Pachyderm-Controle de versão para dados com as ferramentas para construir pipelines escaláveis de ponta a ponta ML/AI [serviço pago com camada gratuita]
- ? POLAIXON - Reproduzir, automatizar e dimensionar seus fluxos de trabalho de ciência de dados com ferramentas MLOPs de grau de produção [serviço pago]
- ? Comet ML - Permite que cientistas e equipes de dados rastreem, comparem, expliquem e otimizem experimentos e modelos [Serviço pago]
Testes automatizados e testes comportamentais
- Lista de verificação - Além da precisão: teste comportamental de modelos de PNL [Github, 2003 estrelas]
- Textattack - Framework para ataques adversários, aumento de dados e treinamento de modelos em PNL [Github, 2922 estrelas]
- Wildnlp - corrompe um texto de entrada para testar a robustez dos modelos de NLP [Github, 76 estrelas]
- Grandes expectativas - Escreva testes para seus dados [Github, 9874 estrelas]
- Checks DeepChecks - pacote Python para validar de maneira abrangente seus modelos e dados de aprendizado de máquina [Github, 3582 estrelas]
Modelo de implantabilidade e porção
- MLFlow - Plataforma de código aberto para o ciclo de vida do aprendizado de máquina [LINK FREE AND Open Source] Link para GitHub
- ? Amazon Sagemaker [serviço pago]
- ? Valohai-Pipelines ML de ponta a ponta [serviço pago]
- ? NLP Cloud - API NLP pronta para produção [serviço pago]
- ? Saturn Cloud [serviço pago]
- ? Seldon - Implantação de aprendizado de máquina para empresa [serviço pago]
- ? Comet ML - Permite que cientistas e equipes de dados rastreem, comparem, expliquem e otimizem experimentos e modelos [Serviço pago]
- ? POLAIXON - Reproduzir, automatizar e dimensionar seus fluxos de trabalho de ciência de dados com ferramentas MLOPs de grau de produção [serviço pago]
- TorchServe - ferramenta flexível e fácil de usar para servir modelos Pytorch [Github, 4174 estrelas]
- ? Kubeflow - O Kit de Ferramentas de Aprendizagem de Machine para Kubernetes [Github, 10600 estrelas]
- KfServing - Inferência sem servidor em Kubernetes [Github, 3504 estrelas]
- ? TFX - TensorFlow Extended - Plataforma de ponta a ponta para implantar pipelines ML de produção [serviço pago]
- ? Pachyderm-Controle de versão para dados com as ferramentas para construir pipelines escaláveis de ponta a ponta ML/AI [serviço pago com camada gratuita]
- ? Cortex - Contêineres como um serviço na AWS [Serviço pago]
- ? Aprendizado de máquina do Azure-ciclo de vida de aprendizado de máquina de ponta a ponta [serviço pago]
- END2END TRANSFORMERS SEMVERVERS ON AWS LAMBDA [GitHub, 121 estrelas]
- NLP -Service - Demonstração de amostra de PNL como uma plataforma de serviço construída usando FASTAPI e HAGGING FACE [Github, 13 estrelas]
- ? Dagster - Data Orchestrator for Machine Learning [de código aberto e de código aberto]
- ? Verta - AI e Machine Learning Delantment and Operations [Serviço pago]
- Metaflow-Biblioteca Python/R favorável ao homem que ajuda cientistas e engenheiros a construir e gerenciar projetos de ciência de dados da vida real [Github, 8093 estrelas]
- Flyte - Plataforma de automação de fluxo de trabalho para dados complexos e de missão e processos de ML em escala [Github, 5525 estrelas]
- MLRUN - Automação e rastreamento de aprendizado de máquina [Github, 1425 estrelas]
- ? DataROBOT MLOPS - DataRobot Mlops fornece um centro de excelência para a sua produção AI
Depuração de modelos
- Imodels - Pacote para modelagem preditiva concisa, transparente e precisa [Github, 1375 estrelas]
- Cockpit - Uma ferramenta de depuração prática para treinar redes neurais profundas [Github, 474 estrelas]
Previsão de precisão do modelo
- Weightwatcher - Ferramenta Weightwatcher para prever a precisão das redes neurais profundas [Github, 1453 estrelas]
Observabilidade de dados e modelo
Em geral
- Arize ai - incorporação de monitoramento de deriva para modelos de PNL
- ARIZE -PHOENIX - MOMENTAÇÃO ML PARA LLMS, VISÃO, IDIONAGEM E MODELOS TABULARES
- WhyLogs - Padrão de código aberto para dados e registro de ML [Github, 2636 estrelas]
- Rubrix - Ferramenta de código aberto para explorar e itentar dados para projetos de inteligência artificial [Github, 3843 estrelas]
- MLRUN - Automação e rastreamento de aprendizado de máquina [Github, 1425 estrelas]
- ? DataROBOT MLOPS - DataRobot Mlops fornece um centro de excelência para a sua produção AI
- ? Cortex - Contêineres como um serviço na AWS [Serviço pago]
Modelo centrado
- ? Algoritmia - Minimize o risco com relatórios avançados e segurança e governança de nível corporativo em todos os dados, modelos e infraestrutura [serviço pago]
- ? Dataiku - Dataiku é para equipes que desejam fornecer análises avançadas usando as técnicas mais recentes em escala de big data [serviço pago]
- Evidentemente AI - Ferramentas para analisar e monitorar modelos de aprendizado de máquina [de código aberto e de código aberto] Link para o GitHub
- ? Fiddler - Ferramenta de Gerenciamento de Desempenho do Modelo ML [Serviço pago]
- ? Hydrofera - plataforma de código aberto para gerenciar modelos ML [serviço pago]
- ? Verta - AI e Machine Learning Delantment and Operations [Serviço pago]
- ? Domino Model Ops - Implante e gerencie modelos para impulsionar o impacto dos negócios [serviço pago]
Dados centrados
- ? DataFold - Qualidade dos dados através de diferenças, perfil e detecção de anomalias [Serviço pago]
- ? Acceldata - Melhore a confiabilidade, acelere a escala e reduza os custos em todos os pipelines de dados [serviço pago]
- ? Bigeye - Monitorando e alerta para seus conjuntos de dados em minutos [Serviço pago]
- ? Datakin-Solução de linhagem de dados em tempo real de ponta a ponta [Serviço pago]
- ? Monte Carlo - Integridade de dados, deriva, esquema, linhagem [serviço pago]
- ? Soda - Monitoramento de dados, teste e validação [serviço pago]
Lojas de recursos
- ? Tecton - loja de recursos corporativos para aprendizado de máquina [serviço pago]
- FEAST - Site de recursos de código aberto para o site de aprendizado de máquina [Github, 5525 estrelas]
- ? HOPSWORKS FECHAR STORE - Sistema de gerenciamento de dados para gerenciar recursos de aprendizado de máquina [Serviço pago]
Gerenciamento de metadados
- ML METADATA - Uma biblioteca para gravar e recuperar metadados associados ao desenvolvedor de ML e fluxos de trabalho do cientista de dados [Github, 617 estrelas]
- ? Netuno AI - Rastreamento de experimentos e registro de modelos construídos para equipes de pesquisa e produção [serviço pago]
MLOPS Frameworks
- Metaflow-Biblioteca Python/R favorável ao homem que ajuda cientistas e engenheiros a construir e gerenciar projetos de ciência de dados da vida real [Github, 8093 estrelas]
- Kedro - estrutura Python para criar código de ciência de dados reprodutível, sustentável e modular [Github, 9883 estrelas]
- Seldon Core - Mlops Framework para empacotar, implantar, monitorar e gerenciar milhares de modelos de aprendizado de máquina de produção [Github, 4353 estrelas]
- ZenML - Mlops Framework para criar pipelines ML reprodutíveis para aprendizado de máquina de produção [Github, 3972 estrelas]
- ? Google Vertex AI - Construir, implantar e escalar modelos ML mais rapidamente, com ferramentas pré -treinadas e personalizadas dentro de uma plataforma de IA unificada [serviço pago]
- Diffgram - plataforma de dados de treinamento completa para aprendizado de máquina entregue como um único aplicativo [Github, 1834 estrelas]
- ? Continuual.ai - Construa, implante e operacionalize os modelos de ML mais fáceis e rápidos com uma interface declarativa em data warehouses em nuvem como floco de neve, bigqery, desvio para o vermelho e bancos de dados. [Serviço pago]
Arquiteturas baseadas em transformador
? De volta ao índice
Em geral
- ? Por que Bert falha em ambientes comerciais da Intel AI [blog, 2020]
- ? Tuning Fine Bert para classificação de texto com Farm de Sebastian Guggisberg [Blog, 2020]
- Modelos de Transformers de pré -train em Pytorch usando Transformers de rosto de abraço [Github, 254 estrelas]
- ? Aste PNLP prático para o mundo real [Apresentação, 2019]
- ? Sustct de papel em produto - como implementamos Bert por Christoph Henkelmann [Talk, 2020]
Transformadores multi-GPU
- Parallelfformers: um modelo de ferramentas de paralelização de modelo eficiente para implantação [Github, 776 estrelas]
Transformadores de treinamento efetivamente
- Treinando Bert com orçamento de computação/tempo (acadêmico) [Github, 309 estrelas]
Incorporação como um serviço
- Incorporação como serviço [Github, 204 estrelas]
- Bert-As-Service [Github, 12399 estrelas]
Receitas de PNL Aplicações industriais:
- Receitas de PNL da Microsoft [Github, 6367 estrelas]
- PNL com Python por Susanli2016 [Github, 2721 estrelas]
- Utilitários básicos para Pytorch NLP por petrochukm [Github, 2210 estrelas]
Aplicações de PNL em indústrias Bio, Finanças, Legal e Outros
- Blackstone - Um oleoduto e modelo de Spacy para PNL em texto legal não estruturado [Github, 636 estrelas]
- Sci Spacy - Pipeline e modelos de Spacy para documentos científicos/biomédicos [Github, 1688 estrelas]
- Finbert: pré-treinado em registros da SEC para tarefas financeiras de PNL [Github, 197 estrelas]
- LEXNLP - Recuperação de informações e extração para texto legal real e não estruturado [Github, 692 estrelas]
- NERDL e NERCRF - Tutorial sobre reconhecimento de entidade nomeado para a saúde com Sparknlp
- Análise de texto legal - Uma lista de recursos selecionados dedicados à análise de texto legal [Github, 613 estrelas]
- Bioie - Uma lista com curadoria de recursos relevantes para fazer extração de informações biomédicas [Github, 338 estrelas]
Nota Palavras -chave da seção: reconhecimento de fala
? De volta ao índice
Reconhecimento geral da fala
- WAV2LETTER - Kit de reconhecimento automático de fala [Github, 6370 estrelas]
- DeepSpeech - Arquitetura DeepSpeech do Baidu [Github, 25166 estrelas]
- ? Incorporação de palavras acústicas de Maria Obedkova [blog, 2020]
- Kaldi - Kaldi é um kit de ferramentas para reconhecimento de fala [Github, 14177 estrelas]
- Awesome -Kaldi - Recursos para o uso de kaldi [github, 532 estrelas]
- ESPNET-Toolkit de processamento de fala de ponta a ponta [Github, 8355 estrelas]
- ? Hubert - Aprendizagem de representação auto -supervisionada para reconhecimento, geração e compressão de fala [blog, junho de 2021]
Texto para a geração de fala / fala
- FastSpeech - A implementação do FastSpeech baseado em Pytorch [Github, 857 estrelas]
- TTS-Um kit de ferramentas de aprendizado profundo para o texto em fala [GitHub, 34356 estrelas]
- ? Notebooklm - Google Gemini Powerd Personal Assistant / Podcast Generator
Discurso para texto
- Whisper - reconhecimento robusto de fala por meio de supervisão fraca em larga escala, por Openai [Github, 68884 estrelas]
- Vibe - Ferramenta GUI para trabalhar com sussurro, multilíngue e suporte CUDA incluíram [Github, 931 estrelas]
Conjuntos de dados
- Voxpopuli - Corpus de fala multilíngue em larga escala para aprendizado de representação [Github, 507 estrelas]
Nota Seção Palavras -chave: Modelagem de tópicos
? De volta ao índice
Blogs
- ? Modelagem de tópicos com Pyspark e Spark NLP por Maria Obedkova [Spark, Blog, 2020]
- ? Uma abordagem única para o cluster de texto curto (teoria algorítmica) de Brittany Bowers [blog, 2020]
Estruturas para modelagem de tópicos
- GENSIM - Estrutura para modelagem de tópicos [Github, 15597 estrelas]
- Spark NLP [Github, 3826 estrelas]
Repositórios
- TOP2VEC [Github, 2924 estrelas]
- Modelagem de tópicos de explicação de correlação ancorada [Github, 303 estrelas]
- Topic Modeling in Embedding Spaces [GitHub, 540 stars] Paper
- TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Leitura adicional
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
Em geral
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
Objetivo geral
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Fonética
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Morfologia
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
Machine Translation
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
japonês
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
Thai
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
chinês
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
ucraniano
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
Outro
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
Em geral
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Cursos
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
Livros
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
Tutoriais
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
Extração de relação
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Resolução de Coreferência
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
Análise de sentimentos
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Geração de texto
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Attributions
Recursos
- All linked resources belong to original authors
Ícones
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Fontes
The Pandect Series also includes