nlp in practice
1.0.0
Use essas amostras e ferramentas de código de PNL, mineração de texto e aprendizado de máquina para resolver problemas de dados de texto do mundo real.
Os links na primeira coluna levam você à subpasta/repositório com o código -fonte.
| Tarefa | Artigo relacionado | Tipo de origem | Descrição |
|---|---|---|---|
| Extração de frase em larga escala | Artigo da phrase2vec | Script Python | Extrair frases para grandes quantidades de dados usando Pyspark. Anote o texto usando essas frases ou use as frases para outras tarefas a jusante. |
| Word Cloud for Jupyter Notebook e aplicativos da web Python | artigo do Word_Cloud | script python + caderno | Visualize as principais palavras -chave usando contagens de palavras ou tfidf |
| Gensim Word2vec (com conjunto de dados) | Artigo do Word2vec | caderno | Como trabalhar corretamente com o Word2vec para obter os resultados desejados |
| Lendo arquivos e contagem de palavras com Spark | Artigo da Spark | Script Python | Como ler arquivos de diferentes formatos usando Pyspark com um exemplo de contagem de palavras |
| Extraindo palavras-chave com TF-IDF e Sklearn (com conjunto de dados) | Artigo do TFIDF | caderno | Como extrair palavras-chave interessantes do texto usando TF-IDF e Python's Sklearn |
| Pré -processamento de texto | Artigo de pré -processamento de texto | caderno | Alguns trechos de código sobre como executar o pré -processamento de texto. Inclui Stemming, Remoção de Ruído, Lematização e Remoção de Palavras. |
| Tfidftransformer vs. tfidfvectorizer | Artigo de uso do TFIDFTRANSFORMER e TFIDFVECTORIZADOR | caderno | Como usar o TFIDFTRANSFORMER e o TFIDFVECTORIZER corretamente e a diferença entre os dois e o que usar quando. |
| Acessando incorporações de palavras pré-treinadas com gensim | Artigo de incorporação de palavras pré-treinadas | caderno | Como acessar a luva pré-treinada e as incorporações Word2Vec usando Gensim e um exemplo de como essas incorporações podem ser alavancadas para similaridade de texto |
| Classificação de texto em Python (com conjunto de dados de notícias) | Classificação de texto com artigo de regressão logística | caderno | Comece com a classificação de texto. Aprenda a construir e avaliar um classificador de texto para classificação de notícias usando a regressão logística. |
| Exemplos de uso do CountVectorizer | Como usar corretamente o CountVectorizer? Um artigo detalhado | caderno | Aprenda a maximizar o uso do CountVectorizer para que você não esteja apenas computando contagens de palavras, mas também pré -processando seus dados de texto adequadamente, além de extrair recursos adicionais do seu conjunto de dados de texto. |
| Exemplos de hashingvectorizer | HashingVectorizer vs. Artigo do CountVectorizer | caderno | Aprenda as diferenças entre o HashingVectorizer e o CountVectorizer e quando usar qual. |
| CBOW vs. Skipgram | Word2vec: uma comparação entre CBOW, Skipgram e Skipgramsi | caderno | Uma rápida comparação da arquitetura de três incorporações. |
Este repositório é mantido por Kavita Ganesan. Conecte -se comigo no LinkedIn ou no Twitter.