import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : objectRemova todos os dígitos:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : objectRemover dígitos substitui apenas blocos de dígitos. Os dígitos na string "hello123" não serão removidos. Se quisermos remover todos os dígitos, você precisará definir apenas_blocks como false.
Remova todos os tipos de colchetes e seu conteúdo.
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : objectRemova os diacríticos.
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : objectRemova a pontuação.
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectRemova espaços brancos extras.
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectÀs vezes, também queremos nos livrar das palavras de parada.
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object O Texthero é composto por quatro módulos: preprocessing.py, nlp.py, representação.py e visualização.py.
Escopo: prepare os dados de texto para análises adicionais.
Documentação completa: pré -processamento
Escopo: Forneça ferramentas clássicas de processamento de linguagem natural, como named_entity e noun_phrases .
Documentação completa: NLP
Escopo: mapear dados de texto em vetores e fazer redução de dimensionalidade.
Algoritmos de representação suportados:
count )tfidf )Algoritmos de cluster suportados:
kmeans )dbscan )meanshift )Algoritmos de redução da dimensionalidade suportada:
pca )tsne )nmf )Documentação completa: representação
Escopo: Resuma os principais fatos sobre os dados de texto e visualize -os. Este módulo é opinativo. É útil para quem precisa de uma solução rápida para visualizar na tela os dados de texto, por exemplo, durante uma análise de dados exploratórios de texto (EDA).
Funções suportadas:
scatterplot )top_words )Documentação completa: visualização
Às vezes, só queremos as coisas, certo? Texthero ajuda nisso. Isso ajuda a facilitar as coisas e dar ao desenvolvedor mais tempo para se concentrar em seus requisitos personalizados. Acreditamos que o texto de limpeza deve levar um minuto. O mesmo para encontrar a parte mais importante de um texto e o mesmo para representá -lo.
De uma maneira muito pragmática, o Texthero tem apenas um objetivo: faça do desenvolvedor tempo livre. Trabalhar com dados de texto pode ser uma dor e, na maioria dos casos, um pipeline padrão pode ser muito bom para começar. Sempre há tempo para voltar e melhorar o trabalho anterior.
"Texthero foi desenvolvido por um membro da comunidade PNL para toda a comunidade de NLP"
A Texthero é para todos nós desenvolvedores de NLP e pode continuar a existir com a preciosa contribuição da comunidade.
Seu nível de experiência em Python e PNL não importa, alguém pode ajudar e alguém é mais do que bem -vindo a contribuir!
Você é um especialista em PNL?
Você é bom em criar sites?
O site será transferido em breve de Docusaurus para Sphinx: leia a questão aberta lá. Boas notícias: o site ficará agora :) Notícias médias: precisamos fazer algum desenvolvimento da Web para adaptar esse modelo de esfinge às nossas necessidades. Você pode nos ajudar?
Você é bom em escrever?
Provavelmente, esta é a peça mais importante que falta agora no Texthero: mais tutoriais e mais guia de "começar".
Se você é bom em escrever, pode nos ajudar! Por que você não começa adicionando uma página de perguntas frequentes ao site ou explica como criar um pipeline personalizado? Precisar de ajuda? Estamos lá para você.
Você é bom em Python?
Existem muitos problemas abertos para os caras do Techie. Qual você escolhe?
Se você tiver apenas outras perguntas ou consulta, deixe -me uma linha em jonathanbesomi__at__gmail.com
A licença do MIT (MIT)
Copyright (C) 2020 Texthero
A permissão é concedida, gratuita, a qualquer pessoa que obtenha uma cópia deste software e arquivos de documentação associados (o "software"), para lidar com o software sem restrição, inclusive sem limitação os direitos de usar, copiar, modificar, mesclar, publicar, distribuir, mobilizar o software e/ou vender cópias do software e permitir que as pessoas a quem
O aviso de direitos autorais acima e este aviso de permissão devem ser incluídos em todas as cópias ou em partes substanciais do software.
O software é fornecido "como está", sem garantia de qualquer tipo, expresso ou implícito, incluindo, entre outros, as garantias de comercialização, aptidão para uma finalidade específica e não innoculação. Em nenhum caso os autores ou detentores de direitos autorais serão responsáveis por qualquer reclamação, danos ou outro passivo, seja em uma ação de contrato, delito ou não, decorrente de, fora ou em conexão com o software ou o uso ou outras negociações no software.