import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : objectRetirez tous les chiffres:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : objectRetirer les chiffres remplace uniquement les blocs de chiffres. Les chiffres de la chaîne "Hello123" ne seront pas supprimés. Si nous voulons supprimer tous les chiffres, vous devez définir uniquement_blocks sur false.
Supprimez tous les types de supports et leur contenu.
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : objectRetirez les diacritiques.
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : objectSupprimer la ponctuation.
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectRetirez les espaces blancs supplémentaires.
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectParfois, nous voulons également nous débarrasser des mots arrêtés.
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object Texthero est composé de quatre modules: Preproccessing.py, NLP.py, Representation.py et Visualization.py.
Portée: préparer des données de texte pour une analyse plus approfondie.
Documentation complète: prétraitement
Portée: fournir des outils de traitement du langage naturel classiques tels que named_entity et noun_phrases .
Documentation complète: PNL
Portée: cartographier les données du texte dans les vecteurs et faire la réduction de la dimensionnalité.
Algorithmes de représentation pris en charge:
count )tfidf )Algorithmes de clustering pris en charge:
kmeans )dbscan )meanshift )Algorithmes de réduction de la dimensionnalité pris en charge:
pca )tsne )nmf )Documentation complète: représentation
Portée: résumer les principaux faits concernant les données texte et les visualiser. Ce module est opinionable. Il est pratique pour quiconque a besoin d'une solution rapide pour visualiser à l'écran les données de texte, par exemple lors d'une analyse des données exploratoires de texte (EDA).
Fonctions prises en charge:
scatterplot )top_words )Documentation complète: visualisation
Parfois, nous voulons juste que les choses aient fait, non? Texthero aide à cela. Cela aide à faciliter les choses et à donner au développeur plus de temps pour se concentrer sur ses besoins personnalisés. Nous pensons que le texte de nettoyage devrait prendre une minute. Idem pour trouver la partie la plus importante d'un texte et la même chose pour la représenter.
D'une manière très pragmatique, Texthero n'a qu'un seul objectif: faire du temps libre du développeur. Travailler avec des données de texte peut être une douleur et dans la plupart des cas, un pipeline par défaut peut être assez bon à démarrer. Il est toujours temps de revenir et d'améliorer les travaux antérieurs.
"Texthero a été développé par un membre de la communauté PNLP pour toute la communité des PNL"
Texthero est pour nous tous les développeurs PNL et il peut continuer d'exister avec la précieuse contribution de la communauté.
Votre niveau d'expertise de Python et de PNL n'a pas d'importance, n'importe qui peut aider et n'importe qui est plus que bienvenu pour contribuer!
Êtes-vous un expert PNL?
Êtes-vous doué pour créer des sites Web?
Le site Web sera bientôt déplacé de Docusaurus à Sphinx: lisez le problème ouvert là-bas. Bonne nouvelle: le site Web ressemblera à maintenant :) NOUVELLES MOYENS: Nous devons faire un développement Web pour adapter ce modèle Sphinx à nos besoins. Pouvez-vous nous aider?
Êtes-vous doué pour écrire?
Ceci est probablement la pièce la plus importante manquante maintenant sur Textherro: plus de tutoriels et plus de guide "Getting Starting".
Si vous êtes doué pour écrire, vous pouvez nous aider! Pourquoi ne commencez-vous pas par ajouter une page FAQ au site Web ou expliquer comment créer un pipeline personnalisé? Besoin d'aide? Nous sommes là pour vous.
Êtes-vous bon à Python?
Il y a beaucoup de problèmes ouverts pour les gars techniques. Lequel choisissez-vous?
Si vous n'avez que d'autres questions ou enquête, envoyez-moi une ligne à Jonathanbesomi__at__gmail.com
La licence du MIT (MIT)
Copyright (C) 2020 Texthero
L'autorisation est accordée gratuitement à toute personne qui obtient une copie de ce logiciel et des fichiers de documentation associés (le "logiciel"), pour traiter le logiciel sans restriction, y compris sans limiter les droits d'utilisation, de copie, de modification, de fusion, de publication, de distribution, de sublince et / ou de vendre des copies des conditions suivantes.
L'avis de droit d'auteur ci-dessus et le présent avis d'autorisation sont inclus dans toutes les copies ou des parties substantielles du logiciel.
Le logiciel est fourni "tel quel", sans garantie d'aucune sorte, express ou implicite, y compris, mais sans s'y limiter, les garanties de qualité marchande, d'adéquation à un usage particulier et de non-contrefaçon. En aucun cas, les auteurs ou les détenteurs de droits d'auteur ne seront pas responsables de toute réclamation, dommage ou autre responsabilité, que ce soit dans une action de contrat, de délit ou autre, découlant de, hors du logiciel ou de l'utilisation ou d'autres relations dans le logiciel.