Téléchargement de texthero - Téléchargement du code source texthero

texthero

Autre code source

Version 1.1.0

Télécharger

2. Prétraitement du texte, TF-IDF, K-means et visualisation

 import texthero as hero
import pandas as pd

df = pd . read_csv (
    "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df [ 'tfidf' ] = (
    df [ 'text' ]
    . pipe ( hero . clean )
    . pipe ( hero . tfidf )
)

df [ 'kmeans_labels' ] = (
    df [ 'tfidf' ]
    . pipe ( hero . kmeans , n_clusters = 5 )
    . astype ( str )
)

df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )

hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" )

3. Pipeline simple pour le nettoyage de texte

 > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé    (123 /) needs to [OK!] be cleaned!   "
> >> s = pd . Series ( text )
> >> s
0    This sèntencé    ( 123 / ) needs to [ OK !] be cleane ...
dtype : object

Retirez tous les chiffres:

 > >> s = hero . remove_digits ( s )
> >> s
0    This sèntencé    (  / ) needs to [ OK !] be cleaned !
dtype : object

Retirer les chiffres remplace uniquement les blocs de chiffres. Les chiffres de la chaîne "Hello123" ne seront pas supprimés. Si nous voulons supprimer tous les chiffres, vous devez définir uniquement_blocks sur false.

Supprimez tous les types de supports et leur contenu.

 > >> s = hero . remove_brackets ( s )
> >> s 
0    This sèntencé    needs to  be cleaned !
dtype : object

Retirez les diacritiques.

 > >> s = hero . remove_diacritics ( s )
> >> s 
0    This sentence    needs to  be cleaned !
dtype : object

Supprimer la ponctuation.

 > >> s = hero . remove_punctuation ( s )
> >> s 
0    This sentence    needs to  be cleaned
dtype : object

Retirez les espaces blancs supplémentaires.

 > >> s = hero . remove_whitespace ( s )
> >> s 
0    This sentence needs to be cleaned
dtype : object

Parfois, nous voulons également nous débarrasser des mots arrêtés.

 > >> s = hero . remove_stopwords ( s )
> >> s
0    This sentence needs cleaned
dtype : object

API

Texthero est composé de quatre modules: Preproccessing.py, NLP.py, Representation.py et Visualization.py.

1. Prétraitement

Portée: préparer des données de texte pour une analyse plus approfondie.

Documentation complète: prétraitement

2. NLP

Portée: fournir des outils de traitement du langage naturel classiques tels que named_entity et noun_phrases .

Documentation complète: PNL

2. Représentation

Portée: cartographier les données du texte dans les vecteurs et faire la réduction de la dimensionnalité.

Algorithmes de représentation pris en charge:

Fréquence du terme ( count )
Fréquence de la fréquence des termes ( tfidf )

Algorithmes de clustering pris en charge:

K-means ( kmeans )
Clustering spatial basé sur la densité des applications avec bruit ( dbscan )
SEAVERSHIFT ( meanshift )

Algorithmes de réduction de la dimensionnalité pris en charge:

Analyse des composants principaux ( pca )
Vente stochastique distribué en T ( tsne )
Factorisation matricielle non négative ( nmf )

Documentation complète: représentation

3. Visualisation

Portée: résumer les principaux faits concernant les données texte et les visualiser. Ce module est opinionable. Il est pratique pour quiconque a besoin d'une solution rapide pour visualiser à l'écran les données de texte, par exemple lors d'une analyse des données exploratoires de texte (EDA).

Fonctions prises en charge:

Texte de dispersion ( scatterplot )
Mots les plus courants ( top_words )

Documentation complète: visualisation

FAQ

Pourquoi Texthero

Parfois, nous voulons juste que les choses aient fait, non? Texthero aide à cela. Cela aide à faciliter les choses et à donner au développeur plus de temps pour se concentrer sur ses besoins personnalisés. Nous pensons que le texte de nettoyage devrait prendre une minute. Idem pour trouver la partie la plus importante d'un texte et la même chose pour la représenter.

D'une manière très pragmatique, Texthero n'a qu'un seul objectif: faire du temps libre du développeur. Travailler avec des données de texte peut être une douleur et dans la plupart des cas, un pipeline par défaut peut être assez bon à démarrer. Il est toujours temps de revenir et d'améliorer les travaux antérieurs.

Contributions

"Texthero a été développé par un membre de la communauté PNLP pour toute la communité des PNL"

Texthero est pour nous tous les développeurs PNL et il peut continuer d'exister avec la précieuse contribution de la communauté.

Votre niveau d'expertise de Python et de PNL n'a pas d'importance, n'importe qui peut aider et n'importe qui est plus que bienvenu pour contribuer!

Êtes-vous un expert PNL?

Ouvrez un problème et dites-nous ce que vous aimez et n'aimez pas pour Texthero et ce que nous pouvons faire mieux!

Êtes-vous doué pour créer des sites Web?

Le site Web sera bientôt déplacé de Docusaurus à Sphinx: lisez le problème ouvert là-bas. Bonne nouvelle: le site Web ressemblera à maintenant :) NOUVELLES MOYENS: Nous devons faire un développement Web pour adapter ce modèle Sphinx à nos besoins. Pouvez-vous nous aider?

Êtes-vous doué pour écrire?

Ceci est probablement la pièce la plus importante manquante maintenant sur Textherro: plus de tutoriels et plus de guide "Getting Starting".

Si vous êtes doué pour écrire, vous pouvez nous aider! Pourquoi ne commencez-vous pas par ajouter une page FAQ au site Web ou expliquer comment créer un pipeline personnalisé? Besoin d'aide? Nous sommes là pour vous.

Êtes-vous bon à Python?

Il y a beaucoup de problèmes ouverts pour les gars techniques. Lequel choisissez-vous?

Si vous n'avez que d'autres questions ou enquête, envoyez-moi une ligne à Jonathanbesomi__at__gmail.com

Contributeurs (dans l'ordre chronologique)

Selim Al Awwa
Parth Gandhi
Dan Keefe
Claus chrétien
bobfang1992
Ishan Arora
Vidya p
Cedric conol
Rich Ramalho

Licence

La licence du MIT (MIT)

L'autorisation est accordée gratuitement à toute personne qui obtient une copie de ce logiciel et des fichiers de documentation associés (le "logiciel"), pour traiter le logiciel sans restriction, y compris sans limiter les droits d'utilisation, de copie, de modification, de fusion, de publication, de distribution, de sublince et / ou de vendre des copies des conditions suivantes.

L'avis de droit d'auteur ci-dessus et le présent avis d'autorisation sont inclus dans toutes les copies ou des parties substantielles du logiciel.

Le logiciel est fourni "tel quel", sans garantie d'aucune sorte, express ou implicite, y compris, mais sans s'y limiter, les garanties de qualité marchande, d'adéquation à un usage particulier et de non-contrefaçon. En aucun cas, les auteurs ou les détenteurs de droits d'auteur ne seront pas responsables de toute réclamation, dommage ou autre responsabilité, que ce soit dans une action de contrat, de délit ou autre, découlant de, hors du logiciel ou de l'utilisation ou d'autres relations dans le logiciel.

Développer

Informations supplémentaires

Version Version 1.1.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 22.89MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout