Téléchargement textacy - Téléchargement du code source textacy

textacy

Autre code source

packaging upgrades, faster language id, bug fixes

Télécharger

Texté: NLP, avant et après Spacy

textacy est une bibliothèque Python pour effectuer une variété de tâches de traitement du langage naturel (NLP), construites sur la bibliothèque spacy haute performance. Avec les principes fondamentaux --- Tokenisation, le marquage d'une partie du discours, l'analyse de dépendance, etc. --- Délégué à une autre bibliothèque, textacy se concentre principalement sur les tâches qui ont précédé et suivent après.

caractéristiques

Accédez et étendez les fonctionnalités de base de Spacy pour travailler avec un ou plusieurs documents grâce à des méthodes pratiques et des extensions personnalisées
Chargez des ensembles de données préparés avec du contenu texte et des métadonnées, des discours du Congrès à la littérature historique aux commentaires de Reddit
Nettoyez, normalisez et explorez le texte brut avant de le traiter avec Spacy
Extraire des informations structurées à partir de documents traités, y compris des n-grammes, des entités, des acronymes, des clés et des triplets SVO
Comparez les chaînes et les séquences en utilisant une variété de mesures de similitude
Tokenize et vectorisation des documents puis former, interpréter et visualiser les modèles de sujet
Calculez la lisibilité au texte et les statistiques de la diversité lexicale, y compris le niveau scolaire de Flesch-Kincaid, la facilité de lecture de Flesch multilingue et le rapport type de type

... et bien plus encore!