Texté: NLP, avant et après Spacy
textacy est une bibliothèque Python pour effectuer une variété de tâches de traitement du langage naturel (NLP), construites sur la bibliothèque spacy haute performance. Avec les principes fondamentaux --- Tokenisation, le marquage d'une partie du discours, l'analyse de dépendance, etc. --- Délégué à une autre bibliothèque, textacy se concentre principalement sur les tâches qui ont précédé et suivent après.
caractéristiques
- Accédez et étendez les fonctionnalités de base de Spacy pour travailler avec un ou plusieurs documents grâce à des méthodes pratiques et des extensions personnalisées
- Chargez des ensembles de données préparés avec du contenu texte et des métadonnées, des discours du Congrès à la littérature historique aux commentaires de Reddit
- Nettoyez, normalisez et explorez le texte brut avant de le traiter avec Spacy
- Extraire des informations structurées à partir de documents traités, y compris des n-grammes, des entités, des acronymes, des clés et des triplets SVO
- Comparez les chaînes et les séquences en utilisant une variété de mesures de similitude
- Tokenize et vectorisation des documents puis former, interpréter et visualiser les modèles de sujet
- Calculez la lisibilité au texte et les statistiques de la diversité lexicale, y compris le niveau scolaire de Flesch-Kincaid, la facilité de lecture de Flesch multilingue et le rapport type de type
... et bien plus encore!
links
- Télécharger: https://pypi.org/project/textacy
- Documentation: https://textacy.readthedocs.io
- Code source: https://github.com/chartbeat-labs/texty
- Bug Tracker: https://github.com/chartbeat-labs/textacy/issues
maintienneur
Howdy, vous tous.