Texte: NLP vor und nach Spacy
textacy ist eine Python-Bibliothek für die Ausführung einer Vielzahl von NLP-Aufgaben (Natural Language Processing), die auf der Hochleistungs-Spacy-Bibliothek basieren. Mit den Grundlagen-Tokenisierung, Speech-Tagging, Abhängigkeitsanalyse usw.-konzentriert sich textacy in erster Linie auf die vor und folgenen Aufgaben.
Merkmale
- Zugriff und erweitern die Kernfunktionalität von Spacy für die Arbeit mit einem oder vielen Dokumenten durch bequeme Methoden und benutzerdefinierte Erweiterungen
- Laden Sie vorbereitete Datensätze mit Textinhalten und Metadaten, von Kongressreden über historische Literatur bis hin zu Reddit -Kommentaren
- Reinigen, normalisieren und erforschen Sie Rohtext, bevor Sie ihn mit Spacy verarbeiten
- Extrahieren strukturierte Informationen aus verarbeiteten Dokumenten, einschließlich N-Gramm, Entitäten, Akronymen, Keyterms und SVO-Tripel
- Vergleichen Sie Zeichenfolgen und Sequenzen mithilfe einer Vielzahl von Ähnlichkeitsmetriken
- Dokumente tokenisieren und vektorisieren und dann Themenmodelle trainieren, interpretieren und visualisieren
- Berechnen Sie die Lesbarkeit der Text und die statistik der lexikalischen Diversität, einschließlich Flesch-Kincaid-Klassenstufe, mehrsprachiger Flesch-Leselement und Typenverhältnis
... und noch viel mehr!
Links
- Download: https://pypi.org/project/textacy
- Dokumentation: https://textacy.readthedocs.io
- Quellcode: https://github.com/chartbeat-labs/textacy
- Fehler-Tracker: https://github.com/chartbeat-labs/textacy/issues
Betreuer
Grüß dich, ihr alle.