Textacy: PNL, antes y después de Spacy
textacy es una biblioteca de Python para realizar una variedad de tareas de procesamiento del lenguaje natural (PNL), basadas en la biblioteca de Spacy de alto rendimiento. Con los fundamentos, la tokenización, el etiquetado de parte del voz, el análisis de dependencia, etc. --- delegado a otra biblioteca, textacy se centra principalmente en las tareas que vienen antes y siguen después.
características
- Acceder y extender la funcionalidad central de Spacy para trabajar con uno o muchos documentos a través de métodos convenientes y extensiones personalizadas
- Cargar conjuntos de datos preparados con contenido de texto y metadatos, desde discursos del Congreso hasta literatura histórica y comentarios de Reddit
- Limpiar, normalizar y explorar el texto sin procesar antes de procesarlo con Spacy
- Extraiga información estructurada de documentos procesados, incluidos N-Grams, entidades, acrónimos, Keyterms y SVO Triples
- Compare cadenas y secuencias utilizando una variedad de métricas de similitud
- Tokenizar y vectorizar documentos, luego capacitar, interpretar y visualizar modelos de temas
- Calcule la legibilidad del texto y las estadísticas de diversidad léxica, incluidos el nivel de grado de Flesch-Kincaid, la facilidad de lectura de Flesch multilingües y la relación tipo-token
... y mucho más!
campo de golf
- Descargar: https://pypi.org/project/textacy
- Documentación: https://textacy.readthedocs.io
- Código fuente: https://github.com/chartbeat-labs/textacy
- Bug Tracker: https://github.com/chartbeat-labs/textacy/issues
mantenedor
Hola, todos ustedes.