Textacy: NLP, antes e depois da Spacy
textacy é uma biblioteca Python para executar uma variedade de tarefas de processamento de linguagem natural (PNL), construída na biblioteca de espaciais de alto desempenho. Com os fundamentos --- tokenização, marcação de parte da fala, análise de dependência etc.--Delegada a outra biblioteca, textacy se concentra principalmente nas tarefas que vêm antes e seguem depois.
características
- Acesse e estenda a funcionalidade principal da Spacy para trabalhar com um ou muitos documentos através de métodos convenientes e extensões personalizadas
- Carregar conjuntos de dados preparados com conteúdo de texto e metadados, de discursos do congresso à literatura histórica e comentários do Reddit
- Limpe, normalize e explore o texto bruto antes de processá -lo com spacy
- Extraia informações estruturadas de documentos processados, incluindo n gramas, entidades, acrônimos, teclados e triplos SVO
- Compare strings e sequências usando uma variedade de métricas de similaridade
- Tokenize e vetorize documentos e treine, interprete e visualize modelos de tópicos
- Calcule a legibilidade do texto e as estatísticas de diversidade lexical, incluindo nível de nível de Flesch-Kincaid, facilidade de leitura multilíngue de Flesch e taxa de tipo-token
... e muito mais!
links
- Download: https://pypi.org/project/textacy
- Documentação: https://textacy.readthedocs.io
- Código fonte: https://github.com/Chartbeat-Labs/textacy
- Rastreador de bug: https://github.com/chartbeat-labs/textacy/issues
mantenedor
Olá, pessoal.