Текстость: NLP, до и после Spacy
textacy -это библиотека Python для выполнения различных задач обработки естественного языка (NLP), построенных на высокопроизводительной библиотеке Spacy. С основами-токенами, частью тегации речи, диаграммой зависимости и т. Д. --- делегированная в другую библиотеку, textacy фокусируется в первую очередь на задачах, которые приходят раньше и следуют после.
функции
- Доступ и расширить основную функциональность Spacy для работы с одним или многими документами с помощью удобных методов и пользовательских расширений
- Загруженные наборы данных с содержимым текстовым и метаданным, от речей Конгресса до исторической литературы до комментариев Reddit
- Очистите, нормализуйте и изучите необработанный текст перед его обработкой с помощью Spacy
- Извлечение структурированной информации из обработанных документов, включая N-граммы, объекты, аббревиатуры, ключи и тройки SVO
- Сравните строки и последовательности, используя различные показатели сходства
- Токенизировать и векторизировать документы, а затем тренировать, интерпретировать и визуализировать тематические модели
- Статистика читаемости и лексического разнообразия вычислений, в том числе класс Flesch-Kincaid, многоязычное легкость чтения флиша и соотношение типов
... и многое другое!
ссылки
- Скачать: https://pypi.org/project/textacy
- Документация: https://textacy.readthedocs.io
- Исходный код: https://github.com/chartbeat-labs/textacy
- Трекер ошибок: https://github.com/chartbeat-labs/textacy/issues
сопровождающий
Привет, ты все.