텍스트 성 : Spacy 전후 NLP
textacy 는 고성능 스파크 라이브러리를 기반으로하는 다양한 자연 언어 처리 (NLP) 작업을 수행하기위한 파이썬 라이브러리입니다. 기본 사항 --- 토큰 화, 부품 태그 태깅, 종속성 구문 분석 등 --- 다른 라이브러리에 위임 된 textacy 주로 이전에 오는 작업에 중점을 둡니다.
특징
- 편리한 방법 및 사용자 정의 확장을 통해 하나 이상의 문서로 작업하기위한 Spacy의 핵심 기능에 액세스하고 확장하십시오.
- 의회 연설에서 역사적 문학에 이르기까지 텍스트 내용과 메타 데이터가 포함 된 준비된 데이터 세트로드
- Spacy로 처리하기 전에 원시 텍스트를 깨끗하게하고 정상화하고 탐색하십시오.
- N-Grams, 엔티티, 약어, 키터름 및 SVO 트리플을 포함한 처리 된 문서에서 구조화 된 정보 추출
- 다양한 유사성 메트릭을 사용하여 문자열과 시퀀스 비교
- 문서를 토큰 화하고 벡터화 한 다음 주제 모델을 교육, 해석 및 시각화합니다.
- Flesch-Kincaid 학년 수준, 다국어 Flesch Reading Ease 및 Type-Token 비율을 포함한 텍스트 가독성 및 어휘 다양성 통계를 계산합니다.
... 그리고 훨씬 더!
모래밭
- 다운로드 : https://pypi.org/project/textacy
- 문서 : https://textacy.readthedocs.io
- 소스 코드 : https://github.com/chartbeat-labs/textacy
- 버그 추적기 : https://github.com/chartbeat-labs/textacy/issues
관리자
Howdy, 모두.