import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : object모든 숫자를 제거하십시오.
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : object숫자를 제거하면 숫자 블록 만 교체합니다. 문자열 "hello123"의 숫자는 제거되지 않습니다. 모든 자릿수를 제거하려면 onse_blocks를 false로 설정해야합니다.
모든 유형의 괄호와 콘텐츠를 제거하십시오.
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : object디아크리닉을 제거하십시오.
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : object구두점을 제거하십시오.
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object여분의 흰색 공간을 제거하십시오.
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object때때로 우리는 또한 스톱 단어를 제거하고 싶습니다.
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object Texthero는 Preprocessing.py, nlp.py, epractication.py 및 visualization.py의 네 가지 모듈로 구성됩니다.
범위 : 추가 분석을 위해 텍스트 데이터를 준비하십시오.
전체 문서 : 전처리
범위 : named_entity 및 noun_phrases 와 같은 고전적인 자연어 처리 도구를 제공합니다.
전체 문서 : NLP
범위 : 텍스트 데이터를 벡터에 매핑하고 차원 감소를 수행합니다.
지원되는 표현 알고리즘 :
count )tfidf )지원되는 클러스터링 알고리즘 :
kmeans )dbscan )meanshift )지원 차원 감소 알고리즘 :
pca )tsne )nmf )전체 문서 : 표현
범위 : 텍스트 데이터에 관한 주요 사실을 요약하고 시각화하십시오. 이 모듈은 의견이 있습니다. 예를 들어 텍스트 탐색 데이터 분석 (EDA)에서 텍스트 데이터를 화면에서 시각화하기 위해 빠른 솔루션이 필요한 사람에게 편리합니다.
지원되는 기능 :
scatterplot )top_words )전체 문서 : 시각화
때때로 우리는 단지 일을 원합니다. Texthero는 그것에 도움이됩니다. 그것은 일을 더 쉽게 만들고 개발자에게 자신의 맞춤형 요구 사항에 더 집중할 수있는 시간을 제공하는 데 도움이됩니다. 우리는 텍스트를 청소하는 데 1 분이 걸리면됩니다. 텍스트의 가장 중요한 부분을 찾는 것도 동일하며 텍스트를 나타내는 것도 마찬가지입니다.
매우 실용적인 방식으로 Texthero는 개발자의 여가 시간을 만드는 한 가지 목표를 가지고 있습니다. 텍스트 데이터로 작업하는 것은 고통 일 수 있으며 대부분의 경우 기본 파이프 라인을 시작하는 것이 좋습니다. 항상 돌아와서 이전 작업을 개선 할 시간이 있습니다.
"Texthero는 NLP 커뮤니티의 회원이 NLP 커뮤니티 전체를 위해 개발했습니다."
Texthero는 우리 모두 NLP 개발자를위한 것이며 커뮤니티의 귀중한 기여로 계속 존재할 수 있습니다.
Python과 NLP의 전문 지식 수준은 중요하지 않습니다. 누구나 도울 수 있으며 누구나 기여하는 것을 환영합니다!
당신은 NLP 전문가입니까?
웹 사이트를 만드는 데 능숙합니까?
웹 사이트는 곧 Docusaurus에서 Sphinx로 이동됩니다. 열린 문제를 읽으십시오. 좋은 소식 : 웹 사이트는 지금처럼 보일 것입니다 :) 평균 뉴스 : 우리는이 스핑크스 템플릿을 우리의 요구에 맞게 조정하기 위해 웹 개발을 수행해야합니다. 우리를 도울 수 있습니까?
당신은 글쓰기를 잘합니까?
아마도 이것은 Texthero에서 지금 누락 된 가장 중요한 작품 일 것입니다 : 더 많은 튜토리얼과 더 많은 "시작"가이드.
당신이 글을 잘한다면 우리를 도울 수 있습니다! 웹 사이트에 FAQ 페이지를 추가하거나 사용자 정의 파이프 라인을 만드는 방법을 설명하는 것으로 시작하지 않겠습니까? 도움이 필요하십니까? 우리는 당신을 위해 있습니다.
당신은 파이썬에서 잘합니까?
기술자들에게는 많은 열린 문제가 있습니다. 어느 것을 선택합니까?
다른 질문이나 문의 만 있으면 Jonathanbesomi __at__gmail.com에서 줄을 그려주세요.
MIT 라이센스 (MIT)
저작권 (C) 2020 Texthero
이에 따라이 소프트웨어 및 관련 문서 파일 ( "소프트웨어")의 사본을 얻는 사람에게는 허가가 부여됩니다. 소프트웨어의 사용, 복사, 수정, 합병, 배포, 배포, 하위성 및/또는 소프트웨어가 소프트웨어를 판매 할 권한을 포함하여 제한없이 소프트웨어를 처리 할 수 있도록 소프트웨어를 제공 할 권한이 없습니다.
위의 저작권 통지 및이 권한 통지는 소프트웨어의 모든 사본 또는 실질적인 부분에 포함되어야합니다.
이 소프트웨어는 상업성, 특정 목적에 대한 적합성 및 비 침해에 대한 보증을 포함하여 명시 적 또는 묵시적 보증없이 "그대로"제공됩니다. 어떠한 경우에도 저자 또는 저작권 보유자는 계약, 불법 행위 또는 기타, 소프트웨어 또는 소프트웨어의 사용 또는 기타 거래에서 발생하는 계약, 불법 행위 또는 기타의 행동에 관계없이 청구, 손해 또는 기타 책임에 대해 책임을지지 않아야합니다.