texthero 다운로드 - texthero 소스 코드 다운로드

texthero

기타 소스코드

Version 1.1.0

다운로드

2. 텍스트 전처리, TF-IDF, K-MEANS 및 시각화

 import texthero as hero
import pandas as pd

df = pd . read_csv (
    "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df [ 'tfidf' ] = (
    df [ 'text' ]
    . pipe ( hero . clean )
    . pipe ( hero . tfidf )
)

df [ 'kmeans_labels' ] = (
    df [ 'tfidf' ]
    . pipe ( hero . kmeans , n_clusters = 5 )
    . astype ( str )
)

df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )

hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" )

3. 텍스트 청소를위한 간단한 파이프 라인

 > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé    (123 /) needs to [OK!] be cleaned!   "
> >> s = pd . Series ( text )
> >> s
0    This sèntencé    ( 123 / ) needs to [ OK !] be cleane ...
dtype : object

모든 숫자를 제거하십시오.

 > >> s = hero . remove_digits ( s )
> >> s
0    This sèntencé    (  / ) needs to [ OK !] be cleaned !
dtype : object

숫자를 제거하면 숫자 블록 만 교체합니다. 문자열 "hello123"의 숫자는 제거되지 않습니다. 모든 자릿수를 제거하려면 onse_blocks를 false로 설정해야합니다.

모든 유형의 괄호와 콘텐츠를 제거하십시오.

 > >> s = hero . remove_brackets ( s )
> >> s 
0    This sèntencé    needs to  be cleaned !
dtype : object

디아크리닉을 제거하십시오.

 > >> s = hero . remove_diacritics ( s )
> >> s 
0    This sentence    needs to  be cleaned !
dtype : object

구두점을 제거하십시오.

 > >> s = hero . remove_punctuation ( s )
> >> s 
0    This sentence    needs to  be cleaned
dtype : object

여분의 흰색 공간을 제거하십시오.

 > >> s = hero . remove_whitespace ( s )
> >> s 
0    This sentence needs to be cleaned
dtype : object

때때로 우리는 또한 스톱 단어를 제거하고 싶습니다.

 > >> s = hero . remove_stopwords ( s )
> >> s
0    This sentence needs cleaned
dtype : object

API

Texthero는 Preprocessing.py, nlp.py, epractication.py 및 visualization.py의 네 가지 모듈로 구성됩니다.

1. 전처리

범위 : 추가 분석을 위해 텍스트 데이터를 준비하십시오.

전체 문서 : 전처리

2. NLP

범위 : named_entity 및 noun_phrases 와 같은 고전적인 자연어 처리 도구를 제공합니다.

전체 문서 : NLP

2. 표현

범위 : 텍스트 데이터를 벡터에 매핑하고 차원 감소를 수행합니다.

지원되는 표현 알고리즘 :

기간 주파수 ( count )
기기 주파수 내부 문서 주파수 ( tfidf )

지원되는 클러스터링 알고리즘 :

K- 평균 ( kmeans )
노이즈가있는 응용 분야의 밀도 기반 공간 클러스터 ( dbscan )
MeanShift ( meanshift )

지원 차원 감소 알고리즘 :

주요 구성 요소 분석 ( pca )
T- 분배 된 확률 론적 인 이웃 임베딩 ( tsne )
비 음성 매트릭스 인수화 ( nmf )

전체 문서 : 표현

3. 시각화

범위 : 텍스트 데이터에 관한 주요 사실을 요약하고 시각화하십시오. 이 모듈은 의견이 있습니다. 예를 들어 텍스트 탐색 데이터 분석 (EDA)에서 텍스트 데이터를 화면에서 시각화하기 위해 빠른 솔루션이 필요한 사람에게 편리합니다.

지원되는 기능 :

Text ScatterPlot ( scatterplot )
가장 일반적인 단어 ( top_words )

전체 문서 : 시각화

FAQ

왜 텍스테로

때때로 우리는 단지 일을 원합니다. Texthero는 그것에 도움이됩니다. 그것은 일을 더 쉽게 만들고 개발자에게 자신의 맞춤형 요구 사항에 더 집중할 수있는 시간을 제공하는 데 도움이됩니다. 우리는 텍스트를 청소하는 데 1 분이 걸리면됩니다. 텍스트의 가장 중요한 부분을 찾는 것도 동일하며 텍스트를 나타내는 것도 마찬가지입니다.

매우 실용적인 방식으로 Texthero는 개발자의 여가 시간을 만드는 한 가지 목표를 가지고 있습니다. 텍스트 데이터로 작업하는 것은 고통 일 수 있으며 대부분의 경우 기본 파이프 라인을 시작하는 것이 좋습니다. 항상 돌아와서 이전 작업을 개선 할 시간이 있습니다.

기여

"Texthero는 NLP 커뮤니티의 회원이 NLP 커뮤니티 전체를 위해 개발했습니다."

Texthero는 우리 모두 NLP 개발자를위한 것이며 커뮤니티의 귀중한 기여로 계속 존재할 수 있습니다.

Python과 NLP의 전문 지식 수준은 중요하지 않습니다. 누구나 도울 수 있으며 누구나 기여하는 것을 환영합니다!

당신은 NLP 전문가입니까?

문제를 열고 Texthero를 좋아하고 싫어하는 것과 우리가 더 잘 할 수있는 일을 알려주십시오!

웹 사이트를 만드는 데 능숙합니까?

웹 사이트는 곧 Docusaurus에서 Sphinx로 이동됩니다. 열린 문제를 읽으십시오. 좋은 소식 : 웹 사이트는 지금처럼 보일 것입니다 :) 평균 뉴스 : 우리는이 스핑크스 템플릿을 우리의 요구에 맞게 조정하기 위해 웹 개발을 수행해야합니다. 우리를 도울 수 있습니까?

당신은 글쓰기를 잘합니까?

아마도 이것은 Texthero에서 지금 누락 된 가장 중요한 작품 일 것입니다 : 더 많은 튜토리얼과 더 많은 "시작"가이드.

당신이 글을 잘한다면 우리를 도울 수 있습니다! 웹 사이트에 FAQ 페이지를 추가하거나 사용자 정의 파이프 라인을 만드는 방법을 설명하는 것으로 시작하지 않겠습니까? 도움이 필요하십니까? 우리는 당신을 위해 있습니다.

당신은 파이썬에서 잘합니까?

기술자들에게는 많은 열린 문제가 있습니다. 어느 것을 선택합니까?

다른 질문이나 문의 만 있으면 Jonathanbesomi __at__gmail.com에서 줄을 그려주세요.

기고자 (연대순으로)

Selim al Awwa
Parth Gandhi
Dan Keefe
기독교 클로스
Bobfang1992
이한 아로라
Vidya p
세드릭 코놀
풍부한 라말 호

특허

MIT 라이센스 (MIT)

이에 따라이 소프트웨어 및 관련 문서 파일 ( "소프트웨어")의 사본을 얻는 사람에게는 허가가 부여됩니다. 소프트웨어의 사용, 복사, 수정, 합병, 배포, 배포, 하위성 및/또는 소프트웨어가 소프트웨어를 판매 할 권한을 포함하여 제한없이 소프트웨어를 처리 할 수 있도록 소프트웨어를 제공 할 권한이 없습니다.

이 소프트웨어는 상업성, 특정 목적에 대한 적합성 및 비 침해에 대한 보증을 포함하여 명시 적 또는 묵시적 보증없이 "그대로"제공됩니다. 어떠한 경우에도 저자 또는 저작권 보유자는 계약, 불법 행위 또는 기타, 소프트웨어 또는 소프트웨어의 사용 또는 기타 거래에서 발생하는 계약, 불법 행위 또는 기타의 행동에 관계없이 청구, 손해 또는 기타 책임에 대해 책임을지지 않아야합니다.

확장하다

추가 정보