import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : object刪除所有數字:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : object刪除數字僅替換數字塊。字符串“ Hello123”中的數字將不會刪除。如果要刪除所有數字,則需要將_blocks設置為false。
刪除所有類型的括號及其內容。
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : object刪除變音符。
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : object刪除標點符號。
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object刪除額外的白色空間。
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object有時我們也想擺脫暫停字。
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object TexThero由四個模塊組成:Preprocessing.py,nlp.py,表示py and Visualization.py。
範圍:準備文本數據以進行進一步分析。
完整文檔:預處理
範圍:提供經典的自然語言處理工具,例如named_entity和noun_phrases 。
完整文檔:NLP
範圍:將文本數據映射到向量並減少維度。
支持的表示算法:
count )tfidf )支持的聚類算法:
kmeans )dbscan )meanshift )支持的維度降低算法:
pca )tsne )nmf )完整文檔:表示
範圍:總結有關文本數據的主要事實並將其可視化。這個模塊是可以看見的。對於需要快速解決方案來在屏幕上可視化文本數據的任何人,例如在文本探索性數據分析(EDA)中,這很方便。
支持的功能:
scatterplot )top_words )完整文檔:可視化
有時我們只想做事,對嗎? Texthero幫助了這一點。它有助於使事情變得更輕鬆,並使開發人員有更多時間專注於他的自定義要求。我們認為,清潔文本應該花一分鐘。找到文本中最重要的部分,而代表文本則相同。
Texthero以非常務實的方式只有一個目標:使開發人員的業餘時間。處理文本數據可能會很痛苦,在大多數情況下,默認管道的啟動可能非常好。總有時間回來改善以前的工作。
“ Texthero是由NLP社區成員開發的,用於整個NLP社區”
Texthero適合我們所有人的NLP開發人員,社區的寶貴貢獻可以繼續存在。
您對Python和NLP的專業水平並不重要,任何人都可以提供幫助,任何人都非常歡迎任何貢獻!
您是NLP專家嗎?
您擅長創建網站嗎?
該網站將很快從Docusaurus轉移到Sphinx:閱讀那裡的開發問題。好消息:該網站看起來像現在這樣:)普通新聞:我們需要進行一些網絡開發,以使此獅身人面像的模板適應我們的需求。你能幫我們嗎?
你擅長寫作嗎?
這可能是TexThero上現在最重要的作品:更多的教程和更多的“入門”指南。
如果您擅長寫作,可以幫助我們!您為什麼不首先向網站添加常見問題頁面或說明如何創建自定義管道?需要幫助嗎?我們在那里為您服務。
你在python上很好嗎?
對於技術人員來說,有很多開放問題。您選擇哪一個?
如果您只有其他問題或詢問,請在Jonathanbesomi__at__gmail.com上給我一條線
麻省理工學院許可證(MIT)
版權(C)2020 Texthero
特此免費授予獲得此軟件副本和相關文檔文件副本(“軟件”)的任何人,以無限制處理該軟件,包括無限制的使用權,複製,複製,修改,合併,合併,發布,分發,分發,分發,訂婚,和/或允許軟件的副本,並允許對以下條件提供以下條件,以下是以下條件。
上述版權通知和此許可通知應包含在軟件的所有副本或大量部分中。
該軟件是“原樣”提供的,沒有任何形式的明示或暗示保證,包括但不限於適銷性,特定目的的適用性和非侵權的保證。在任何情況下,作者或版權持有人都不應對任何索賠,損害賠償或其他責任責任,無論是在合同,侵權的訴訟中還是其他責任,是由軟件,使用或與軟件中的使用或其他交易有關的。