texthero下載 - texthero源代碼下載

texthero

其他源碼

Version 1.1.0

下載

2。文本預處理，tf-idf，k均值和可視化

 import texthero as hero
import pandas as pd

df = pd . read_csv (
    "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df [ 'tfidf' ] = (
    df [ 'text' ]
    . pipe ( hero . clean )
    . pipe ( hero . tfidf )
)

df [ 'kmeans_labels' ] = (
    df [ 'tfidf' ]
    . pipe ( hero . kmeans , n_clusters = 5 )
    . astype ( str )
)

df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )

hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" )

3。簡單的文本清潔管道

 > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé    (123 /) needs to [OK!] be cleaned!   "
> >> s = pd . Series ( text )
> >> s
0    This sèntencé    ( 123 / ) needs to [ OK !] be cleane ...
dtype : object

刪除所有數字：

 > >> s = hero . remove_digits ( s )
> >> s
0    This sèntencé    (  / ) needs to [ OK !] be cleaned !
dtype : object

刪除數字僅替換數字塊。字符串“ Hello123”中的數字將不會刪除。如果要刪除所有數字，則需要將_blocks設置為false。

刪除所有類型的括號及其內容。

 > >> s = hero . remove_brackets ( s )
> >> s 
0    This sèntencé    needs to  be cleaned !
dtype : object

刪除變音符。

 > >> s = hero . remove_diacritics ( s )
> >> s 
0    This sentence    needs to  be cleaned !
dtype : object

刪除標點符號。

 > >> s = hero . remove_punctuation ( s )
> >> s 
0    This sentence    needs to  be cleaned
dtype : object

刪除額外的白色空間。

 > >> s = hero . remove_whitespace ( s )
> >> s 
0    This sentence needs to be cleaned
dtype : object

有時我們也想擺脫暫停字。

 > >> s = hero . remove_stopwords ( s )
> >> s
0    This sentence needs cleaned
dtype : object

API

TexThero由四個模塊組成：Preprocessing.py，nlp.py，表示py and Visualization.py。

1。預處理

範圍：準備文本數據以進行進一步分析。

完整文檔：預處理

2。 NLP

範圍：提供經典的自然語言處理工具，例如named_entity和noun_phrases 。

完整文檔：NLP

2。表示

範圍：將文本數據映射到向量並減少維度。

支持的表示算法：

術語頻率（ count ）
術語頻率文檔頻率（ tfidf ）

支持的聚類算法：

K-均值（ kmeans ）
具有噪聲的應用的基於密度的空間聚類（ dbscan ）
刻薄（ meanshift ）

支持的維度降低算法：

主成分分析（ pca ）
T分佈的隨機鄰居嵌入（ tsne ）
非負基質分解（ nmf ）

完整文檔：表示

3。可視化

範圍：總結有關文本數據的主要事實並將其可視化。這個模塊是可以看見的。對於需要快速解決方案來在屏幕上可視化文本數據的任何人，例如在文本探索性數據分析（EDA）中，這很方便。

支持的功能：

文本散點圖（ scatterplot ）
最常見的單詞（ top_words ）

完整文檔：可視化

常問問題

為什麼要特斯托羅

有時我們只想做事，對嗎？ Texthero幫助了這一點。它有助於使事情變得更輕鬆，並使開發人員有更多時間專注於他的自定義要求。我們認為，清潔文本應該花一分鐘。找到文本中最重要的部分，而代表文本則相同。

Texthero以非常務實的方式只有一個目標：使開發人員的業餘時間。處理文本數據可能會很痛苦，在大多數情況下，默認管道的啟動可能非常好。總有時間回來改善以前的工作。

貢獻

“ Texthero是由NLP社區成員開發的，用於整個NLP社區”

Texthero適合我們所有人的NLP開發人員，社區的寶貴貢獻可以繼續存在。

您對Python和NLP的專業水平並不重要，任何人都可以提供幫助，任何人都非常歡迎任何貢獻！

您是NLP專家嗎？

打開一個問題，告訴我們您對Texthero的喜歡和不喜歡，以及我們可以做得更好！

您擅長創建網站嗎？

該網站將很快從Docusaurus轉移到Sphinx：閱讀那裡的開發問題。好消息：該網站看起來像現在這樣：)普通新聞：我們需要進行一些網絡開發，以使此獅身人面像的模板適應我們的需求。你能幫我們嗎？

你擅長寫作嗎？

這可能是TexThero上現在最重要的作品：更多的教程和更多的“入門”指南。

如果您擅長寫作，可以幫助我們！您為什麼不首先向網站添加常見問題頁面或說明如何創建自定義管道？需要幫助嗎？我們在那里為您服務。

你在python上很好嗎？

對於技術人員來說，有很多開放問題。您選擇哪一個？

如果您只有其他問題或詢問，請在Jonathanbesomi__at__gmail.com上給我一條線

貢獻者（按時間順序排列）

Selim al Awwa
帕斯·甘地（Parth Gandhi）
丹·基夫（Dan Keefe）
克里斯蒂安·克勞斯（Christian Claus）
Bobfang1992
Ishan Arora
Vidya p
塞德里克錐
Rich Ramalho

執照

麻省理工學院許可證（MIT）

版權（C）2020 Texthero

特此免費授予獲得此軟件副本和相關文檔文件副本（“軟件”）的任何人，以無限制處理該軟件，包括無限制的使用權，複製，複製，修改，合併，合併，發布，分發，分發，分發，訂婚，和/或允許軟件的副本，並允許對以下條件提供以下條件，以下是以下條件。

上述版權通知和此許可通知應包含在軟件的所有副本或大量部分中。

該軟件是“原樣”提供的，沒有任何形式的明示或暗示保證，包括但不限於適銷性，特定目的的適用性和非侵權的保證。在任何情況下，作者或版權持有人都不應對任何索賠，損害賠償或其他責任責任，無論是在合同，侵權的訴訟中還是其他責任，是由軟件，使用或與軟件中的使用或其他交易有關的。

展開

附加信息

版本 Version 1.1.0
類型其他源碼
更新時間 2025-04-16
大小 22.89MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部