texthero下载 - texthero源代码下载

texthero

其他源码

Version 1.1.0

下载

2。文本预处理，tf-idf，k均值和可视化

 import texthero as hero
import pandas as pd

df = pd . read_csv (
    "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df [ 'tfidf' ] = (
    df [ 'text' ]
    . pipe ( hero . clean )
    . pipe ( hero . tfidf )
)

df [ 'kmeans_labels' ] = (
    df [ 'tfidf' ]
    . pipe ( hero . kmeans , n_clusters = 5 )
    . astype ( str )
)

df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )

hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" )

3。简单的文本清洁管道

 > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé    (123 /) needs to [OK!] be cleaned!   "
> >> s = pd . Series ( text )
> >> s
0    This sèntencé    ( 123 / ) needs to [ OK !] be cleane ...
dtype : object

删除所有数字：

 > >> s = hero . remove_digits ( s )
> >> s
0    This sèntencé    (  / ) needs to [ OK !] be cleaned !
dtype : object

删除数字仅替换数字块。字符串“ Hello123”中的数字将不会删除。如果要删除所有数字，则需要将_blocks设置为false。

删除所有类型的括号及其内容。

 > >> s = hero . remove_brackets ( s )
> >> s 
0    This sèntencé    needs to  be cleaned !
dtype : object

删除变音符。

 > >> s = hero . remove_diacritics ( s )
> >> s 
0    This sentence    needs to  be cleaned !
dtype : object

删除标点符号。

 > >> s = hero . remove_punctuation ( s )
> >> s 
0    This sentence    needs to  be cleaned
dtype : object

删除额外的白色空间。

 > >> s = hero . remove_whitespace ( s )
> >> s 
0    This sentence needs to be cleaned
dtype : object

有时我们也想摆脱暂停字。

 > >> s = hero . remove_stopwords ( s )
> >> s
0    This sentence needs cleaned
dtype : object

API

TexThero由四个模块组成：Preprocessing.py，nlp.py，表示py and Visualization.py。

1。预处理

范围：准备文本数据以进行进一步分析。

完整文档：预处理

2。NLP

范围：提供经典的自然语言处理工具，例如named_entity和noun_phrases 。

完整文档：NLP

2。表示

范围：将文本数据映射到向量并减少维度。

支持的表示算法：

术语频率（ count ）
术语频率文档频率（ tfidf ）

支持的聚类算法：

K-均值（ kmeans ）
具有噪声的应用的基于密度的空间聚类（ dbscan ）
刻薄（ meanshift ）

支持的维度降低算法：

主成分分析（ pca ）
T分布的随机邻居嵌入（ tsne ）
非负基质分解（ nmf ）

完整文档：表示

3。可视化

范围：总结有关文本数据的主要事实并将其可视化。这个模块是可以看见的。对于需要快速解决方案来在屏幕上可视化文本数据的任何人，例如在文本探索性数据分析（EDA）中，这很方便。

支持的功能：

文本散点图（ scatterplot ）
最常见的单词（ top_words ）

完整文档：可视化

常问问题

为什么要特斯托罗

有时我们只想做事，对吗？ Texthero帮助了这一点。它有助于使事情变得更轻松，并使开发人员有更多时间专注于他的自定义要求。我们认为，清洁文本应该花一分钟。找到文本中最重要的部分，而代表文本则相同。

Texthero以非常务实的方式只有一个目标：使开发人员的业余时间。处理文本数据可能会很痛苦，在大多数情况下，默认管道的启动可能非常好。总有时间回来改善以前的工作。

贡献

“ Texthero是由NLP社区成员开发的，用于整个NLP社区”

Texthero适合我们所有人的NLP开发人员，社区的宝贵贡献可以继续存在。

您对Python和NLP的专业水平并不重要，任何人都可以提供帮助，任何人都非常欢迎任何贡献！

您是NLP专家吗？

打开一个问题，告诉我们您对Texthero的喜欢和不喜欢，以及我们可以做得更好！

您擅长创建网站吗？

该网站将很快从Docusaurus转移到Sphinx：阅读那里的开发问题。好消息：该网站看起来像现在这样：)普通新闻：我们需要进行一些网络开发，以使此狮身人面像的模板适应我们的需求。你能帮我们吗？

你擅长写作吗？

这可能是TexThero上现在最重要的作品：更多的教程和更多的“入门”指南。

如果您擅长写作，可以帮助我们！您为什么不首先向网站添加常见问题页面或说明如何创建自定义管道？需要帮助吗？我们在那里为您服务。

你在python上很好吗？

对于技术人员来说，有很多开放问题。您选择哪一个？

如果您只有其他问题或询问，请在Jonathanbesomi__at__gmail.com上给我一条线

贡献者（按时间顺序排列）

Selim al Awwa
帕斯·甘地（Parth Gandhi）
丹·基夫（Dan Keefe）
克里斯蒂安·克劳斯（Christian Claus）
Bobfang1992
Ishan Arora
Vidya p
塞德里克锥
Rich Ramalho

执照

麻省理工学院许可证（MIT）

版权（C）2020 Texthero

特此免费授予获得此软件副本和相关文档文件副本（“软件”）的任何人，以无限制处理该软件，包括无限制的使用权，复制，复制，修改，合并，合并，发布，分发，分发，分发，订婚，和/或允许软件的副本，并允许对以下条件提供以下条件，以下是以下条件。

上述版权通知和此许可通知应包含在软件的所有副本或大量部分中。

该软件是“原样”提供的，没有任何形式的明示或暗示保证，包括但不限于适销性，特定目的的适用性和非侵权的保证。在任何情况下，作者或版权持有人均不应对任何索赔，损害赔偿或其他责任责任，无论是在合同，侵权的诉讼中还是其他索赔，与软件或使用或其他软件中的使用或其他交易有关。

展开

附加信息

版本 Version 1.1.0
类型其他源码
更新时间 2025-04-16
大小 22.89MB
来自于 Github

texthero

2。文本预处理，tf-idf，k均值和可视化

3。简单的文本清洁管道

API

1。预处理

2。NLP

2。表示

3。可视化

常问问题

为什么要特斯托罗

贡献

贡献者（按时间顺序排列）

执照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express