import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : object删除所有数字:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : object删除数字仅替换数字块。字符串“ Hello123”中的数字将不会删除。如果要删除所有数字,则需要将_blocks设置为false。
删除所有类型的括号及其内容。
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : object删除变音符。
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : object删除标点符号。
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object删除额外的白色空间。
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object有时我们也想摆脱暂停字。
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object TexThero由四个模块组成:Preprocessing.py,nlp.py,表示py and Visualization.py。
范围:准备文本数据以进行进一步分析。
完整文档:预处理
范围:提供经典的自然语言处理工具,例如named_entity和noun_phrases 。
完整文档:NLP
范围:将文本数据映射到向量并减少维度。
支持的表示算法:
count )tfidf )支持的聚类算法:
kmeans )dbscan )meanshift )支持的维度降低算法:
pca )tsne )nmf )完整文档:表示
范围:总结有关文本数据的主要事实并将其可视化。这个模块是可以看见的。对于需要快速解决方案来在屏幕上可视化文本数据的任何人,例如在文本探索性数据分析(EDA)中,这很方便。
支持的功能:
scatterplot )top_words )完整文档:可视化
有时我们只想做事,对吗? Texthero帮助了这一点。它有助于使事情变得更轻松,并使开发人员有更多时间专注于他的自定义要求。我们认为,清洁文本应该花一分钟。找到文本中最重要的部分,而代表文本则相同。
Texthero以非常务实的方式只有一个目标:使开发人员的业余时间。处理文本数据可能会很痛苦,在大多数情况下,默认管道的启动可能非常好。总有时间回来改善以前的工作。
“ Texthero是由NLP社区成员开发的,用于整个NLP社区”
Texthero适合我们所有人的NLP开发人员,社区的宝贵贡献可以继续存在。
您对Python和NLP的专业水平并不重要,任何人都可以提供帮助,任何人都非常欢迎任何贡献!
您是NLP专家吗?
您擅长创建网站吗?
该网站将很快从Docusaurus转移到Sphinx:阅读那里的开发问题。好消息:该网站看起来像现在这样:)普通新闻:我们需要进行一些网络开发,以使此狮身人面像的模板适应我们的需求。你能帮我们吗?
你擅长写作吗?
这可能是TexThero上现在最重要的作品:更多的教程和更多的“入门”指南。
如果您擅长写作,可以帮助我们!您为什么不首先向网站添加常见问题页面或说明如何创建自定义管道?需要帮助吗?我们在那里为您服务。
你在python上很好吗?
对于技术人员来说,有很多开放问题。您选择哪一个?
如果您只有其他问题或询问,请在Jonathanbesomi__at__gmail.com上给我一条线
麻省理工学院许可证(MIT)
版权(C)2020 Texthero
特此免费授予获得此软件副本和相关文档文件副本(“软件”)的任何人,以无限制处理该软件,包括无限制的使用权,复制,复制,修改,合并,合并,发布,分发,分发,分发,订婚,和/或允许软件的副本,并允许对以下条件提供以下条件,以下是以下条件。
上述版权通知和此许可通知应包含在软件的所有副本或大量部分中。
该软件是“原样”提供的,没有任何形式的明示或暗示保证,包括但不限于适销性,特定目的的适用性和非侵权的保证。在任何情况下,作者或版权持有人均不应对任何索赔,损害赔偿或其他责任责任,无论是在合同,侵权的诉讼中还是其他索赔,与软件或使用或其他软件中的使用或其他交易有关。