import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : objectすべての数字を削除します:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : object数字を削除して、数字のブロックのみを置き換えます。文字列「hello123」の数字は削除されません。すべての数字を削除する場合は、falseに_blockのみを設定する必要があります。
すべての種類のブラケットとそのコンテンツを削除します。
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : objectディクリティックを削除します。
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : object句読点を削除します。
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : object余分な白いスペースを削除します。
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectまた、ストップワードを取り除きたい場合もあります。
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object Textheroは、Preprocessing.py、nlp.py、appressation.py、visualization.pyの4つのモジュールで構成されています。
範囲:さらに分析するためにテキストデータを準備します。
完全なドキュメント:前処理
範囲: named_entityやnoun_phrasesなどの古典的な自然言語処理ツールを提供します。
完全なドキュメント:NLP
範囲:テキストデータをベクトルにマップし、次元削減を行います。
サポートされている表現アルゴリズム:
count )tfidf )サポートされているクラスタリングアルゴリズム:
kmeans )dbscan )meanshift )サポートされている次元削減アルゴリズム:
pca )tsne )nmf )完全なドキュメント:表現
範囲:テキストデータに関する主な事実を要約し、視覚化します。このモジュールは意見があります。たとえば、テキスト探索データ分析(EDA)中に、テキストデータを画面上で視覚化するための迅速なソリューションを必要とする人にとっては便利です。
サポートされている機能:
scatterplot )top_words )完全なドキュメント:視覚化
時々私たちは物事をしたいだけですよね?テクセロはそれを助けます。これにより、物事を簡単にし、開発者がカスタム要件に集中するための時間を増やすのに役立ちます。クリーニングテキストには1分かかるはずだと考えています。テキストの最も重要な部分を見つける場合も同じで、それを表現するために同じ。
非常に実用的な方法で、テクセロには1つの目標しかありません。開発者の余暇を作ることです。テキストデータを使用することは痛みになる可能性があり、ほとんどの場合、デフォルトのパイプラインを開始するのが非常に良い場合があります。以前の作業を改善して改善する時間は常にあります。
「Textheroは、NLPコミュニティ全体のためにNLPコミュニティのメンバーによって開発されました」
Textheroは私たち全員のNLPデベロイヤー向けであり、コミュニティの貴重な貢献により存在し続けることができます。
PythonとNLPの専門知識のレベルは重要ではなく、誰でも助けられ、誰でも貢献することができます!
あなたはNLPの専門家ですか?
あなたはウェブサイトを作成するのが得意ですか?
ウェブサイトはまもなくDocusaurusからSphinxに移動されます。そこで開かれた問題を読んでください。良いニュース:ウェブサイトは今のように見えます:)平均的なニュース:このスフィンクステンプレートを私たちのニーズに合わせて適応させるためにいくつかのウェブ開発を行う必要があります。助けてくれませんか?
あなたは書くのが得意ですか?
おそらく、これはTextheroで現在欠けている最も重要な作品です。より多くのチュートリアルとその他の「Getting Start」ガイドです。
あなたが書くのが得意なら、あなたは私たちを助けることができます! FAQページをWebサイトに追加するか、カスタムパイプラインの作成方法を説明することから始めてみませんか?助けが必要ですか?私たちはあなたのためにそこにいます。
あなたはPythonが得意ですか?
技術者には多くのオープンな問題があります。どちらを選びますか?
他の質問やお問い合わせがある場合は、jonathanbesomi__at__gmail.comで私に並んでください
MITライセンス(MIT)
著作権(c)2020テクセロ
このソフトウェアと関連するドキュメントファイル(「ソフトウェア」)のコピーを入手して、制限なしにソフトウェアを扱うために、このソフトウェアを制限する権利を含め、ソフトウェアのコピーをコピー、変更、公開、配布、販売する、ソフトウェアのコピーを許可する人を許可する人を許可することを含めて、許可が無料で許可されます。
上記の著作権通知とこの許可通知は、ソフトウェアのすべてのコピーまたはかなりの部分に含まれるものとします。
このソフトウェアは、商品性、特定の目的への適合性、および非侵害の保証を含むがこれらに限定されない、明示的または黙示的なものを保証することなく、「現状のまま」提供されます。いかなる場合でも、著者または著作権所有者は、契約、不法行為、またはその他の訴訟、ソフトウェアまたはソフトウェアの使用またはその他の取引に関連する、またはその他の契約、またはその他の請求、またはその他の責任について責任を負いません。