textheroダウンロードtextheroソースコードのダウンロード

texthero

その他のソースコード

Version 1.1.0

ダウンロード

2。テキスト前処理、TF-IDF、k-meansおよび視覚化

 import texthero as hero
import pandas as pd

df = pd . read_csv (
    "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df [ 'tfidf' ] = (
    df [ 'text' ]
    . pipe ( hero . clean )
    . pipe ( hero . tfidf )
)

df [ 'kmeans_labels' ] = (
    df [ 'tfidf' ]
    . pipe ( hero . kmeans , n_clusters = 5 )
    . astype ( str )
)

df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )

hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" )

3.テキストクリーニング用のシンプルなパイプライン

 > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé    (123 /) needs to [OK!] be cleaned!   "
> >> s = pd . Series ( text )
> >> s
0    This sèntencé    ( 123 / ) needs to [ OK !] be cleane ...
dtype : object

すべての数字を削除します：

 > >> s = hero . remove_digits ( s )
> >> s
0    This sèntencé    (  / ) needs to [ OK !] be cleaned !
dtype : object

数字を削除して、数字のブロックのみを置き換えます。文字列「hello123」の数字は削除されません。すべての数字を削除する場合は、falseに_blockのみを設定する必要があります。

すべての種類のブラケットとそのコンテンツを削除します。

 > >> s = hero . remove_brackets ( s )
> >> s 
0    This sèntencé    needs to  be cleaned !
dtype : object

ディクリティックを削除します。

 > >> s = hero . remove_diacritics ( s )
> >> s 
0    This sentence    needs to  be cleaned !
dtype : object

句読点を削除します。

 > >> s = hero . remove_punctuation ( s )
> >> s 
0    This sentence    needs to  be cleaned
dtype : object

余分な白いスペースを削除します。

 > >> s = hero . remove_whitespace ( s )
> >> s 
0    This sentence needs to be cleaned
dtype : object

また、ストップワードを取り除きたい場合もあります。

 > >> s = hero . remove_stopwords ( s )
> >> s
0    This sentence needs cleaned
dtype : object

API

Textheroは、Preprocessing.py、nlp.py、appressation.py、visualization.pyの4つのモジュールで構成されています。

1。プレアクセス

範囲：さらに分析するためにテキストデータを準備します。

完全なドキュメント：前処理

2。NLP

範囲： named_entityやnoun_phrasesなどの古典的な自然言語処理ツールを提供します。

完全なドキュメント：NLP

2。表現

範囲：テキストデータをベクトルにマップし、次元削減を行います。

サポートされている表現アルゴリズム：

用語頻度（ count ）
ターム周波数逆ドキュメント頻度（ tfidf ）

サポートされているクラスタリングアルゴリズム：

k-means（ kmeans ）
ノイズによるアプリケーションの密度ベースの空間クラスタリング（ dbscan ）
seanshift（ meanshift ）

サポートされている次元削減アルゴリズム：

主成分分析（ pca ）
t分配された確率的隣接埋め込み（ tsne ）
非陰性マトリックス因数分解（ nmf ）

完全なドキュメント：表現

3。視覚化

範囲：テキストデータに関する主な事実を要約し、視覚化します。このモジュールは意見があります。たとえば、テキスト探索データ分析（EDA）中に、テキストデータを画面上で視覚化するための迅速なソリューションを必要とする人にとっては便利です。

サポートされている機能：

テキストscatterPlot（ scatterplot ）
最も一般的な単語（ top_words ）

完全なドキュメント：視覚化

よくある質問

なぜテクセロ

時々私たちは物事をしたいだけですよね？テクセロはそれを助けます。これにより、物事を簡単にし、開発者がカスタム要件に集中するための時間を増やすのに役立ちます。クリーニングテキストには1分かかるはずだと考えています。テキストの最も重要な部分を見つける場合も同じで、それを表現するために同じ。

非常に実用的な方法で、テクセロには1つの目標しかありません。開発者の余暇を作ることです。テキストデータを使用することは痛みになる可能性があり、ほとんどの場合、デフォルトのパイプラインを開始するのが非常に良い場合があります。以前の作業を改善して改善する時間は常にあります。

貢献

「Textheroは、NLPコミュニティ全体のためにNLPコミュニティのメンバーによって開発されました」

Textheroは私たち全員のNLPデベロイヤー向けであり、コミュニティの貴重な貢献により存在し続けることができます。

PythonとNLPの専門知識のレベルは重要ではなく、誰でも助けられ、誰でも貢献することができます！

あなたはNLPの専門家ですか？

問題を開いて、あなたが好きなものとTextheroの嫌いなものと、私たちがもっとうまくできることを教えてください！

あなたはウェブサイトを作成するのが得意ですか？

ウェブサイトはまもなくDocusaurusからSphinxに移動されます。そこで開かれた問題を読んでください。良いニュース：ウェブサイトは今のように見えます:)平均的なニュース：このスフィンクステンプレートを私たちのニーズに合わせて適応させるためにいくつかのウェブ開発を行う必要があります。助けてくれませんか？

あなたは書くのが得意ですか？

おそらく、これはTextheroで現在欠けている最も重要な作品です。より多くのチュートリアルとその他の「Getting Start」ガイドです。

あなたが書くのが得意なら、あなたは私たちを助けることができます！ FAQページをWebサイトに追加するか、カスタムパイプラインの作成方法を説明することから始めてみませんか？助けが必要ですか？私たちはあなたのためにそこにいます。

あなたはPythonが得意ですか？

技術者には多くのオープンな問題があります。どちらを選びますか？

他の質問やお問い合わせがある場合は、jonathanbesomi__at__gmail.comで私に並んでください

貢献者（年代順に）

セリム・アル・アウワ
パースガンジー
ダン・キーフ
クリスチャンクラウス
bobfang1992
イシャン・アロラ
Vidya p
セドリックコノール
リッチラマルホ

ライセンス

MITライセンス（MIT）

著作権（c）2020テクセロ

このソフトウェアと関連するドキュメントファイル（「ソフトウェア」）のコピーを入手して、制限なしにソフトウェアを扱うために、このソフトウェアを制限する権利を含め、ソフトウェアのコピーをコピー、変更、公開、配布、販売する、ソフトウェアのコピーを許可する人を許可する人を許可することを含めて、許可が無料で許可されます。

上記の著作権通知とこの許可通知は、ソフトウェアのすべてのコピーまたはかなりの部分に含まれるものとします。

このソフトウェアは、商品性、特定の目的への適合性、および非侵害の保証を含むがこれらに限定されない、明示的または黙示的なものを保証することなく、「現状のまま」提供されます。いかなる場合でも、著者または著作権所有者は、契約、不法行為、またはその他の訴訟、ソフトウェアまたはソフトウェアの使用またはその他の取引に関連する、またはその他の契約、またはその他の請求、またはその他の責任について責任を負いません。

拡大する

追加情報