textpipeのダウンロードtextpipeソースコードのダウンロード

textpipe

その他のソースコード

1.0.0

ダウンロード

このリポジトリは維持されなくなりました

TextPipe：テキストからメタデータをきれいにして抽出します

textpipe 、生のテキストをきれいで読みやすいテキストに変換し、そのテキストからメタデータを抽出するためのPythonパッケージです。その機能には、HTMLタグを削除し、テキストから名前付きエンティティなどのメタデータを抽出することにより、生のテキストを読み取り可能なテキストに変換することが含まれます。

ビジョン：TextPipeの禅

大人の監督なしで生産パイプラインで使用するように設計されています。
充電式バッテリーが含まれています。適応するための正気のデフォルトと明確な例を提供します。
最先端のNLPパッケージの周りの薄いラッパーを備えた均一なインターフェース。
できるだけ言語に依存しない。
独自のモデルを持参してください。

特徴

HTMLやその他の読めない構造を削除して、生のテキストをきれいにします
テキストの言語を特定します
単語数、文の数、テキストから名前付きエンティティを抽出します
テキストの複雑さを計算します
必要なすべての要素を含むパイプラインを指定して、テキストメタデータを取得します
感情を得る（極性と主観性スコア）
単語数を生成します
ドキュメントの安価な類似性推定のためにMinHashを計算します

インストール

仮想環境を使用してTextPipeをインストールすることをお勧めします。

まず、VirtualEnvまたはVirtualEnvWrapperを使用して仮想環境を作成します。
デフォルトのインタープリターがPython3.6である場合、venvを使用します

python3 -m venv .venv

Virtualenvを使用します。

virtualenv venv -p python3.6

virtualenvwrapperを使用します

mkvirtualenv textpipe -p python3.6

PIPを使用してTextPipeをインストールします。

pip install textpipe

要件を使用して必要なパッケージをインストールします。

pip install -r requirements.txt

スペイシーのダウンロードモデル要件に関するメモ

パッケージに付属する要件ファイルは、SpacyのEN_CORE_WEB_SMモデルを必要としますが、これは、使用するために必要なモデルと言語に応じて変更できます。詳細については、さまざまなモデルのSpacy.ioのページを参照してください。

使用例

 > >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2

> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }

独自の操作で既存のテキストパイプ操作を拡張するため。

 test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
    return 1

custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))

貢献

貢献者のガイドラインについては、貢献を参照してください。

変更

0.12.1

Redis、TQDM、Pyling

0.12.0

テキスタシーを含む多くの依存関係のバンプバージョン。重要な抽出の結果が変わりました。

0.11.9

任意のスペイシーentsを公開します

0.11.8

スペイシーのcats属性を公開します

0.11.7

SpacyとRedisバージョンのバンプ

0.11.6

PipelineでGensimモデルがキャッシュされていないバグを修正

0.11.5

keyerrorの代わりにtextpipemissingmodelexceptionを上げます

0.11.4

スパシーとDatasketchの依存関係をバンプします

0.11.1

CIのCodacyをPylintに置き換えます
ピリントの問題を修正します

0.11.0

Redisキャッシュからドキュメント埋め込みを構築するために、Gensimキー付きベクターの周りにラッパーを追加します

0.9.0

Gensim Word2Vecモデルを使用してドキュメント埋め込みを計算する機能を追加します

0.8.6

言語を検出する前に、非標準のUTF charを削除します

0.8.5

スペイシーを2.1.3にバンプします

0.8.4

壊れたインストールコマンドを修正します

0.8.3

壊れたインストールコマンドを修正します

0.8.2

単語ベクトル集約でコピーパステエラーを修正（＃118）

0.8.1

Kwargsを受け入れなかったいくつかの操作でバグを修正します

0.8.0

スペイシーを2.1にバンプします

0.7.2

ピンスペイシーとパターンバージョン（ピン留めlxml）

0.7.0

操作のレジストリをリストからDICTに変更します
グローバルパイプラインデータは、 context KWARGを介して操作全体で利用できます
Pipelineでregister_operationを使用してカスタム操作をロードします
引数を使用したカスタムステップ（操作）

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-18
サイズ 57.5KB
から Github

textpipe

TextPipe：テキストからメタデータをきれいにして抽出します

ビジョン：TextPipeの禅

特徴

インストール

スペイシーのダウンロードモデル要件に関するメモ

使用例

貢献

変更

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express