textpipe
1.0.0
このリポジトリは維持されなくなりました
textpipe 、生のテキストをきれいで読みやすいテキストに変換し、そのテキストからメタデータを抽出するためのPythonパッケージです。その機能には、HTMLタグを削除し、テキストから名前付きエンティティなどのメタデータを抽出することにより、生のテキストを読み取り可能なテキストに変換することが含まれます。
HTMLやその他の読めない構造を削除して、生のテキストをきれいにします仮想環境を使用してTextPipeをインストールすることをお勧めします。
まず、VirtualEnvまたはVirtualEnvWrapperを使用して仮想環境を作成します。
デフォルトのインタープリターがPython3.6である場合、venvを使用します
python3 -m venv .venvvirtualenv venv -p python3.6mkvirtualenv textpipe -p python3.6pip install textpipepip install -r requirements.txtパッケージに付属する要件ファイルは、SpacyのEN_CORE_WEB_SMモデルを必要としますが、これは、使用するために必要なモデルと言語に応じて変更できます。詳細については、さまざまなモデルのSpacy.ioのページを参照してください。
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }独自の操作で既存のテキストパイプ操作を拡張するため。
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))貢献者のガイドラインについては、貢献を参照してください。
0.12.1
0.12.0
0.11.9
entsを公開します0.11.8
cats属性を公開します0.11.7
0.11.6
0.11.5
0.11.4
0.11.1
0.11.0
0.9.0
0.8.6
0.8.5
0.8.4
0.8.3
0.8.2
0.8.1
0.8.0
0.7.2
0.7.0
context KWARGを介して操作全体で利用できますregister_operationを使用してカスタム操作をロードします