textpipe
1.0.0
該存儲庫不再維護
textpipe是一個Python軟件包,用於將原始文本轉換為清潔,可讀的文本並從該文本中提取元數據。它的功能包括通過刪除HTML標籤並提取元數據(例如文本中的單詞數量和命名實體)將原始文本轉換為可讀文本。
HTML和其他不可讀的構造來清潔原始文本建議您使用虛擬環境安裝Text -Pipe。
首先,使用Virtualenv或VirtualenvWrapper創建虛擬環境。
如果您的默認解釋器為Python3.6,請使用VENV。
python3 -m venv .venvvirtualenv venv -p python3.6mkvirtualenv textpipe -p python3.6pip install textpipepip install -r requirements.txt雖然包裝包裝的sumplion.txt文件呼叫Spacy的en_core_web_sm型號,但可以根據您需要使用的模型和語言來更改此文件。有關更多信息,請參見其不同模型上的Spacy.io頁面。
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }為了將現有的Text -Pipe操作擴展到您自己的專有操作;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))有關貢獻者的指南,請參見貢獻。
0.12.1
0.12.0
0.11.9
ents屬性0.11.8
cats屬性0.11.7
0.11.6
0.11.5
0.11.4
0.11.1
0.11.0
0.9.0
0.8.6
0.8.5
0.8.4
0.8.3
0.8.2
0.8.1
0.8.0
0.7.2
0.7.0
context遍布誇爾格(Kwarg)register_operation加載自定義操作