Этот репозиторий больше не поддерживается
textpipe - это пакет Python для преобразования необработанного текста в чистый, читаемый текст и извлечение метаданных из этого текста. Его функциональные возможности включают преобразование необработанного текста в читаемый текст путем удаления тегов HTML и извлечения метаданных, таких как количество слов и названных объектов из текста.
HTML и другие нечитаемые конструкцииРекомендуется установить TextPipe с помощью виртуальной среды.
Во -первых, создайте свою виртуальную среду, используя VirtualENV или VirtualENVWrapper.
Использование Venv, если ваш интерпретатор по умолчанию - Python3.6
python3 -m venv .venvvirtualenv venv -p python3.6mkvirtualenv textpipe -p python3.6pip install textpipepip install -r requirements.txtВ то время как файл Telects.txt, который поставляется с пакетом, требует модели Spacy EN_CORE_WEB_SM, его можно изменить в зависимости от модели и языка, который вам требуется для вашего предполагаемого использования. Смотрите страницу Spacy.io на их разных моделях для получения дополнительной информации.
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }Чтобы расширить существующие операции TextPipe с помощью ваших собственных проприетарных операций;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))См. Приспособление для руководящих принципов для участников.
0,12,1
0,12,0
0,11,9
ents свойства0,11,8
cats0,11,7
0,11,6
0,11,5
0,11,4
0,11,1
0,11,0
0.9.0
0,8,6
0,8,5
0,8,4
0,8,3
0,8,2
0,8,1
0,8,0
0,7,2
0,7,0
context Kwargregister_operation в трубопроводе