textpipe
1.0.0
이 저장소는 더 이상 유지 관리되지 않습니다
textpipe 원시 텍스트를 깨끗하고 읽을 수있는 텍스트로 변환하고 해당 텍스트에서 메타 데이터를 추출하기위한 파이썬 패키지입니다. 기능에는 HTML 태그를 제거하고 텍스트의 단어 수 및 명명 된 엔티티와 같은 메타 데이터를 추출하여 원시 텍스트를 읽을 수있는 텍스트로 변환하는 것이 포함됩니다.
HTML 및 기타 읽을 수없는 구조물을 제거하여 원시 텍스트를 청소하십시오.가상 환경을 사용하여 텍스트 파이프를 설치하는 것이 좋습니다.
먼저 VirtualEnV 또는 VirtualEnvWrapper를 사용하여 가상 환경을 만듭니다.
기본 통역사가 Python3.6 인 경우 Venv 사용
python3 -m venv .venvvirtualenv venv -p python3.6mkvirtualenv textpipe -p python3.6pip install textpipepip install -r requirements.txt패키지와 함께 제공되는 요구 사항.txt 파일은 Spacy의 en_core_web_sm 모델을 호출하지만 의도 한 사용에 필요한 모델과 언어에 따라 변경할 수 있습니다. 자세한 내용은 다른 모델의 Spacy.io 페이지를 참조하십시오.
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }자체 독점 작업으로 기존 텍스트 파이프 작업을 확장하기 위해;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))기고자를위한 지침에 대한 기고를 참조하십시오.
0.12.1
0.12.0
0.11.9
ents 속성을 노출시킵니다0.11.8
cats 속성을 노출시킵니다0.11.7
0.11.6
0.11.5
0.11.4
0.11.1
0.11.0
0.9.0
0.8.6
0.8.5
0.8.4
0.8.3
0.8.2
0.8.1
0.8.0
0.7.2
0.7.0
context KWARG를 통해 작업을 통해 사용할 수 있습니다.register_operation 사용하여 사용자 정의 작업을로드합니다