textpipe 다운로드 - textpipe 소스 코드 다운로드

textpipe

기타 소스코드

1.0.0

다운로드

이 저장소는 더 이상 유지 관리되지 않습니다

텍스트 파이프 : 텍스트에서 메타 데이터를 청소하고 추출합니다

textpipe 원시 텍스트를 깨끗하고 읽을 수있는 텍스트로 변환하고 해당 텍스트에서 메타 데이터를 추출하기위한 파이썬 패키지입니다. 기능에는 HTML 태그를 제거하고 텍스트의 단어 수 및 명명 된 엔티티와 같은 메타 데이터를 추출하여 원시 텍스트를 읽을 수있는 텍스트로 변환하는 것이 포함됩니다.

비전 : 텍스트 파이프의 선

성인 감독없이 생산 파이프 라인에 사용하도록 설계되었습니다.
충전식 배터리 포함 : SANE 기본값을 제공하고 적응할 수있는 명확한 예제를 제공하십시오.
최첨단 NLP 패키지 주위에 얇은 포장지가있는 균일 한 인터페이스.
가능한 한 언어에 대한 비수성.
나만의 모델을 가져 오십시오.

특징

HTML 및 기타 읽을 수없는 구조물을 제거하여 원시 텍스트를 청소하십시오.
텍스트 언어를 식별하십시오
텍스트에서 단어 수, 문장 수, 이름 지정된 엔티티 추출
텍스트의 복잡성을 계산하십시오
원하는 모든 요소가 포함 된 파이프 라인을 지정하여 텍스트 메타 데이터를 얻으십시오.
감정을 얻습니다 (극성 및 주관성 점수)
단어 수를 생성합니다
문서의 저렴한 유사성 추정을 위해 Minhash를 계산합니다

설치

가상 환경을 사용하여 텍스트 파이프를 설치하는 것이 좋습니다.

먼저 VirtualEnV 또는 VirtualEnvWrapper를 사용하여 가상 환경을 만듭니다.
기본 통역사가 Python3.6 인 경우 Venv 사용

python3 -m venv .venv

virtualenv 사용.

virtualenv venv -p python3.6

virtualenvwrapper 사용

mkvirtualenv textpipe -p python3.6

PIP를 사용하여 텍스트 파이프를 설치하십시오.

pip install textpipe

요구 사항을 사용하여 필요한 패키지를 설치하십시오 .txt.

pip install -r requirements.txt

Spacy 다운로드 모델 요구 사항에 대한 메모

패키지와 함께 제공되는 요구 사항.txt 파일은 Spacy의 en_core_web_sm 모델을 호출하지만 의도 한 사용에 필요한 모델과 언어에 따라 변경할 수 있습니다. 자세한 내용은 다른 모델의 Spacy.io 페이지를 참조하십시오.

사용 예제

 > >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2

> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }

자체 독점 작업으로 기존 텍스트 파이프 작업을 확장하기 위해;

 test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
    return 1

custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))

기여

기고자를위한 지침에 대한 기고를 참조하십시오.

변화

0.12.1

Redis, TQDM, Pyling 범프

0.12.0

텍스트를 포함한 많은 종속성의 버전. 키르너 추출 결과가 변경되었습니다.

0.11.9

임의의 스페 ents 속성을 노출시킵니다

0.11.8

Spacy의 cats 속성을 노출시킵니다

0.11.7

Spacy 및 Redis 버전을 범프합니다

0.11.6

파이프 라인에서 성 Gensim 모델이 캐시되지 않는 버그 수정

0.11.5

KeyError 대신 TextPipemissingModelException을 올리십시오

0.11.4

Spacy 및 Datasketh의 종속성을 충돌시킵니다

0.11.1

CI의 Pylint로 Codacy를 대체합니다
Pylint 문제를 해결합니다

0.11.0

Redis 캐시에서 문서 임베딩을 구성하기 위해 Gensim Keyed Vectors 주위에 래퍼를 추가합니다.

0.9.0

Gensim Word2Vec 모델을 사용하여 문서 임베딩을 계산하는 기능 추가

0.8.6

언어를 감지하기 전에 비 표준 UTF 숯을 제거합니다

0.8.5

2.1.3에 대한 범프 스피드

0.8.4

깨진 설치 명령을 수정하십시오

0.8.3

깨진 설치 명령을 수정하십시오

0.8.2

Word 벡터 집계에서 복사-페이스트 오류 수정 (#118)

0.8.1

Kwargs를 허용하지 않은 여러 작업에서 버그를 수정합니다

0.8.0

스파크를 2.1로 충돌시킵니다

0.7.2

핀 스페이 및 패턴 버전 (고정 된 LXML 포함)

0.7.0

Operation의 레지스트리를 목록에서 DITT로 변경하십시오
글로벌 파이프 라인 데이터는 context KWARG를 통해 작업을 통해 사용할 수 있습니다.
파이프 라인에서 register_operation 사용하여 사용자 정의 작업을로드합니다
인수가있는 사용자 정의 단계 (운영)

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-18
크기 57.5KB
출처 Github

textpipe

텍스트 파이프 : 텍스트에서 메타 데이터를 청소하고 추출합니다

비전 : 텍스트 파이프의 선

특징

설치

Spacy 다운로드 모델 요구 사항에 대한 메모

사용 예제

기여

변화

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express