Download de textpipe - download do código fonte textpipe

textpipe

Outro código-fonte

1.0.0

Baixar

Este repositório não é mais mantido

Textpipe: Limpe e extrair metadados do texto

textpipe é um pacote python para converter texto bruto em texto limpo e legível e extrair metadados desse texto. Suas funcionalidades incluem a transformação do texto bruto em texto legível, removendo tags HTML e extraindo metadados, como o número de palavras e entidades nomeadas do texto.

Visão: o zen do textpipe

Projetado para uso em oleodutos de produção sem supervisão de adultos.
As baterias recarregáveis incluíram: Forneça padrões sãos e exemplos claros para se adaptar.
Uma interface uniforme com embalagens finas em torno de pacotes de NLP de última geração.
O mais agnóstico da linguagem possível.
Traga seus próprios modelos.

Características

Texto bruto limpo removendo HTML e outras construções ilegíveis
Identifique a linguagem do texto
Extraia o número de palavras, número de frases, nomeadas entidades de um texto
Calcule a complexidade de um texto
Obtenha metadados de texto especificando um pipeline contendo todos os elementos desejados
Obter sentimento (polaridade e pontuação de subjetividade)
Gera contagens de palavras
Calcula o minhash para estimativa de similaridade barata dos documentos

Instalação

Recomenda -se que você instale o TextPipe usando um ambiente virtual.

Primeiro, crie seu ambiente virtual usando VirtualEnv ou VirtualEnvwrapper.
Usando Venv se o seu intérprete padrão for python3.6

python3 -m venv .venv

Usando o virtualenv.

virtualenv venv -p python3.6

Usando o virtualEnvwrapper

mkvirtualenv textpipe -p python3.6

Instale o textpipe usando PIP.

pip install textpipe

Instale os pacotes necessários usando requisitos.txt .

pip install -r requirements.txt

Uma nota sobre o requisito do modelo de download de spacy

Embora o arquivo requisitos.txt que acompanha o pacote exige o modelo en_core_web_sm do spacy, isso pode ser alterado, dependendo do modelo e do idioma que você precisa para o uso pretendido. Veja a página do Spacy.io em seus diferentes modelos para obter mais informações.

Exemplo de uso

 > >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2

> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }

Para estender as operações de textpipe existentes com suas próprias operações proprietárias;

 test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
    return 1

custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))

Contribuindo

Consulte Contribuindo para diretrizes para colaboradores.

Mudanças

0.12.1

Bumps Redis, TQDM, pyling

0,12.0

Bumps versões de muitas dependências, incluindo textura. Os resultados para a extração do termo -chave foram alterados.

0.11.9

Expõe propriedades arbitrárias ents spacia

0.11.8

Expõe o atributo de cats de Spacy

0.11.7

Bumps Spacy e Redis Versões

0.11.6

Correções de bug onde o modelo Gensim não é armazenado em cache no pipeline

0.11.5

Aumente textpipeMissingModeLexception em vez de KeyError

0.11.4

Bumps Spacy e DataSketch Dependências

0.11.1

Substitui o Codacy por Pylint no CI
Corrige os problemas do Pylint

0.11.0

Adiciona invólucro em torno de vetores com chave GENSIM para construir incorporações de documentos a partir de cache Redis

0.9.0

Adiciona funcionalidade para calcular incorporações de documentos usando um modelo Gensim Word2vec

0.8.6

Remove chars UTF não padrão antes de detectar a linguagem

0.8.5

Bump Spacy para 2.1.3

0.8.4

Corrija o comando de instalação quebrada

0.8.3

Corrija o comando de instalação quebrada

0.8.2

Corrija o erro de cola de cópia na agregação do vetor de palavras (#118)

0.8.1

Corrige bugs em várias operações que não aceitaram Kwargs

0.8.0

Spacy Spacy para 2.1

0.7.2

Versões espaciais e padrões de pinos (com LXML fixado)

0.7.0

Alterar o registro da operação de lista para dicta
Os dados globais de pipeline estão disponíveis em todas as operações por meio do context Kwarg
Carregar operações personalizadas usando register_operation no pipeline
Etapas personalizadas (operações) com argumentos

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 57.5KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos