Este repositório não é mais mantido
Textpipe: Limpe e extrair metadados do texto
textpipe é um pacote python para converter texto bruto em texto limpo e legível e extrair metadados desse texto. Suas funcionalidades incluem a transformação do texto bruto em texto legível, removendo tags HTML e extraindo metadados, como o número de palavras e entidades nomeadas do texto.
Visão: o zen do textpipe
- Projetado para uso em oleodutos de produção sem supervisão de adultos.
- As baterias recarregáveis incluíram: Forneça padrões sãos e exemplos claros para se adaptar.
- Uma interface uniforme com embalagens finas em torno de pacotes de NLP de última geração.
- O mais agnóstico da linguagem possível.
- Traga seus próprios modelos.
Características
- Texto bruto limpo removendo
HTML e outras construções ilegíveis - Identifique a linguagem do texto
- Extraia o número de palavras, número de frases, nomeadas entidades de um texto
- Calcule a complexidade de um texto
- Obtenha metadados de texto especificando um pipeline contendo todos os elementos desejados
- Obter sentimento (polaridade e pontuação de subjetividade)
- Gera contagens de palavras
- Calcula o minhash para estimativa de similaridade barata dos documentos
Instalação
Recomenda -se que você instale o TextPipe usando um ambiente virtual.
Primeiro, crie seu ambiente virtual usando VirtualEnv ou VirtualEnvwrapper.
Usando Venv se o seu intérprete padrão for python3.6
virtualenv venv -p python3.6
- Usando o virtualEnvwrapper
mkvirtualenv textpipe -p python3.6
- Instale o textpipe usando PIP.
- Instale os pacotes necessários usando requisitos.txt .
pip install -r requirements.txt
Uma nota sobre o requisito do modelo de download de spacy
Embora o arquivo requisitos.txt que acompanha o pacote exige o modelo en_core_web_sm do spacy, isso pode ser alterado, dependendo do modelo e do idioma que você precisa para o uso pretendido. Veja a página do Spacy.io em seus diferentes modelos para obter mais informações.
Exemplo de uso
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 } Para estender as operações de textpipe existentes com suas próprias operações proprietárias;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))Contribuindo
Consulte Contribuindo para diretrizes para colaboradores.
Mudanças
0.12.1
- Bumps Redis, TQDM, pyling
0,12.0
- Bumps versões de muitas dependências, incluindo textura. Os resultados para a extração do termo -chave foram alterados.
0.11.9
- Expõe propriedades arbitrárias
ents spacia
0.11.8
- Expõe o atributo de
cats de Spacy
0.11.7
- Bumps Spacy e Redis Versões
0.11.6
- Correções de bug onde o modelo Gensim não é armazenado em cache no pipeline
0.11.5
- Aumente textpipeMissingModeLexception em vez de KeyError
0.11.4
- Bumps Spacy e DataSketch Dependências
0.11.1
- Substitui o Codacy por Pylint no CI
- Corrige os problemas do Pylint
0.11.0
- Adiciona invólucro em torno de vetores com chave GENSIM para construir incorporações de documentos a partir de cache Redis
0.9.0
- Adiciona funcionalidade para calcular incorporações de documentos usando um modelo Gensim Word2vec
0.8.6
- Remove chars UTF não padrão antes de detectar a linguagem
0.8.5
0.8.4
- Corrija o comando de instalação quebrada
0.8.3
- Corrija o comando de instalação quebrada
0.8.2
- Corrija o erro de cola de cópia na agregação do vetor de palavras (#118)
0.8.1
- Corrige bugs em várias operações que não aceitaram Kwargs
0.8.0
0.7.2
- Versões espaciais e padrões de pinos (com LXML fixado)
0.7.0
- Alterar o registro da operação de lista para dicta
- Os dados globais de pipeline estão disponíveis em todas as operações por meio do
context Kwarg - Carregar operações personalizadas usando
register_operation no pipeline - Etapas personalizadas (operações) com argumentos