Este repositorio ya no se mantiene
Textipipe: limpie y extraiga metadatos del texto
textpipe es un paquete de Python para convertir el texto en bruto en texto limpio y legible y extraer metadatos de ese texto. Sus funcionalidades incluyen transformar el texto sin procesar en texto legible eliminando etiquetas HTML y extrayendo metadatos, como el número de palabras y entidades con nombre del texto.
Visión: el zen de la tubería de texto
- Diseñado para su uso en tuberías de producción sin supervisión de adultos.
- Las baterías recargables incluyen: Proporcione valores predeterminados sensatos y claros ejemplos para adaptarse.
- Una interfaz uniforme con envoltorios delgados alrededor de los paquetes de PNL de última generación.
- El lenguaje-agnóstico como sea posible.
- Trae tus propios modelos.
Características
- Limpie el texto crudo eliminando
HTML y otras construcciones ilegibles - Identificar el lenguaje del texto
- Extraiga el número de palabras, número de oraciones, entidades nombradas de un texto
- Calcule la complejidad de un texto
- Obtenga metadatos de texto especificando una tubería que contenga todos los elementos deseados
- Obtener sentimiento (polaridad y puntaje de subjetividad)
- Genera recuentos de palabras
- Calcula Minhash para la estimación de similitud barata de documentos
Instalación
Se recomienda que instale TEXTPIPE utilizando un entorno virtual.
Primero, cree su entorno virtual usando VirtualEnv o VirtualEnvWrapper.
Uso de Venv si su intérprete predeterminado es Python3.6
virtualenv venv -p python3.6
mkvirtualenv textpipe -p python3.6
- Instale TextPipe con PIP.
- Instale los paquetes requeridos con requisitos.txt .
pip install -r requirements.txt
Una nota sobre el requisito del modelo de descarga de Spacy
Si bien el archivo requisito.txt que viene con el paquete requiere el modelo EN_CORE_WEB_SM de Spacy, esto se puede cambiar según el modelo y el idioma que necesite para su uso previsto. Consulte la página de Spacy.io en sus diferentes modelos para obtener más información.
Ejemplo de uso
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 } Para extender las operaciones de TEXTPIPE existentes con sus propias operaciones propietarias;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))Que contribuye
Ver contribuyendo para pautas para contribuyentes.
Cambios
0.12.1
- Golpes Redis, TQDM, Pyling
0.12.0
- Versiones de muchas dependencias, incluida Textacy. Los resultados para la extracción de término clave cambiaron.
0.11.9
- Expone propiedades arbitrarias de Spacy
ents
0.11.8
- Expone el atributo de
cats de Spacy
0.11.7
- BUSPS VERSIONES DE SPACY Y REDIS
0.11.6
- Corrige el error donde el modelo Gensim no se almacena en caché en la tubería
0.11.5
- Elevar textPipemissingModelException en lugar de KeyError
0.11.4
- Buro de dependencias de Spacy y DataSketch
0.11.1
- Reemplaza la codacía con Pylint en CI
- Soluciona problemas de pylint
0.11.0
- Agrega un envoltorio alrededor de los vectores con llave gensim para construir incrustaciones de documentos a partir de Redis Cache
0.9.0
- Agrega funcionalidad para calcular las incrustaciones de documentos utilizando un modelo Gensim Word2Vec
0.8.6
- Elimina los caracteres UTF no estándar antes de detectar el lenguaje
0.8.5
0.8.4
- Arreglar el comando de instalación roto
0.8.3
- Arreglar el comando de instalación roto
0.8.2
- Corrige el error de copia en la agregación de Vector de Word (#118)
0.8.1
- Corrige errores en varias operaciones que no aceptaron kwargs
0.8.0
0.7.2
- Pins Spacy y versiones de patrones (con LXML clavado)
0.7.0
- Cambiar el registro de la operación de la lista a dict
- Global Pipeline Data está disponible en todas las operaciones a través del
context KWARG - Cargar operaciones personalizadas utilizando
register_operation en tuberías - Pasos personalizados (operaciones) con argumentos