Implementación de TexTrank para resumen de texto y extracción de palabras clave en Python 3, con optimizaciones en la función de similitud.
Resumen del texto:
>>> text = "" "El resumen automático es el proceso de reducir un documento de texto con un programa de computadora para crear un resumen que conserve los puntos más importantes del documento original. A medida que ha crecido el problema de la sobrecarga de información, y como La cantidad de datos ha aumentado, por lo que tiene interés en el resumen automático. Las tecnologías que pueden hacer que un resumen coherente tenga en cuenta variables como Longitud, estilo de escritura y sintaxis. Un ejemplo del uso de la tecnología de resumen son motores de búsqueda como Google. El resumen de documentos es otro. "" " >>> del resumen de la importación de summa >>> Imprimir (resumen.summarize (texto)) 'El resumen automático es el proceso de reducir un documento de texto con una computadora programa para crear un resumen que retenga los puntos más importantes del Documento original. '
Extracción de palabras clave:
>>> de las palabras clave de importación de summa >>> imprimir (Keywords.Keywords (texto)) documento resumen escribiendo cuenta
Tenga en cuenta que las roturas de línea en la entrada se utilizarán como separadores de oraciones, así que asegúrese de preprocesar su texto en consecuencia.
Este software está disponible en PYPI. Depende de Numpy y SciPy, dos bibliotecas de Python para la computación científica. PIP los instalará automáticamente junto con Summa:
PIP Install Summa
Para un mejor rendimiento de la extracción de palabras clave, instale el patrón.
Uso de la línea de comandos:
archivo textrank -t
Definir la longitud del resumen como una proporción del texto (también disponible en keywords ):
>>> de Summa.Summarizer Import resume >>> resumir (texto, relación = 0.2)
Definir la longitud del resumen por número de palabras Apoximate (también disponible en keywords ):
>>> resumir (texto, palabras = 50)
Definir el lenguaje de texto de entrada (también disponible en keywords ).
Los idiomas disponibles son árabe, danés, holandés, inglés, finlandés, francés, alemán, húngaro, italiano, noruego, polaco, portero, portugués, rumano, ruso, español y sueco:
>>> resumir (texto, idioma = 'español')
Obtenga resultados como una lista (también disponible en keywords ):
>>> resumir (texto, dividido = verdadero) ['El resumen automático es el proceso de reducir un documento de texto con un programa de computadora para crear un resumen que conserva el más importante Puntos del documento original. ']
Para citar este trabajo:
@article {dblp: revistas/corr/barrioslaw16,
autor = {Federico Barrios y
Federico l { '{o}} Pez y
Luis Argerich y
Rosa Wachenchauzer},
title = {Variaciones de la función de similitud de TexTrank para resumen automatizado},
Journal = {Corr},
volumen = {ABS/1602.03606},
año = {2016},
url = {http://arxiv.org/abs/1602.03606},
ArchivePrefix = {arxiv},
ePrint = {1602.03606},
timestamp = {mié, 07 de junio de 2017 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
bibsource = {DBLP Computer Science Bibliography, https://dblp.org}
}
Summa es software de código abierto lanzado bajo la licencia MIT (MIT).
Copyright (c) 2014 - Ahora Summa NLP.