Implementação do TexTrank para resumo de texto e extração de palavras -chave no Python 3, com otimizações sobre a função de similaridade.
Resumo de texto:
>>> text = "" "Resumo automático é o processo de redução de um documento de texto com programa de computador para criar um resumo que retém os pontos mais importantes do documento original. À medida que o problema da sobrecarga da informação cresceu e como A quantidade de dados aumentou, assim como o interesse em resumo automático. Tecnologias que podem fazer um resumo coerente levar em consideração variáveis como comprimento, estilo de escrita e sintaxe. Um exemplo do uso da tecnologia de resumo são mecanismos de pesquisa como o Google. O resumo do documento é outro. "" " >>> do resumo de importação de summa >>> Imprimir (Summarizer.summarize (texto)) 'Resumo automático é o processo de redução de um documento de texto com um computador programa para criar um resumo que retém os pontos mais importantes do documento original. '
Extração de palavras -chave:
>>> De summa importar palavras -chave >>> PRINT (KEYWORDS.KEYWORDS (texto)) documento resumo escrita conta
Observe que as quebras de linha na entrada serão usadas como separadores de frases; portanto, certifique -se de pré -processar seu texto de acordo.
Este software está disponível no Pypi. Depende de Numpy e Scipy, duas bibliotecas Python para computação científica. Pip os instalará automaticamente junto com Summa:
pip install summa
Para um melhor desempenho da extração de palavras -chave, instale o padrão.
Uso da linha de comando:
Arquivo TexTrank -t
Defina o comprimento do resumo como uma proporção do texto (também disponível em keywords ):
>>> de Summa.Summarizer Import resume >>> resumir (texto, razão = 0,2)
Defina o comprimento do resumo por número aproxima de palavras (também disponível em keywords ):
>>> resumir (texto, palavras = 50)
Defina a linguagem de texto de entrada (também disponível em keywords ).
Os idiomas disponíveis são árabe, dinamarquês, holandês, inglês, finlandês, francês, alemão, húngaro, italiano, norueguês, polonês, carregado, português, romeno, russo, espanhol e sueco:
>>> resumir (texto, idioma = 'espanhol')
Obtenha resultados como uma lista (também disponível em keywords ):
>>> resumir (texto, split = true) ['Resumo automático é o processo de redução de um documento de texto com um programa de computador para criar um resumo que retém o mais importante Pontos do documento original. ']
Para citar este trabalho:
@Article {DBLP: Journals/Corr/Barrioslaw16,
autor = {Federico Barrios e
Federico l { '{o}} pez e
Luis Argerich e
Rosa Wachenchezer},
title = {variações da função de similaridade do textraNk for Automated Summarization},
Journal = {corrig},
volume = {abs/1602.03606},
ano = {2016},
url = {http://arxiv.org/abs/1602.03606},
ArchivePrefix = {arxiv},
ePrint = {1602.03606},
Timestamp = {Wed, 07 de junho de 2017 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
bibsource = {bibliografia de ciência da computação dblp, https://dblp.org}
}
A Summa é um software de código aberto lançado sob a licença do MIT (MIT).
Copyright (c) 2014 - agora Summa NLP.