textrank
v1.2.0
Textrank实现Python 3中的文本摘要和关键字提取,并具有相似性功能的优化。
文本摘要:
>>> text =“”“自动摘要是减少文本文档的过程 计算机程序以创建保留最重要点的摘要 原始文档。随着信息超载的问题的增加,并且 数据数量增加了,因此对自动汇总的兴趣也增加了。 可以考虑一致摘要的技术考虑变量,例如 长度,写作风格和语法。使用摘要技术的一个示例 是Google等搜索引擎。文档摘要是另一个。”“” >>>来自Summa Import Summarizer >>>打印(Summarizer.Summarize(text)) '自动摘要是用计算机减少文本文档的过程 程序以创建一个保留最重要点的摘要 原始文件。
关键字提取:
>>>来自汇总导入关键字 >>> print(keywords.keywords(text)) 文档 摘要 写作 帐户
请注意,输入中的线路断裂将用作句子分离器,因此请确保相应地预处理您的文本。
该软件可在PYPI中找到。它取决于Numpy和Scipy,这是两个用于科学计算的Python库。 PIP将与Summa一起自动安装它们:
pip安装摘要
要获得关键字提取的更好性能,请安装模式。
命令行的用法:
Textrank -T文件
将摘要的长度定义为文本的一部分(也可以在keywords中使用):
>>>来自summa.summarizer导入总结 >>>总结(文本,比率= 0.2)
定义摘要的长度,按尚有数量的单词(也可以在keywords中使用):
>>>总结(文字,单词= 50)
定义输入文本语言(也有keywords )。
可用的语言是阿拉伯语,丹麦语,荷兰语,英语,芬兰语,法语,德语,匈牙利语,意大利语,挪威语,波兰,波特,波特,葡萄牙语,罗马尼亚语,俄语,西班牙语和瑞典语:
>>>总结(文字,语言='西班牙语')
获取结果作为列表(也可以在keywords中找到):
>>>总结(text,split = true) ['自动摘要是用一个用一个简化文本文档的过程 计算机程序以创建保留最重要的摘要 原始文档的点。']
引用这项工作:
@article {dblp:期刊/corr/barrioslaw16,
作者= {Federico Barrios和
federico l {'{o}} pez和
路易斯·阿格里奇(Luis Argerich)和
Rosa Wachenchauzer},
title = {自动摘要的Textrank相似性功能的变化},
日记= {corr},
音量= {abs/1602.03606},
年= {2016},
url = {http://arxiv.org/abs/1602.03606},
ArchivePrefix = {arXiv},
eprint = {1602.03606},
时间戳记= {Wed,2017年6月7日14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
Bibsource = {DBLP计算机科学书目,https://dblp.org}
}
Summa是根据MIT许可(MIT)发布的开源软件。
版权(c)2014 - 现在求发。