textrank
v1.2.0
Textrank實現Python 3中的文本摘要和關鍵字提取,並具有相似性功能的優化。
文本摘要:
>>> text =“”“自動摘要是減少文本文檔的過程 計算機程序以創建保留最重要點的摘要 原始文檔。隨著信息超載的問題的增加,並且 數據數量增加了,因此對自動匯總的興趣也增加了。 可以考慮一致摘要的技術考慮變量,例如 長度,寫作風格和語法。使用摘要技術的一個示例 是Google等搜索引擎。文檔摘要是另一個。 ”“” >>>來自Summa Import Summarizer >>>打印(Summarizer.Summarize(text)) '自動摘要是用計算機減少文本文檔的過程 程序以創建一個保留最重要點的摘要 原始文件。
關鍵字提取:
>>>來自匯總導入關鍵字 >>> print(keywords.keywords(text)) 文件 摘要 寫作 帳戶
請注意,輸入中的線路斷裂將用作句子分離器,因此請確保相應地預處理您的文本。
該軟件可在PYPI中找到。它取決於Numpy和Scipy,這是兩個用於科學計算的Python庫。 PIP將與Summa一起自動安裝它們:
pip安裝摘要
要獲得關鍵字提取的更好性能,請安裝模式。
命令行的用法:
Textrank -T文件
將摘要的長度定義為文本的一部分(也可以在keywords中使用):
>>>來自summa.summarizer導入總結 >>>總結(文本,比率= 0.2)
定義摘要的長度,按尚有數量的單詞(也可以在keywords中使用):
>>>總結(文字,單詞= 50)
定義輸入文本語言(也有keywords )。
可用的語言是阿拉伯語,丹麥語,荷蘭語,英語,芬蘭語,法語,德語,匈牙利語,意大利語,挪威語,波蘭,波特,波特,葡萄牙語,羅馬尼亞語,俄語,西班牙語和瑞典語:
>>>總結(文字,語言='西班牙語')
獲取結果作為列表(也可以在keywords中找到):
>>>總結(text,split = true) ['自動摘要是用一個用一個簡化文本文檔的過程 計算機程序以創建保留最重要的摘要 原始文檔的點。 ']
引用這項工作:
@article {dblp:期刊/corr/barrioslaw16,
作者= {Federico Barrios和
federico l {'{o}} pez和
路易斯·阿格里奇(Luis Argerich)和
Rosa Wachenchauzer},
title = {自動摘要的Textrank相似性功能的變化},
日記= {corr},
音量= {abs/1602.03606},
年= {2016},
url = {http://arxiv.org/abs/1602.03606},
ArchivePrefix = {arXiv},
eprint = {1602.03606},
時間戳記= {Wed,2017年6月7日14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
Bibsource = {DBLP計算機科學書目,https://dblp.org}
}
Summa是根據MIT許可(MIT)發布的開源軟件。
版權(c)2014 - 現在求發。