Textrank реализация для суммирования текста и извлечения ключевых слов в Python 3, с оптимизацией функции сходства.
Текстовое обобщение:
>>> text = "" "Автоматическое обобщение - это процесс сокращения текстового документа с помощью Компьютерная программа, чтобы создать резюме, которая сохраняет наиболее важные моменты оригинального документа. По мере роста проблемы информационной перегрузки и как Количество данных увеличилось, поэтому заинтересовано в автоматической суммировании. Технологии, которые могут сделать согласованное резюме, учитывать переменные, такие как Длина, стиль письма и синтаксис. Пример использования технологии суммирования Поисковые системы, такие как Google. Суммизация документа является еще одним. "" " >>> из Summa Import Summarizer >>> print (summarizer.summarize (text)) «Автоматическое обобщение - это процесс сокращения текстового документа с помощью компьютера программа, чтобы создать резюме, которая сохраняет наиболее важные точки оригинальный документ.
Извлечение ключевых слов:
>>> Из ключевых слов Summa Import >>> print (KeyWords.KeyWords (текст)) документ суммирование письмо счет
Обратите внимание, что разрывы строк на входе будут использоваться в качестве разделителей предложений, поэтому обязательно предварительно обработайте свой текст соответственно.
Это программное обеспечение доступно в PYPI. Это зависит от Numpy и Scipy, двух библиотек Python для научных вычислений. PIP автоматически установит их вместе с Summa:
PIP установить Summa
Для лучшей производительности извлечения ключевых слов установите шаблон.
Использование командной строки:
textrank -t -файл
Определите длину резюме как долю текста (также доступно в keywords ):
>>> из Summa.summarizer Import Summarize >>> суммируйте (текст, соотношение = 0,2)
Определите длину резюме по количеству слов (также доступно в keywords ):
>>> суммируйте (текст, слова = 50)
Определите язык текста ввода (также доступен в keywords ).
Доступными языками являются арабские, датские, голландские, английские, финские, французские, немецкие, венгерские, итальянские, норвежские, польские, портерские, португальские, румынские, русские, испанские и шведские:
>>> суммируйте (текст, язык = 'испанский')
Получите результаты в качестве списка (также доступны в keywords ):
>>> суммируйте (текст, сплит = true) [Автоматическое суммирование - это процесс сокращения текстового документа с помощью Компьютерная программа, чтобы создать резюме, которая сохраняет наиболее важную точки оригинального документа. ']
При употреблении этой работы:
@Article {dblp: журналы/corr/barrioSlaw16,
Автор = {Федерико Барриос и
Federico l { '{o}} pez и
Луис Аргерих и
Роза Ваченчозер},
title = {вариации функции сходства Textrank для автоматической суммирования},
Journal = {corr},
том = {ABS/1602.03606},
Год = {2016},
url = {http://arxiv.org/abs/1602.03606},
ArchivePrefix = {arxiv},
eprint = {1602.03606},
TimeStamp = {ср, 07 июня 2017 г. 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
BibSource = {DBLP Библиография компьютерных наук, https://dblp.org}
}
Summa - это программное обеспечение с открытым исходным кодом, выпущенное по лицензии MIT (MIT).
Copyright (C) 2014 - теперь Summa NLP.