Textrank -Implementierung für die Textübersicht und die Keyword -Extraktion in Python 3 mit Optimierungen zur Ähnlichkeitsfunktion.
Textübersicht:
>>> text = "" "Automatische Zusammenfassung ist der Prozess der Reduzierung eines Textdokuments mit einem Computerprogramm, um eine Zusammenfassung zu erstellen, die die wichtigsten Punkte behält des Originaldokuments. Als das Problem der Informationsüberlastung und als Die Datenmenge hat zugenommen und das Interesse an der automatischen Zusammenfassung. Technologien, die eine kohärente Zusammenfassung durchführen können, berücksichtigen Variablen wie Länge, Schreibstil und Syntax. Ein Beispiel für die Verwendung der Zusammenfassungstechnologie sind Suchmaschinen wie Google. Die Zusammenfassung der Dokumente ist eine andere. "" " >>> vom Summa Import Summariizer >>> print (summariizer.summarize (Text)) Die automatische Zusammenfassung ist der Prozess der Reduzierung eines Textdokuments mit einem Computer Programm um eine Zusammenfassung zu erstellen, die die wichtigsten Punkte der Originaldokument.'
Keyword -Extraktion:
>>> Aus Summa Import -Schlüsselwörtern importieren >>> print (keywords.keywords (text)) dokumentieren Zusammenfassung Schreiben Konto
Beachten Sie, dass die Zeilenumbrüche in der Eingabe als Satzabscheider verwendet werden. Stellen Sie daher unbedingt Ihren Text entsprechend vor.
Diese Software ist in PYPI verfügbar. Es hängt von Numpy und Scipy ab, zwei Python -Bibliotheken für wissenschaftliches Computer. PIP wird sie automatisch zusammen mit Summa installieren:
PIP Installieren Sie Summa
Für eine bessere Leistung der Keyword -Extraktion installieren Sie das Muster.
Befehlszeilennutzung:
Textrank -t -Datei
Definieren Sie die Länge der Zusammenfassung als Anteil des Textes (auch in keywords verfügbar):
>>> von summa.summarizerimport summarize >>> zusammenfassen (Text, Verhältnis = 0,2)
Definieren Sie die Länge der Zusammenfassung durch eine aproximate Anzahl von Wörtern (auch in keywords verfügbar):
>>> zusammenfassen (Text, Wörter = 50)
Definieren Sie die Eingabetxtsprache (auch in keywords verfügbar).
Die verfügbaren Sprachen sind arabisch, dänisch, niederländisch, englisch, finnisch, französisch, deutsch, ungarisch, italienisch, norwegisch, polnisch, porter, portugiesisch, rumänisch, russisch, spanisch und schwedisch:
>>> zusammenfassen (Text, Sprache = 'Spanisch')
Erhalten Sie Ergebnisse als Liste (auch in keywords verfügbar):
>>> zusammenfassen (Text, split = true) ['Automatische Zusammenfassung ist der Prozess der Reduzierung eines Textdokuments mit a Computerprogramm, um eine Zusammenfassung zu erstellen, die das wichtigste beibehält Punkte des Originaldokuments. ']
Um diese Arbeit zu zitieren:
@Article {DBLP: Journals/Corr/Barrioslaw16,
Autor = {Federico Barrios und
Federico l { '{o}} pez und
Luis Argerich und
Rosa Wachenchauzer},
title = {Variationen der Ähnlichkeitsfunktion von Textrank für automatisierte Zusammenfassung},
Journal = {corr},
Volume = {ABS/1602.03606},
Jahr = {2016},
url = {http://arxiv.org/abs/1602.03606},
archiveprefix = {arxiv},
ePrint = {1602.03606},
timestamp = {mi, 07. Juni 2017 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
BibSource = {DBLP Informatik Bibliographie, https://dblp.org}
}
Summa ist Open -Source -Software, die unter der MIT -Lizenz (MIT) veröffentlicht wurde.
Copyright (C) 2014 - jetzt Summa NLP.