Implémentation de Textrank pour la résumé de texte et l'extraction de mots clés dans Python 3, avec des optimisations sur la fonction de similitude.
Résumé du texte:
>>> text = "" "Le résumé automatique est le processus de réduction d'un document texte avec un Programme informatique afin de créer un résumé qui conserve les points les plus importants du document original. À mesure que le problème de l'information surcharge s'est développé, et comme La quantité de données a augmenté, il est donc intéressé par le résumé automatique. Les technologies qui peuvent faire en compte un résumé cohérent prendre en compte les variables telles que longueur, style d'écriture et syntaxe. Un exemple de l'utilisation de la technologie de résumé est des moteurs de recherche tels que Google. Le résumé des documents en est un autre. "" " >>> De Summa Import Summarizer >>> imprimer (résumé.summarize (texte)) «Le résumé automatique est le processus de réduction d'un document texte avec un ordinateur programme afin de créer un résumé qui conserve les points les plus importants du Document original.
Extraction de mots clés:
>>> De Summa Importer des mots clés >>> imprimer (Keywords.Keywords (texte)) document récapitulation en écrivant compte
Notez que les ruptures de ligne dans l'entrée seront utilisées comme séparateurs de phrases, alors assurez-vous de prétraiter votre texte en conséquence.
Ce logiciel est disponible dans PYPI. Cela dépend de Numpy et Scipy, deux bibliothèques Python pour l'informatique scientifique. Pip les installera automatiquement avec Summa:
PIP Installer Summa
Pour une meilleure performance de l'extraction de mots clés, installez le modèle.
Utilisation de la ligne de commande:
Fichier Textrank -T
Définissez la durée du résumé comme une proportion du texte (également disponible en keywords ):
>>> de Summa.Summarizer l'importation résume >>> résumer (texte, rapport = 0,2)
Définissez la durée du résumé par nombre aproxime de mots (également disponibles en keywords ):
>>> résumer (texte, mots = 50)
Définissez le langage du texte d'entrée (également disponible en keywords ).
Les langues disponibles sont arabes, danois, néerlandais, anglais, finlandais, français, allemands, hongrois, italiens, norvégiens, polonais, porter, portugais, roumain, russe, espagnol et suédois:
>>> résumer (texte, langue = 'espagnol')
Obtenez des résultats en tant que liste (également disponible en keywords ):
>>> résumer (texte, fendre = true) ['Le résumé automatique est le processus de réduction d'un document texte avec un Programme informatique afin de créer un résumé qui conserve le plus important points du document d'origine. ']
Pour citer ce travail:
@Article {DBLP: Journals / Corr / Barrioslaw16,
auteur = {Federico Barrios et
Federico l { '{o}} pez et
Luis Argerich et
Rosa Wachechauzer},
title = {Variations de la fonction de similitude de Textrank pour la résumé automatisé},
journal = {corr},
volume = {ABS / 1602.03606},
année = {2016},
url = {http://arxiv.org/abs/1602.03606},
archivePrefix = {arXiv},
eprint = {1602.03606},
Timestamp = {mer, 07 juin 2017 14:40:43 +0200},
biBurl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
bibsource = {dblp informatique bibliographie, https://dblp.org}
}
Summa est un logiciel open source publié sous la licence MIT (MIT).
Copyright (C) 2014 - Maintenant Summa NLP.