تنفيذ Textrank لتلخيص النص واستخراج الكلمات الرئيسية في Python 3 ، مع تحسينات على وظيفة التشابه.
تلخيص النص:
>>> text = "" "التلخيص الأوتوماتيكي هو عملية تقليل مستند نصي مع برنامج الكمبيوتر من أجل إنشاء ملخص يحتفظ بأهم النقاط من المستند الأصلي. مع نمو مشكلة التحميل الزائد للمعلومات ، و زادت كمية البيانات ، وكذلك الاهتمام بالتلخيص التلقائي. التقنيات التي يمكن أن تجعل ملخصًا متماسكًا يأخذ في الاعتبار متغيرات مثل الطول ، نمط الكتابة وبناء الجملة. مثال على استخدام تقنية التلخيص هي محركات البحث مثل Google. تلخيص المستند هو آخر. "" " >>> من ملخص استيراد Summa >>> print (summarizer.summarize (text)) "التلخيص التلقائي هو عملية تقليل مستند النص مع جهاز كمبيوتر البرنامج من أجل إنشاء ملخص يحتفظ بأهم نقاط المستند الأصلي.
استخراج الكلمات الرئيسية:
>>> من الكلمات الرئيسية استيراد Summa >>> print (الكلمات الرئيسية. الكلمات الرئيسية (نص)) وثيقة تلخيص كتابة حساب
لاحظ أنه سيتم استخدام كسر الأسطر في الإدخال كفواصل الجملة ، لذا تأكد من معالجة النص المسبق وفقًا لذلك.
هذا البرنامج متاح في PYPI. يعتمد ذلك على Numpy و Scipy ، وهما مكتبان Python للحوسبة العلمية. سيقوم PIP بتثبيتها تلقائيًا مع SUMMA:
PIP تثبيت SUMMA
للحصول على أداء أفضل لاستخراج الكلمات الرئيسية ، قم بتثبيت نمط.
استخدام سطر القيادة:
ملف textrank -t
حدد طول الملخص كنسبة من النص (متوفر أيضًا في keywords ):
>>> من Summa.Summarizer استيراد تلخيص >>> تلخيص (نص ، نسبة = 0.2)
تحديد طول الملخص من قبل عدد الكلمات المنتظمة (متوفرة أيضًا في keywords ):
>>> تلخيص (نص ، كلمات = 50)
تحديد لغة نص الإدخال (متوفرة أيضًا في keywords ).
اللغات المتاحة هي العربية ، الدنماركية ، الهولندية ، الإنجليزية ، الفنلندية ، الفرنسية ، الألمانية ، المجرية ، الإيطالية ، النرويجية ، البولندية ، الحمال ، البرتغالي ، الروماني ، الروسي ، الإسبانية والسويدية:
>>> تلخيص (نص ، لغة = "إسبانية")
احصل على النتائج كقائمة (متوفرة أيضًا في keywords ):
>>> تلخيص (نص ، تقسيم = صحيح) ["التلخيص التلقائي هو عملية تقليل مستند النص مع أ برنامج الكمبيوتر من أجل إنشاء ملخص يحتفظ بالأهم نقاط الوثيقة الأصلية. ']
للاستشهاد بهذا العمل:
article {DBLP: Journals/Corr/Barrioslaw16 ،
المؤلف = {فيديريكو باريوس و
Federico l { '{o}} Pez and
لويس أرجيريش و
روزا Wachenchauzer} ،
العنوان = {اختلافات وظيفة التشابه في Textrank للتلخيص الآلي} ،
Journal = {corr} ،
المجلد = {ABS/1602.03606} ،
السنة = {2016} ،
url = {http://arxiv.org/abs/1602.03606} ،
ArchivePrefix = {arxiv} ،
ePrint = {1602.03606} ،
Timestamp = {Wed ، 07 Jun 2017 14:40:43 +0200} ،
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16} ،
Bibsource = {DBLP Computer Science Bibliography ، https://dblp.org}
}
Summa هو برنامج مفتوح المصدر تم إصداره بموجب ترخيص MIT (MIT).
حقوق الطبع والنشر (C) 2014 - الآن SUMMA NLP.