Implementasi Textrank untuk ringkasan teks dan ekstraksi kata kunci di Python 3, dengan optimasi pada fungsi kesamaan.
Ringkasan Teks:
>>> Text = "" "Ringkasan Otomatis adalah proses mengurangi dokumen teks dengan Program komputer untuk membuat ringkasan yang mempertahankan poin terpenting dari dokumen asli. Karena masalah informasi yang berlebihan telah berkembang, dan sebagai Jumlah data telah meningkat, demikian juga minat dalam peringkasan otomatis. Teknologi yang dapat membuat ringkasan yang koheren mempertimbangkan variabel akun seperti Panjang, gaya menulis dan sintaksis. Contoh penggunaan teknologi peringkasan adalah mesin pencari seperti Google. Ringkasan dokumen adalah hal lain. "" " >>> dari summa impor summarizer >>> cetak (summarizer.summarize (teks)) 'Ringkasan otomatis adalah proses mengurangi dokumen teks dengan komputer program untuk membuat ringkasan yang mempertahankan poin terpenting dari dokumen asli. '
Ekstraksi kata kunci:
>>> Dari kata kunci impor summa >>> cetak (kata kunci.keywords (teks)) dokumen peringkasan menulis akun
Perhatikan bahwa garis pecah dalam input akan digunakan sebagai pemisah kalimat, jadi pastikan untuk preprocess teks Anda sesuai.
Perangkat lunak ini tersedia di PYPI. Itu tergantung pada numpy dan scipy, dua perpustakaan Python untuk komputasi ilmiah. Pip akan secara otomatis menginstalnya bersama dengan Summa:
Pip Instal Summa
Untuk kinerja ekstraksi kata kunci yang lebih baik, instal pola.
Penggunaan baris perintah:
File Textrank -t
Tentukan panjang ringkasan sebagai proporsi teks (juga tersedia dalam keywords ):
>>> dari summa.summarizer impor ringkasan >>> Ringkas (teks, rasio = 0.2)
Tentukan panjang ringkasan dengan jumlah kata -kata aproximate (juga tersedia dalam keywords ):
>>> ringkas (teks, kata = 50)
Tentukan bahasa teks input (juga tersedia dalam keywords ).
Bahasa yang tersedia adalah bahasa Arab, Denmark, Belanda, Inggris, Finlandia, Prancis, Jerman, Hongaria, Italia, Norwegia, Polandia, Porter, Portugis, Rumania, Rusia, Spanyol dan Swedia:
>>> ringkas (teks, bahasa = 'bahasa Spanyol')
Dapatkan hasil sebagai daftar (juga tersedia dalam keywords ):
>>> ringkas (teks, split = true) ['Ringkasan Otomatis adalah proses mengurangi dokumen teks dengan a Program komputer untuk membuat ringkasan yang mempertahankan yang paling penting Poin dari dokumen asli. ']
Untuk mengutip pekerjaan ini:
@Article {dblp: jurnal/corr/barrioslaw16,
penulis = {federico barrios dan
Federico l { '{o}} pez dan
Luis Argerich dan
Rosa Wachenchauzer},
title = {variasi fungsi kesamaan Textrank untuk ringkasan otomatis},
jurnal = {corr},
volume = {abs/1602.03606},
tahun = {2016},
url = {http://arxiv.org/abs/1602.03606},
archivePrefix = {arXiv},
ePrint = {1602.03606},
timestamp = {Wed, 07 Jun 2017 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
Bibsource = {DBLP Bibliografi Ilmu Komputer, https://dblp.org}
}
Summa adalah perangkat lunak open source yang dirilis di bawah lisensi MIT (MIT).
Hak Cipta (C) 2014 - Sekarang Summa NLP.