Menurut majalah Computer World, data teks yang tidak terstruktur menyumbang sekitar 70% -80% dari semua data dalam suatu organisasi. Pendekatan yang paling umum untuk memanfaatkan sumber daya teks perusahaan adalah membuatnya dapat dicari menggunakan mesin pencari. Sementara itu sendiri adalah langkah maju yang besar, ada banyak lagi yang dapat dilakukan untuk mengekstraksi wawasan lebih lanjut dari teks. Dalam tutorial ini, kita akan melihat mengekstraksi kata kunci dan fitur lain dari teks, menggunakan teknik pembelajaran mesin statistik dan di luar rak yang terkenal, meningkatkan pencarian konten dan penemuan dalam proses. Akhirnya kami menyatukan utas ini untuk membangun ontologi dan sistem rekomendasi sederhana. Kami akan menggunakan SOLR 7.X sebagai platform pengindeksan kami dan Dataset NIPS Papers, kumpulan 7000+ makalah dari Konferensi Sistem Pemrosesan Informasi Saraf dari 1987-2017, sebagai korpus kami. Tutorial cukup berat kode dan Python, dan sementara pengetahuan tentang Python tidak diperlukan, keakraban dengan bahasa pemrograman akan sangat diinginkan.
Silakan merujuk ke data/readme.md dan model/readme.md untuk mengunduh dataset dan model pihak ketiga.
Lihat juga persyaratan.txt untuk menemukan jika Anda perlu menginstal pustaka tambahan untuk instalasi python3 Anda. Kode ini dibangun menggunakan Anaconda Python3 yang memiliki banyak (tidak semua) perpustakaan ini sudah diinstal. Satu -satunya yang saya tidak bisa bekerja adalah perpustakaan Dedupe, yang harus saya instal pada instalasi Anaconda Python 2 terpisah.
Akhirnya, notebook dan aplikasi web keduanya menggunakan Solr 7.x sebagai backend pencarian, jadi Anda perlu menginstalnya. Untuk memulai Solr, arahkan ke direktori home solr, dan jalankan perintah berikut. Konsol Solr dapat diakses dari browser Anda di http: // localhost: 8983.
cd <solr_home>
bin/solr start
Basis kode terdiri dari satu set notebook di bawah folder notebook dan aplikasi web berbasis flask di bawah folder webtool yang menyediakan ujung depan untuk menampilkan aplikasi output dari berbagai teknik rekayasa konten terhadap indeks pencarian yang berisi kertas nips.
Untuk menjalankan server notebook, arahkan ke subdirektori notebook, dan kemudian jalankan perintah berikut. Secara default, URL default untuk menavigasi di browser Anda untuk mengakses notebook adalah http: // localhost: 8888/. Anda juga dapat menemukan URL dari log server yang ditulis di konsol.
cd <project_home>/notebooks
jupyter notebook
Untuk menjalankan aplikasi web, arahkan ke subdirektori WebTool, lalu jalankan perintah berikut. Aplikasi web akan mulai mendengarkan di port 5000. Untuk sampai ke aplikasi dari browser Anda, navigasikan ke http: // localhost: 5000.
cd <project_home>/webtool
python webtool.py