Repositori ini terdiri dari proyek mini yang dilakukan sebagai bagian dari pengambilan dan ekstraksi informasi kursus - Musim Semi 2014. Kursus ini diinstruksikan oleh Dr. Vasudeva Varma.
## persyaratan python 2.6 atau lebih
Perpustakaan Python:
## Masalah Proyek Mini melibatkan pembangunan mesin pencari di dump data Wikipedia tanpa menggunakan indeks eksternal apa pun. Untuk proyek ini kami menggunakan pembuangan data 2013 dari ukuran 43 GB. Hasil pencarian kembali secara real time. Pencarian multi kata dan multi -lapangan di Wikipedia corpus diimplementasikan. Sax Parser digunakan untuk menguraikan corpus XML. Setelah parsing operasi morfologis berikut diimplementasikan:
Indeks, yang terdiri dari kata -kata batang dan daftar posting dibuat untuk corpus setelah melakukan operasi di atas bersama dengan judul dan pemetaan unik yang saya gunakan untuk setiap dokumen. Dengan demikian ID dokumen halaman Wikipedia diabaikan. Ini membantu mengurangi ukuran karena ID dokumen tidak dimulai dengan nomor satu digit dalam korpus. Karena ukuran corpus tidak akan masuk ke dalam memori utama, beberapa file indeks dihasilkan. Selanjutnya, file indeks ini digabungkan menggunakan K-way gabungan bersama dengan membuat file indeks berbasis bidang.
Misalnya, index0.txt, index1.txt, index2.txt dihasilkan. File -file ini mungkin berisi kata yang sama. Oleh karena itu, Kay Way gabungan diterapkan dan file berbasis lapangan dihasilkan bersama dengan offset masing -masing. File berbasis bidang ini dihasilkan menggunakan multi-threading. Ini membantu dalam melakukan beberapa I/O secara bersamaan. Seiring dengan ini file kosa kata juga dihasilkan.
Seiring dengan ini saya juga telah menyimpan offset dari masing -masing file lapangan. Ini mengurangi waktu pencarian untuk o (logm * logn) di mana m adalah jumlah kata dalam file kosa kata dan m adalah jumlah kata dalam file bidang terbesar.
Folder SRC berisi file -file berikut:
### Fungsi Utama:
Untuk menjalankan kode ini jalankan yang berikut: python wikiindexer.py ./sampleText ./outputFolderPath
Untuk menjalankan kode ini, jalankan yang berikut: Python Search.py ./outputFolderPath
### Fungsi Pembantu:
TextProcessing.py Fungsi helper ini melakukan semua preprocessing. Itu bertindak sebagai penolong untuk search.py, wikiindexer.py
FileHandler.py Fungsi ini melakukan semua preprocessing file. Itu bertindak sebagai penolong untuk wikiindexer.py