Wunner
Mesin pencari mainan yang mencari web di dalam terminal Anda: P
Fitur
- Diimplementasikan dalam C ++ 14.
- Halaman web merangkak secara progresif mulai dari URL biji.
- Parses dokumen dan kueri, mencoba menghasilkan hasil yang lebih tepat.
- Membangun indeks (peta hash) untuk dokumen parsed.
- Dokumen dan indeks merangkak disegarkan secara berkala.
- Kueri AutoCompletes Menggunakan Trie, berdasarkan kueri yang paling baru ditanyakan.
- Memelihara dua utas, untuk memungkinkan menyegarkan indeks dan menanyakan simultaneosly.
- Menghasilkan hasil yang paling relevan untuk peringkat berdasarkan rata-rata harmonik PageRank (untuk mendapatkan pentingnya halaman web) dan peringkat algoritma OKAPI BM25 (untuk mendapatkan hasil berbasis kueri).
- Memberikan saran kueri (hanya ketika kueri input tidak menghasilkan hasil apa pun), berdasarkan kata yang salah dan benar. Peringkat mereka menggunakan algoritma N-Gram dan DP Edit-Distance untuk membandingkan dua string.
Langkah untuk dijalankan
Perintah untuk menjalankan: wunner_search (pastikan PWD Anda adalah direktori root proyek)
Tambahkan opsi -f atau --fresh seperti di wunner_search -f untuk menyalakan mesin pencari lagi (yaitu, merangkak dan mengindeks lagi)
- Setelah pengindeksan selesai, cukup ketik kueri Anda dan tekan enter untuk mulai mencari
- Untuk menggunakan AutoComplete, tekan Ctrl+G saat mengetik kueri dan kemudian ketikkan nomor hasil yang diinginkan untuk menyelesaikan kueri (itu tidak relevansi sampai UI web dikembangkan)
Langkah untuk membangun
- Clone (
git clone https://github.com/Anishka0107/Wunner.git ) atau unduh repositori ini -
cd Wunner dari mana itu dikloning/diunduh
Build (diuji di Linux)
- Persyaratan: GCC (5.0 & di atas) / dentang (3.4 & di atas), Boost, Wget
- Dua opsi:
- Membutuhkan
ar :- Jalankan
chmod +x wunner_build.sh - Jalankan
./wunner_build.sh (Perhatikan bahwa ini default ke g ++ compiler; tambahkan nama kompiler untuk menggunakan yang lain, misalnya: ./wunner_build.sh clang++ )
- Membutuhkan
cmake dan make :- Jalankan
mkdir -p build && cd build && cmake .. && make -j$(nproc)
- Akhirnya jalankan
wunner_search (baik secara langsung ./build/bin/wunner_search atau do export PATH=$PATH:${PWD}/build/bin sebelumnya)
Berbasis Docker (untuk Linux/Windows/OS-X)
- Siapkan Docker di sistem Anda (Butuh Root Privilgges untuk Perintah Docker)
- Bangun gambar menggunakan
docker build -t wunner . - Jalankan Menggunakan
docker run -v ${PWD}:/tmp wunner wunner_search (Append Wunner_search Opsi jika diperlukan)
Daftar periksa TODO:
Sumber daya
- URL biji crawler ->
- Kata -kata yang salah ->
- Daftar kata -kata berhenti -> https://www.webconf.com/stop-words.php