Retrieval Informasi
Kata kunci
Elasticsearch, MongoDB, Server Tornado, RESTFUL API, Python, Pengambilan Informasi, Pembelajaran Mesin, Perayap Web
Tangkapan layar
- Cari halaman web

- Hasil Penelitian Elastics

- Antarmuka pencarian

- Hasil pencarian

Perkenalan
Pekerjaan rumah kursus saya "pengambilan informasi", oleh Python 3.
- Instruktur: Virgil Pavlu
- Universitas: Universitas Northeastern
- Kursus: CS6200
- Indeks Elasticsearch
- indeks lebih dari 80000 dokumen ke elasticsearch
- Kecepatan indeks yang dioptimalkan hingga sekitar 15 menit
- Indeks Dokumen
- membuat sendiri "elasticsearch"
- indeks data di kedua dimensi DOC, dan dimensi istilah
- Dua jenis indeks dimensi meningkatkan efisiensi indeks.
- Perayap web
- Topik: Kecelakaan maritim
- Pencarian pertama yang luas untuk mengulangi semua halaman dalam gelombang awal.
- Aplikasi Modul Topik untuk memeriksa relevansi halaman secara akurat
- Total 36000 halaman, lebih dari 50% relevan dengan topik "kecelakaan maritim"
- membedakan halaman yang diinginkan berdasarkan jenis konten header sebelum mengunduhnya.
- Sesi Jaringan Terapan untuk mengembalikan cookie untuk akses ulang yang cepat dan bertugas rendah.
- Urutkan domain sesuai waktu mengakses terakhir, sehingga multi -utas dapat mengakses domain yang berbeda untuk mempercepat merangkak
- Normalisasi tautan HREF dalam metode yang baik, untuk mengurangi laju penurunan halaman
- Komputasi Grafik Web
- PageRank dan hits yang diterapkan untuk mengevaluasi halaman di seluruh set halaman
- Hormat & Keluar Tautan halaman sebagai grafik jaringan yang diarahkan
- Komputasi grafik web adalah semacam pengakuan dari ide "krim naik ke atas":
- Halaman otoritas yang baik dapat direferensikan lebih banyak dan lebih banyak lagi,
- Halaman hub yang bagus menggali halaman otoritas yang lebih baik.
- Penilaian Relevansi Antarmuka Web
- server tornado yang diterapkan sebagai server web, yang dapat diakses dari jarak jauh
- Server berkomunikasi dengan database Elasticsearch untuk mencari dan mengekstraksi data
- MongoDB mengembalikan info halaman untuk mempercepat server web
- Dibuat template HTML berbasis Python untuk membuat halaman hasil pencarian secara otomatis dan fleksibilitas.
- Setel izin masuk untuk memfilter pengguna
- Info Lapisan Aplikasi Terapan untuk mentransfer parameter antar halaman.
- Setelah mendapatkan evaluasi manual, terapkan Kueri Komputasi R-Presisi, Presisi Rata-Rata, NDCG, Presisi dan Penarikan dan F1 untuk mengevaluasi hasil pencarian yang berasal dari set halaman.
- Drew Precision & Recall Graphics untuk kerja sama yang divisualisasikan antara distribusi hasil pencarian dan nilai -nilai sebenarnya yang relevan.
- Pembelajaran mesin untuk IR
- Dengan pemahaman yang lebih baik tentang Elasticsearch, kembali ke dalam dataset, yang mengatur penganalisa baru dengan tokenizer standar, huruf kecil, dan Porter2 Stemmer.
- Setel pemetaan bersarang untuk mengembalikan detail fitur
- membedakan dokumen dengan tipe penelitian elastik yang berbeda
- Untuk dataset dengan data berlabel di dalamnya, belah 80% untuk pelatihan, 20% untuk pengujian
- mencoba kombinasi fitur yang berbeda untuk meningkatkan kinerja modul pembelajaran mesin
- Modul pembelajaran mesin yang berbeda termasuk: Regresi liner, logisticregression, SVM, peringkat SVM