Pencarian adalah tugas yang sulit karena butuh banyak waktu untuk melakukannya. Jika kami memiliki dataset besar maka jika kami melakukan satu ke satu pencarian maka itu akan membutuhkan begitu banyak waktu pengguna.

Kami memiliki dataset overflow stack dari kaggle link: https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction/data
Jadi sekarang kita punya tugas:
Searchengine_data.ipynb: Di buku catatan ini kami mendapatkan data kami dan menghapus duplikat. Kemudian kami melanjutkan untuk memilih tag yang kami inginkan. Kami menggunakan multiprosesing untuk melakukannya karena menggunakan 4 core bersama -sama meningkatkan kecepatan dan melakukan pekerjaan 2,5 jam dalam 1 jam. Kami menyimpan DataFrame yang baru diproses di database SQLite.
Preprocessing.ipynb: Dalam buku catatan ini kami telah melakukan preprocessing data dalam judul yaitu pertanyaan kami. Kami menghapus tag dan spasi HTML dan sampah atau stopwords lainnya dari itu.
Searchengine_data.ipynb: Di buku catatan ini kami membuat sistem untuk mengakses pertanyaan, yaitu langkah awal membangun sistem prediksi kami. Kami pertama -tama vektor seluruh data dan menggunakan jarak berpasangan antara kueri dan database tetapi hasilnya tidak sesuai dengan tanda. TFIDF berkinerja lebih baik daripada busur.
CLASSIFIKASIMACHINELEARNING.IPYNB: Seperti pada langkah ke -3 kami tidak bisa mendapatkan hasil yang baik, jadi yang akan kami lakukan adalah menggunakan beberapa pembelajaran mesin klasik. Jadi apa yang saya lakukan adalah menggunakan data ini untuk membuat model pembelajaran mesin. Judulnya adalah nilai string jadi kami menggunakan tfidfvectorizer ass tfidf berkinerja lebih baik daripada busur pada langkah ke -3. Langkah selanjutnya kami membagi model menjadi tes kereta, CV,. Karena kami memiliki vektor yang jarang, kami memiliki 2 pilihan LR atau SVM. Kami tampil di Unigram dan Bigram tetapi di Bigram itu berlebihan. Kemudian kami akhirnya menggunakan LR dengan unigram karena kinerjanya lebih baik.
Kemudian setelah memprediksi bahasa pemrograman kueri maka kami menambahkannya dalam kueri kami. Sebagian besar karena kami mencari sesuatu di stackoverflow, kami sering menambahkan tag dengan pertanyaan kami.
Kemudian kami mengulangi langkah -langkah yang kami lakukan di langkah ke -3 dan hasil kami jauh lebih baik.