MLSearchEngine Download - MLSearchEngine Source Code Download

MLSearchEngine

Kode sumber lainnya

1.0.0

Unduh

Mesin pencari berbasis ml

Pencarian adalah tugas yang sulit karena butuh banyak waktu untuk melakukannya. Jika kami memiliki dataset besar maka jika kami melakukan satu ke satu pencarian maka itu akan membutuhkan begitu banyak waktu pengguna.

Bekerja :

Alt text

Dataset:

Kami memiliki dataset overflow stack dari kaggle link: https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction/data

Jadi sekarang kita punya tugas:

Pengguna akan memasukkan kueri yang terkait dengan kode.
Kami harus memproses pertanyaan.
Hasil pengembalian cocok dengan kueri kami.

Batasan:

Saya memiliki RAM 8GB dan datasetnya dari 7GB sehingga menggunakannya akan sulit. Jadi kami menggunakan SQLite untuk memproses info.
Kami harus mengurangi data, jadi saya hanya mengambil pertanyaan yang terkait dengan C#, C ++, C, Java dan iOS

Alur kerja:

Searchengine_data.ipynb: Di buku catatan ini kami mendapatkan data kami dan menghapus duplikat. Kemudian kami melanjutkan untuk memilih tag yang kami inginkan. Kami menggunakan multiprosesing untuk melakukannya karena menggunakan 4 core bersama -sama meningkatkan kecepatan dan melakukan pekerjaan 2,5 jam dalam 1 jam. Kami menyimpan DataFrame yang baru diproses di database SQLite.
Preprocessing.ipynb: Dalam buku catatan ini kami telah melakukan preprocessing data dalam judul yaitu pertanyaan kami. Kami menghapus tag dan spasi HTML dan sampah atau stopwords lainnya dari itu.
Searchengine_data.ipynb: Di buku catatan ini kami membuat sistem untuk mengakses pertanyaan, yaitu langkah awal membangun sistem prediksi kami. Kami pertama -tama vektor seluruh data dan menggunakan jarak berpasangan antara kueri dan database tetapi hasilnya tidak sesuai dengan tanda. TFIDF berkinerja lebih baik daripada busur.
CLASSIFIKASIMACHINELEARNING.IPYNB: Seperti pada langkah ke -3 kami tidak bisa mendapatkan hasil yang baik, jadi yang akan kami lakukan adalah menggunakan beberapa pembelajaran mesin klasik. Jadi apa yang saya lakukan adalah menggunakan data ini untuk membuat model pembelajaran mesin. Judulnya adalah nilai string jadi kami menggunakan tfidfvectorizer ass tfidf berkinerja lebih baik daripada busur pada langkah ke -3. Langkah selanjutnya kami membagi model menjadi tes kereta, CV,. Karena kami memiliki vektor yang jarang, kami memiliki 2 pilihan LR atau SVM. Kami tampil di Unigram dan Bigram tetapi di Bigram itu berlebihan. Kemudian kami akhirnya menggunakan LR dengan unigram karena kinerjanya lebih baik.

Kemudian setelah memprediksi bahasa pemrograman kueri maka kami menambahkannya dalam kueri kami. Sebagian besar karena kami mencari sesuatu di stackoverflow, kami sering menambahkan tag dengan pertanyaan kami.

Kemudian kami mengulangi langkah -langkah yang kami lakukan di langkah ke -3 dan hasil kami jauh lebih baik.

Masa depan :

Kita dapat menggunakan W2V W2V dan TFIDF tertimbang. Karena saya terbatas dengan sumber daya dan karenanya tidak bisa melakukannya.
Membuat API Flask untuk membuatnya rapi. Karena kami juga memiliki banyak pertanyaan dan kami mengembalikan indeks dari pencarian, kami dapat menggunakan indeks itu untuk memamerkannya dengan cara yang dapat dipresentasikan.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-13
ukuran 6.37MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua