การค้นหาเป็นงานที่ยากเพราะต้องใช้เวลามากในการดำเนินการ หากเรามีชุดข้อมูลขนาดใหญ่ถ้าเราทำการค้นหาแบบหนึ่งต่อหนึ่งมันจะต้องใช้เวลากับผู้ใช้มาก

เรามีชุดข้อมูล Overflow Stack จาก Kaggle Link: https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction/data
ตอนนี้เรามีงาน:
SearchEngine_data.ipynb: ในสมุดบันทึกนี้เราได้รับข้อมูลของเราและลบรายการซ้ำ จากนั้นเราก็ไปเพื่อเลือกแท็กที่เราต้องการ เราใช้การประมวลผลหลายครั้งเพื่อทำเช่นนั้นโดยใช้ 4 คอร์ร่วมกันเพิ่มความเร็วและทำงานได้ 2.5 ชั่วโมงใน 1 ชั่วโมง เราบันทึก dataframe ที่ประมวลผลใหม่ในฐานข้อมูล SQLite
preprocessing.ipynb: ในสมุดบันทึกนี้เรากำลังประมวลผลข้อมูลในชื่อเรื่องเช่นคำถามของเรา เรากำลังลบแท็ก HTML และช่องว่างและขยะหรือคำหยุดอื่น ๆ
SearchEngine_data.ipynb: ในสมุดบันทึกนี้เรากำลังสร้างระบบเพื่อเข้าถึงการสืบค้นนั่นคือขั้นตอนเริ่มต้นของการสร้างระบบการทำนายของเรา ก่อนอื่นเราทำให้ข้อมูลทั้งหมดของข้อมูลทั้งหมดและใช้ระยะทางคู่ระหว่างการสืบค้นและฐานข้อมูล แต่ผลลัพธ์ไม่ได้เกินเครื่องหมาย TFIDF ทำงานได้ดีกว่าธนู
classificationmachinelearning.ipynb: เช่นเดียวกับในขั้นตอนที่ 3 เราไม่สามารถได้รับผลลัพธ์ที่ดีดังนั้นสิ่งที่เราจะทำคือการใช้การเรียนรู้ของเครื่องคลาสสิก ดังนั้นสิ่งที่ฉันทำคือใช้ข้อมูลนี้เพื่อสร้างรูปแบบการเรียนรู้ของเครื่อง ชื่อเรื่องเป็นค่าสตริงดังนั้นเราจึงใช้ TFIDFVECTERIZER ASS TFIDF ทำงานได้ดีกว่า BOW ในขั้นตอนที่ 3 ขั้นตอนต่อไปเราแบ่งโมเดลออกเป็นรถไฟ, CV, ทดสอบ เนื่องจากเรามีเวกเตอร์กระจัดกระจายเรามี 2 ตัวเลือก LR หรือ SVM เราแสดงทั้ง UNIGRAM และ BIGRAM แต่บนบิ๊กรัมมันเกินไป จากนั้นในที่สุดเราก็ใช้ LR กับ Unigram เนื่องจากประสิทธิภาพของมันดีกว่า
จากนั้นหลังจากทำนายภาษาการเขียนโปรแกรมของแบบสอบถามแล้วเราก็เพิ่มสิ่งนั้นในแบบสอบถามของเรา สาเหตุส่วนใหญ่เมื่อเราค้นหาบางอย่างบน stackoverflow เรามักจะเพิ่มแท็กด้วยคำถามของเรา
จากนั้นเราก็ทำตามขั้นตอนที่เราทำในขั้นตอนที่ 3 และผลลัพธ์ของเราก็ดีขึ้นมาก