ดาวน์โหลด MLSearchEngine - MLSearchEngine Source Source Download

MLSearchEngine

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เครื่องมือค้นหาที่ใช้ ML

การค้นหาเป็นงานที่ยากเพราะต้องใช้เวลามากในการดำเนินการ หากเรามีชุดข้อมูลขนาดใหญ่ถ้าเราทำการค้นหาแบบหนึ่งต่อหนึ่งมันจะต้องใช้เวลากับผู้ใช้มาก

การทำงาน :

Alt text

ชุดข้อมูล:

เรามีชุดข้อมูล Overflow Stack จาก Kaggle Link: https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction/data

ตอนนี้เรามีงาน:

ผู้ใช้จะป้อนแบบสอบถามที่เกี่ยวข้องกับรหัส
เราต้องประมวลผลแบบสอบถาม
ส่งคืนผลลัพธ์ที่ตรงกับการสืบค้นของเรา

ข้อ จำกัด :

ฉันมี 8GB RAM และชุดข้อมูลเป็น 7GB ดังนั้นการใช้มันจะเป็นเรื่องยาก ดังนั้นเราจึงใช้ SQLite เพื่อประมวลผลข้อมูล
เราต้องลดข้อมูลดังนั้นฉันจึงใช้คำถามเดียวที่เกี่ยวข้องกับ C#, C ++, C, Java และ iOS

เวิร์กโฟลว์:

SearchEngine_data.ipynb: ในสมุดบันทึกนี้เราได้รับข้อมูลของเราและลบรายการซ้ำ จากนั้นเราก็ไปเพื่อเลือกแท็กที่เราต้องการ เราใช้การประมวลผลหลายครั้งเพื่อทำเช่นนั้นโดยใช้ 4 คอร์ร่วมกันเพิ่มความเร็วและทำงานได้ 2.5 ชั่วโมงใน 1 ชั่วโมง เราบันทึก dataframe ที่ประมวลผลใหม่ในฐานข้อมูล SQLite
preprocessing.ipynb: ในสมุดบันทึกนี้เรากำลังประมวลผลข้อมูลในชื่อเรื่องเช่นคำถามของเรา เรากำลังลบแท็ก HTML และช่องว่างและขยะหรือคำหยุดอื่น ๆ
SearchEngine_data.ipynb: ในสมุดบันทึกนี้เรากำลังสร้างระบบเพื่อเข้าถึงการสืบค้นนั่นคือขั้นตอนเริ่มต้นของการสร้างระบบการทำนายของเรา ก่อนอื่นเราทำให้ข้อมูลทั้งหมดของข้อมูลทั้งหมดและใช้ระยะทางคู่ระหว่างการสืบค้นและฐานข้อมูล แต่ผลลัพธ์ไม่ได้เกินเครื่องหมาย TFIDF ทำงานได้ดีกว่าธนู
classificationmachinelearning.ipynb: เช่นเดียวกับในขั้นตอนที่ 3 เราไม่สามารถได้รับผลลัพธ์ที่ดีดังนั้นสิ่งที่เราจะทำคือการใช้การเรียนรู้ของเครื่องคลาสสิก ดังนั้นสิ่งที่ฉันทำคือใช้ข้อมูลนี้เพื่อสร้างรูปแบบการเรียนรู้ของเครื่อง ชื่อเรื่องเป็นค่าสตริงดังนั้นเราจึงใช้ TFIDFVECTERIZER ASS TFIDF ทำงานได้ดีกว่า BOW ในขั้นตอนที่ 3 ขั้นตอนต่อไปเราแบ่งโมเดลออกเป็นรถไฟ, CV, ทดสอบ เนื่องจากเรามีเวกเตอร์กระจัดกระจายเรามี 2 ตัวเลือก LR หรือ SVM เราแสดงทั้ง UNIGRAM และ BIGRAM แต่บนบิ๊กรัมมันเกินไป จากนั้นในที่สุดเราก็ใช้ LR กับ Unigram เนื่องจากประสิทธิภาพของมันดีกว่า

จากนั้นหลังจากทำนายภาษาการเขียนโปรแกรมของแบบสอบถามแล้วเราก็เพิ่มสิ่งนั้นในแบบสอบถามของเรา สาเหตุส่วนใหญ่เมื่อเราค้นหาบางอย่างบน stackoverflow เรามักจะเพิ่มแท็กด้วยคำถามของเรา

จากนั้นเราก็ทำตามขั้นตอนที่เราทำในขั้นตอนที่ 3 และผลลัพธ์ของเราก็ดีขึ้นมาก

อนาคต :

เราสามารถใช้ W2V W2V และ TFIDF น้ำหนัก W2V เนื่องจากฉันถูก จำกัด ด้วยทรัพยากรและด้วยเหตุนี้จึงไม่สามารถทำได้
การสร้าง API ขวดเพื่อให้เป็นที่เรียบร้อย เนื่องจากเรามีคำถามเกี่ยวกับร่างกายและเรากำลังส่งคืนดัชนีจากการค้นหาเราสามารถใช้ดัชนีนั้นเพื่อแสดงพวกเขาในวิธีที่เหมาะสม

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-13
ขนาด 6.37MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด