MLSearchEngine Download - MLSearchEngine Source Code Download

MLSearchEngine

شفرة المصدر الأخرى

1.0.0

تنزيل

محرك البحث المستند إلى ML

يعد البحث مهمة صعبة حيث يستغرق الكثير من الوقت لأداءها. إذا كان لدينا مجموعة بيانات كبيرة ، فإذا قمنا ببحث واحد إلى واحد ، فسيستغرق الأمر الكثير من وقت المستخدم.

عمل :

Alt text

مجموعة البيانات:

لدينا مجموعة بيانات Overflow من Kaggle Link: https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction/data

حتى الآن لدينا مهمة:

سيقوم المستخدم بإدخال استعلام يتعلق بالرمز.
علينا لمعالجة الاستعلام.
نتائج العودة مطابقة لاستعلامنا.

القيد:

لدي ذاكرة الوصول العشوائي بسعة 8 جيجابايت ومجموعة البيانات من 7 جيجابايت ، وبالتالي فإن استخدامها سيكون أمرًا صعبًا. لذلك نحن نستخدم SQLite لمعالجة المعلومات.
يتعين علينا تقليل البيانات ، لذلك أنا أتناول فقط أسئلة مرتبطة بـ C#و C ++ و C و Java و iOS

سير العمل:

SearchEngine_Data.ipynb: في هذا الكمبيوتر الدفتري ، نحصل على بياناتنا ونزيل التكرارات. ثم ننتقل إلى تحديد العلامات التي نريدها. استخدمنا المعالجة المتعددة للقيام بذلك لأن استخدام 4 نوى معًا زاد من السرعة وقام بعمل 2.5 ساعة في ساعة واحدة. قمنا بحفظ DataFrame المعالج الجديد في قاعدة بيانات SQLite.
Preprocessing.ipynb: في هذا الكمبيوتر الدفتري ، نقوم بتعامل مع المعالجة للبيانات في العنوان أي أسئلتنا. نقوم بإزالة أي علامات ومسافات HTML وغيرها من الكلمات غير المرغوب فيها أو الإيقاف.
SearchEngine_Data.ipynb: في هذا الكمبيوتر الدفتري ، نقوم بإنشاء نظام للوصول إلى الاستعلامات ، أي خطوة بدء بناء نظام التنبؤ الخاص بنا. قمنا أولاً بتجميع البيانات بأكملها واستخدمنا المسافة الزوجية بين الاستعلام وقاعدة البيانات ولكن النتائج لم تكن حتى العلامات. أداء TFIDF أفضل من القوس.
تصنيف machinelearning.ipynb: كما في الخطوة الثالثة ، لم نتمكن من الحصول على نتائج جيدة ، لذلك ما سنفعله هو استخدام بعض التعلم الآلي الكلاسيكي. إذن ما فعلته هو استخدام هذه البيانات لصنع نموذج التعلم الآلي. العنوان هو قيم سلسلة ، لذلك استخدمنا TFIDFVectorizer ASS TFIDF أداء أفضل من القوس في الخطوة الثالثة. الخطوة التالية قمنا بتقسيم النموذج إلى القطار ، السيرة الذاتية ، اختبار. نظرًا لأننا كان لدينا مثل هذا المتجه المتفرق ، كان لدينا خياران LR أو SVM. لقد قمنا بعمل على كل من Unigram و Bigram ولكن على Bigram كان مناسبة. ثم استخدمنا أخيرًا LR مع Unigram لأن أدائها كان أفضل.

ثم بعد التنبؤ بلغة البرمجة للاستعلام ، نضيف ذلك في استفسارنا. تسبب في الغالب عندما نبحث عن شيء ما على stackoverflow ، غالبًا ما نضيف علامة مع سؤالنا.

ثم كررنا الخطوات التي قمنا بها في الخطوة الثالثة وكانت نتائجنا أفضل بكثير.

مستقبل :

يمكننا استخدام W2V و TFIDF مرجحة W2V. كما كنت محدودا مع الموارد وبالتالي لم أستطع القيام بذلك.
صنع واجهة برمجة تطبيقات قارورة لجعلها قابلة للتقدم. نظرًا لأن لدينا أيضًا مجموعة من الأسئلة ونحن نعيد فهارس من البحث ، يمكننا استخدام هذا الفهرس لعرضها بطريقة قابلة للتقدم.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-13
الحجم 6.37MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل