وفقًا لمجلة Computer World ، فإن بيانات النص غير المهيكلة تمثل ما يقرب من 70 ٪ -80 ٪ من جميع البيانات في المؤسسة. النهج الأكثر شيوعًا للاستفادة من موارد النص للشركة هو جعلها قابلة للبحث باستخدام محرك البحث. في حين أن ذلك في حد ذاته خطوة كبيرة إلى الأمام ، إلا أن هناك الكثير مما يمكن القيام به لاستخراج المزيد من البصيرة من النص. في هذا البرنامج التعليمي ، سوف ننظر في استخراج الكلمات الرئيسية والميزات الأخرى من النص ، باستخدام تقنيات التعلم الإحصائي المعروفة والآلي ، وتحسين كل من البحث عن المحتوى والاكتشاف في هذه العملية. أخيرًا ، نجمع هذه الخيوط معًا لبناء الأنطولوجيا ونظام توصية بسيط. سنستخدم Solr 7.x كمنصة فهرسة لدينا ومجموعة بيانات NIPS Papers ، وهي مجموعة من 7000 ورقة من مؤتمر أنظمة معالجة المعلومات العصبية من 1987-2017 ، مثل مجموعةنا. البرنامج التعليمي إلى حد ما ثقيل الرمز ويستند إلى بيثون ، وعلى الرغم من أن معرفة بيثون ليست مطلوبة ، إلا أن الألفة مع لغة البرمجة ستكون مرغوبة للغاية.
يرجى الرجوع إلى البيانات/README.MD والموديلات/README.MD لتنزيل مجموعة البيانات ونماذج الطرف الثالث.
ارجع أيضًا إلى المتطلبات. txt للعثور على ما إذا كنت بحاجة إلى تثبيت مكتبات إضافية لتثبيت Python3. تم بناء الرمز باستخدام Anaconda Python3 الذي يحتوي على العديد من هذه المكتبات (وليس كلها) من هذه المكتبات المثبتة بالفعل. كانت المكتبة الوحيدة التي لم أستطع العمل فيها هي مكتبة Dedupe ، التي اضطررت إلى تثبيتها على تثبيت Anaconda Python 2 منفصل.
أخيرًا ، يستخدم كل من أجهزة الكمبيوتر المحمولة وتطبيق الويب SOLR 7.x كواجهة خلفية للبحث ، لذلك تحتاج إلى تثبيت ذلك. لبدء Solr ، انتقل إلى دليل Solr Home ، وقم بتشغيل الأمر التالي. يمكن الوصول إلى وحدة تحكم SOLR من متصفحك على http: // localhost: 8983.
cd <solr_home>
bin/solr start
تتكون قاعدة الكود من مجموعة من أجهزة الكمبيوتر المحمولة ضمن مجلد دفاتر الملاحظات وتطبيق ويب قائم على القارورة ضمن مجلد WebTool الذي يوفر نهاية أمامية لعرض تطبيق مخرجات تقنيات هندسة المحتوى المختلفة مقابل مؤشر البحث الذي يحتوي على أوراق NIPS.
لتشغيل خادم دفتر الملاحظات ، انتقل إلى دليل الدفاتر الفرعية ، ثم تشغيل الأمر التالي. افتراضيًا ، يكون عنوان URL الافتراضي للانتقال إلى متصفحك للوصول إلى دفاتر الملاحظات هو http: // localhost: 8888/. يمكنك أيضًا العثور على عنوان URL من سجلات الخادم التي يتم كتابتها على وحدة التحكم.
cd <project_home>/notebooks
jupyter notebook
لتشغيل تطبيق الويب ، انتقل إلى دليل WebTool الفرعي ، ثم قم بتشغيل الأمر التالي. سيبدأ تطبيق الويب في الاستماع على المنفذ 5000. للوصول إلى التطبيق من متصفحك ، انتقل إلى http: // localhost: 5000.
cd <project_home>/webtool
python webtool.py