نغطي هذا المشروع العديد من قطاعات جمع البيانات من Instagram
تثبيت Python 3.6.0
قم بتثبيت حزمة PIP ، اكتب في سطر الأوامر:
python get-pip.py
تثبيت طلبات PIP (سيؤدي ذلك إلى تثبيت إطارات Django و Selenium)
cd * PATH * / Project
pip install -r requirements.txt
تثبيت عميل Firefox (يمكنك تنزيل متصفح Mozilla Firefox الشهير)
مكتمل
إذا كنت ترغب في استخدام النظام الأساسي على الويب ، فأنت بحاجة إلى نشر نظام Django بالكامل في قاعدة البيانات. نفعل هذا مع الكود التالي:
cd * PATH * / Project / web. / manage.py makemigrations
هذا سيؤدي الهجرات من النموذج. /manage.py migrate تحويل الترحيل من نموذج إلى قاعدة
وصول المستخدم/المسؤول الافتراضي:
لإنشاء مسؤول فائق لديه كل الامتيازات ، اكتب:
./manage.py createsuperuser
أدخل الحقول المطلوبة.
لتشغيل الخادم ، قم بتشغيل الأمر التالي وقم بتنشيط تطبيق الويب Django على المنفذ 8000
./manage.py runserver 8000
يعد استخدام البرنامج النصي لجمع البيانات أمرًا بسيطًا للغاية ، وهنا واجهة برمجة التطبيقات الكاملة التي يمكنك خدمتها.
تحذير! قبل البدء في استخدام أي نوع من الخدمة من الزاحف ، يجب عليك تكوين مستخدم المصادقة Instagram الذي سيتم استخدامه لزحف البيانات المرئية فقط للمستخدمين المصادقين
انتقل إلى المشروع / البرنامج النصي / الإعدادات
تغيير معلومات المصادقة
الافتراضي هو: username = "kiril_cvetkov" password = " * "
أدخل اسم المستخدم وكلمة المرور الخاصة بك التي سيقوم المتصفح من خلالها بتسجيل الدخول.
بمجرد تكوين sniffer الخاص بنا ، يوجد أدناه واجهة برمجة التطبيقات الكاملة بالإضافة إلى مثال لإعطاء صورة كاملة عن كيفية استخدام البرنامج النصي
crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo
اذهب أولاً إلى الدليل حيث يوجد السيناريو
cd * PATH * / Project / script
من أجل تشغيل البرنامج النصي ، ولزحف البيانات من صفحة Bill Gates :) ، يرجى الكتابة:
python crawl.py -num = 30 -page = thisisbillgates -more -db
يمكنك رؤية جميع الصفحات التي يفهرسها الباحث لدينا
يمكنك تصفية الصور التي تحتوي على كلمة رئيسية على اسم الصفحة أو يمكنك البحث حسب الكلمات الرئيسية الواردة في وصفها
يمكنك النقر على صورة محددة وإدراجها في معرض
يمكنك تعديل البيانات من خلال لوحة الإدارة للوصول إلى قسم المسؤول ، اكتب عنوان URL التالي
المضيف المحلي: 8000/المسؤول

إن أكبر استخدام على مثل هذه الهندسة المعمارية المحددة والمنفذة هو أن استرجاع البيانات يمكن أن يجلب لنا قوة هائلة اليوم ، خاصة في مجال البيانات الكبيرة والتعلم العميق وغيرها من خوارزميات التعلم الآلي . إذا بحثنا عن الصور مع علامات التجزئة المعينة ، فإن النظام يعطينا صورًا تحتوي بشكل منطقي على نفس علامة التجزئة. لا يمكننا إلا أن نتخيل كيف يستخدم Instagram علامات التجزئة لتدريب نظام للتعرف على مختلف الأحداث والأشياء والأحداث والمقالات والموديلات في الوقت الفعلي. ولكن مع استخدام هذا البرنامج النصي ، تتوفر لنا جميع المعلومات إذا كنا نعرف كيفية أخذها. تعتبر متصفحات الويب واسترجاع الويب قدرة قوية على كل مطور ومحلل أعمال.