Weibo Terminator تدفق العمل
هذا المشروع هو النسخة التي تم إعادة تشغيلها من المشروع السابق. فيما يلي عنوان المشروع السابق ، سيظل المشروع محدثًا. هذا هو النسخة العاملة من Weibo Terminator. قام هذا الإصدار ببعض التحسينات إلى الإصدار السابق. الهدف النهائي هنا هو الزحف إلى مجموعة ، بما في ذلك تحليل المشاعر ، ومجموعة الحوار ، والسيطرة على مخاطر الرأي العام ، وتحليل البيانات الضخمة والتطبيقات الأخرى.
تحديث 2017-5-16
التجديد:
- تعديل أول منطق اكتساب ملفات تعريف الارتباط ، وإذا لم يكتشف البرنامج ملفات تعريف الارتباط ، فسوف يخرج ، ويمنع زحف المزيد من المحتوى والتعطل ؛
- تمت إضافة فئة Weiboscraperm ، والتي لا تزال قيد الإنشاء. تطبيق PR PR مرحب به. ينفذ هذا الفئة بشكل أساسي الزحف من اسم مجال Weibo آخر ، أي اسم مجال الهاتف المحمول ؛
يمكنك سحب التحديث.
تحديث 2017-5-15
بعد بعض التعديلات البسيطة وعلاقات العلاقات العامة للعديد من المساهمين ، خضع المدونة لبعض التغييرات البسيطة. في الأساس ، يتم إصلاح الأخطاء وتحسين بعض المنطق ، والتعديلات هي كما يلي:
- إصلاح مسألة حفظ الخطأ. عندما تدفع المرة الأولى التي تحتاج فيها إلى سحب رمز الاستنساخ ؛
- الخطأ في
WeiboScraper has not attribute weibo_content ، تم إصلاح الرمز الجديد ؛
fence أرسل العلاقات العامة لتعديل بعض المحتوى:
- يتم استبدال بقية 30s الأصلي الثابتة بوقت عشوائي ، ويمكن تعريف المعلمات المحددة من قبل نفسك.
- تمت إضافة big_v_ids_file لتسجيل معرفات المشاهير التي تم حفظها للجماهير ؛ استخدم تنسيق TXT لتسهيل المساهم في إضافة وحذف يدويًا
- تم تغيير صفحات الزحف لكلتا وظيفتين إلى الصفحة+1 لتجنب الزحف المتكرر عندما تستمر نقطة التوقف في الزحف.
- تغيير الأصلي "All Weibo والتعليقات بعد زحف معرف" إلى "حفظ بعد الزحف تغريدة والتعليقات بعد الزحف تغريدة"
- (اختياري) ضع الجزء الذي يحفظ الملف كدالة بشكل منفصل ، لأن هناك 2 و 3 أماكن للحفظ على التوالي.
يمكنك git pull origin master للحصول على الإصدار المحدث حديثًا. في الوقت نفسه ، نرحب بك لمواصلة سؤالني عن Uuid. سأقوم بانتظام بنشر القائمة في contirbutor.txt . لقد قمت بعمل دمج البيانات مؤخرًا ، بالإضافة إلى تنظيف البيانات ، تصنيف ، وما إلى ذلك. بعد اكتمال عمل الدمج ، سأقوم بتوزيع مجموعة البيانات الكبيرة على الجميع.
يحسن
تم إجراء التحسينات التالية على الإصدار السابق:
- بدون الكثير من الانحرافات ، انتقل مباشرة إلى الموضوع ، وإعطاء المعرف ، واحصل على كل Weibo ، وعدد Weibo ، وعدد المعجبين ، وجميع محتوى Weibo ومحتوى التعليق للمستخدم ؛
- بخلاف الإصدار السابق ، هذه المرة هي فلسفتنا هي حفظ جميع البيانات في ثلاثة ملفات المخلل وتخزينها في ملفات القاموس. والغرض من ذلك هو تسهيل زحف نقطة التوقف.
- في الوقت نفسه ، لن يزحف الزاحف الذي زحف مرة أخرى ، مما يعني أن الزاحف سوف يتذكر الهوية المزروعة. بعد أن حصل كل معرف على جميع المحتوى ، سيتم تمييزه كما يزحف ؛
- بالإضافة إلى ذلك ، يتم فصل تعليقات Weibo و Weibo بشكل منفصل. هناك انقطاع أثناء زحف محتوى Weibo. في المرة الثانية ، لن يتم الزحف مرة أخرى ، وسيستمر رقم الصفحة المقاطع في الزحف من رقم الصفحة المقاطع ؛
- ما هو الأهم! ! ! كل معرف الزحف ليس له أي تأثير على بعضها البعض. يمكنك استرداد أي محتوى معرف مباشرة من المعرف الذي تريده من ملف Pickle ، ويمكنك القيام بأي معالجة! !
- بالإضافة إلى ذلك ، تم اختبار استراتيجية مكافحة الزحف الجديدة ، وكانت آلية التأخير التي تم تبنيها قادرة على العمل بشكل جيد ، لكنها لم يتم التحكم فيها تمامًا.
ما هو الأهم! ! ! ، في هذا الإصدار ، تم تحسين ذكاء الزاحف بشكل كبير. عندما يزحف Crawler من كل معرف ، سيحصل تلقائيًا على جميع معرفات المعرف! ! يعادل ذلك ما أقدمه لك هو معرف البذور ، ومعرفات البذور هي معرفات بعض المشاهير أو الشركات أو الوسائط الكبيرة مقابل. من معرفات البذور هذه ، يمكنك الحصول على الآلاف من معرفات البذور الأخرى! ! إذا كان لدى أحد مشجعي المشاهير 34000 ، فيمكنك الحصول على 34000 معرف لأول مرة الزحف ، ثم تواصل الزحف من معرف الطفل. يحتوي كل معرف طفل على 100 معجب ، وفي المرة الثانية التي يمكنك بها الحصول على 3.4 مليون معرف! ! ! هل هو كاف؟ ! ! ! بالطبع لا يكفي! ! !
مشروعنا لن يتوقف أبدا! ! ! سوف يستمر حتى يتم حصاد كمية كافية! ! !
(بالطبع لا يمكننا في الواقع الحصول على جميع المعجبين ، لكن هذه كافية.)
تدفق العمل
الهدف من هذا الإصدار هو استهداف المساهم ، وسير العمل لدينا بسيط للغاية:
- احصل على uuid. يمكن لهذا UUID استدعاء 2-3 معرفات من distribution_ids.pkl. هذا هو معرف البذور لدينا. بالطبع ، يمكنك أيضًا الحصول على جميع المعرفات مباشرة. ومع ذلك ، من أجل منع العمل المكررة ، يوصى بتقديم طلب للحصول على uuid مني. أنت مسؤول فقط عن واحد الخاص بك. بعد الزحف ، سوف تغذي الملف النهائي لي. بعد أن أقوم بفرز الحمل الثقيل ، سأقوم بتوزيع المجموعة الكبيرة النهائية للجميع.
- Run
python3 main.py uuid ، اسمحوا لي أن أشرح هنا أن معرف المروحة الزاحف سيتم استرداده بعد زحف المعرف المحدد بواسطة Uuid ؛ - منتهي!
يناقش
ما زلت أقوم بنشر مجموعة مناقشة ، والجميع مرحب بهم لإضافة:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
يمكنك إضافة أصدقائي على WeChat: Jintianiloveu
حقوق الطبع والنشر
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0