لم يكن تطوير هذا المستودع ممكنًا دون دعم العديد من الشركاء والرعاة. أحد هؤلاء الشركاء هو DragingBee ، وهي خدمة تجريف ويب سحابة مع بعض ميزات الكشف المدمجة في مكافحة البوت.
DragingBee - اشترك في تجربة مجانية واحصل على -10 ٪ على الفاتورة الأولى مع رمز "niespodd"
سواء كنت بدأت للتو في إنشاء مكشطة ويب من نقطة الصفر وتتساءل عما تفعله خطأ لأن الحل الخاص بك لا يعمل ، أو كنت تعمل بالفعل مع الزاحف لفترة من الوقت وتتعلق على صفحة تمنحك خطأً في قول أنك روبوت ، لا يمكنك الذهاب إلى أبعد من ذلك ، والاستمرار في القراءة.
تطورت الحلول المضادة للبوت في السنوات الأخيرة. تقدم المزيد والمزيد من مواقع الويب تدابير أمان: من تلك البسيطة ، مثل تصفية عناوين IP وفقًا لموقعها الجغرافي ، إلى تلك المتقدمة بناءً على تحليل متعمق لمعلمات المتصفح والتحليل السلوكي. كل هذا يجعل محتوى تجريف الويب أكثر صعوبة ومكلفة من بضع سنوات مضت. ومع ذلك ، لا يزال ذلك ممكنًا. هنا أبرز بعض النصائح التي قد تجدها مفيدة.
أدناه يمكنك العثور على قائمة بالخدمات المنسقة التي اعتدت أن أتجول فيها حماية مختلفة لمكافحة البوت. اعتمادًا على حالة الاستخدام ، قد تحتاج إلى واحدة مما يلي:
| السيناريو/الاستخدام | حل | مثال |
|---|---|---|
| جلسات قصيرة الأجل بدون مصادقة | مجموعة من عناوين IP الدوارة | يأتي ذلك في متناول يديك عندما تتخلص من مواقع الويب مثل Amazon أو Walmart أو Public LinkedIn. هذا هو أي موقع ويب لا يلزم فيه تسجيل الدخول. أنت تخطط لصنع عدد كبير من الجلسات قصيرة الأجل ويمكنك تحمل حظرها بين الحين والآخر. |
| مواقع الويب المقيدة جغرافيا | مجموعة خاصة بعناوين IP | يكون هذا مفيدًا عندما يستخدم موقع الويب جدار حماية مماثل لجدار الحماية من CloudFlare لمنع الجغرافيا بأكملها من الوصول إليها. |
| جلسات طويلة الأجل بعد تسجيل الدخول | مجموعة قابلة للتكرار من عناوين IP ومجموعة مستقرة من بصمات المستعرض | السيناريو الأكثر شيوعًا هنا هو أتمتة الوسائط الاجتماعية ، على سبيل المثال ، تقوم بإنشاء أداة لأتمتة حسابات الوسائط الاجتماعية لإدارة الإعلانات بشكل أكثر كفاءة. |
| الكشف القائم على جافا سكريبت | استخدام مكتبات التهرب الشهيرة ، على غرار Beppeteer-Extra-Plugin-rike | هناك عدد من المواقع الإلكترونية التي تستخدم بصمات الأصابع التي يمكن تجاوزها بسهولة عندما تستخدم مكونات إضافية مفتوحة المصدر مثل المكون الإضافي المذكور للعرائس الشبح للعمل مع برنامجك الحالي. |
| الكشف عن تقنيات بصمات المتصفح | بصمات المتصفح الطبيعية. وهذا يعني ، بعد أن غطت السطح بأكمله الذي يتم التحقق منه بواسطة حل JavaScript المثبت على موقع الويب المستهدف. | هذه هي واحدة من الحالات الأكثر تقدما. الأمثلة الرئيسية هي معالجات بطاقات الائتمان مثل Adyen أو Stripe. يتم إنشاء بصمة متصفح متطورة للغاية للكشف عن الاحتيال الائتماني ، أو مطالبة بإذن إضافي من المستخدم. |
| مجموعة فريدة من تقنيات الكشف | برامج BOT المتخصصة التي تستهدف سطح الكشف الفريد لموقع الويب المستهدف. | ومن الأمثلة الجيدة على مواقع Sneakers Marketplace ومتاجر التجارة الإلكترونية ، والتي ورد أنها تتعرض للهجوم الشديد من برامج الروبوت المخصصة. |
| تقنيات اكتشاف بسيطة مصنوعة خصيصًا | قبل الغوص في أي مما سبق ، إذا كنت تستهدف موقع ويب أصغر ، فمن المحتمل جدًا أن يكون كل ما تحتاجه هو برنامج نصي لخداع مع تعديلات ، وكيل مركز بيانات رخيص ، وأنت على ما يرام. | - |
بمجرد أن تقرر نوع التهرب الذي سيكون مطلوبًا في مشروعك ، يمكنك استخدام القائمة أدناه لاختيار أفضل مزود لمشروعك:
| يكتب | خدمة | ملحوظة |
|---|---|---|
| الوكيل | الوكيل الاجتماعي ![]() | موصى به للغاية؟ ✔ PROS : تعد تجمعات IP جيدة باستمرار ، على عكس "أسماك القرش الكبيرة" الحالية لصناعة الوكيل التي تتقاضى لكل جيجابايت ، هنا تحصل على حركة مرور غير محدودة ضمن نقطة نهاية دوارة. نموذج أعمال شفاف. السلبيات: تقتصر التغطية الجيولوجية على البلدان المدرجة على الموقع. لم يتم تدوير IP على الفور ، لكنك تفضل الانتظار من 10 إلى 15 ثانية. |
BrightData (شبكات Luminati سابقًا)![]() | واحدة من أكثر الموفرات الأكثر شعبية ، ولكن ربما أغلى مزود وكيل. يتم الحصول على تجمع IP بشكل أساسي من مستخدمي HolavPN و SDK تسييل التطبيق. | |
Oxylabs![]() | منافس لـ BrightData مع المزيد من منتجات الكشط بدون رمز/منخفضة الرمز. | |
| الكشط كخدمة | DragingBee![]() | موصى به للغاية؟ واحدة من أكثر الكشط خلسة تقدم كخدمة. في بعض الأحيان ، قد يكون الأمر أرخص من بناء حل كشط مخصص - فهي لا تتقاضى رسومًا عن مقدار حركة المرور المستخدمة. |
apify.com![]() | تطورت Apify إلى منصة SaaS الكاملة للأتمتة والأتمتة ، مع أدوات جاهزة ، وكيل متكامل ، وحلول مخصصة للتخلص من أي مقياس. يمكن للمطورين أيضًا إنشاء كاشطات على النظام الأساسي واستئجارهم للمستخدمين الآخرين. | |
| De-Captcha كخدمة | مكافحة Captcha: خدمة حل Captcha. RECAPTCHA ، FUNCAPTCHA (...)![]() | وضوح الذات. قبلت البيتكوين ❤. |
هذه قائمة غير شاملة للشركات التي توفر الحلول الأكثر تقدماً لمكافحة الشركات للشركات التي تتراوح من مواقع التجارة الإلكترونية الأصغر إلى شركات Fortune 500:

انضم إلى extra.sommunity. هناك تشغيل جهاز اختبار تلقائي بوتسي McBotface يستخدم العديد من التقنيات المعقدة لتحديد الحماية الدقيقة التي يستخدمها موقع الويب الذي تم اختباره (ائتمانات لـ Berstend وغيرها من #Insiders).
من المهم أن تستخدم هذا البرنامج على مسؤوليتك الخاصة. بعضهم يحتوي على malwares فقط لمعلوماتك. لا أوصي باستخدامها.
| متصفح التخفي | العرائس | السيلينيوم | التناغم | SDK/الأدوات | أصل |
|---|---|---|---|---|---|
| غولوين | ✔ | ✔ | ؟ | ؟ | ؟ + ؟؟ |
| التخفي | ✔ | ✔ | ؟ | ✔ | ؟ ❓ |
| Clonbrowser | ✔ | ✔ | ؟ | ✔ | ؟ |
| Multilogin | ✔ | ✔ | ؟ | ✔ | ؟ + ؟؟ |
| متصفح النيلي | ✔ | ✔ | ؟ | ✔ | ؟ |
| Ghostbrowser | ؟ | ؟ | |||
| كاميليو | ✔ | ✔ | ؟ | ✔ | ؟ |
| Antbrowser | ؟ | ||||
| Chebrowser | ؟/✔ | ؟ | ؟ |
أسطورة: ؟ - التهرب على أساس الضوضاء. - رقم ✔ - مقبول (مع مكتبات الدعم أم لا). ؟ - لطيف جدًا.
على هذا الريبو سيكون موضع تقدير !
أدرس هنا جوانب مختلفة من تقنيات التهرب المستخدمة للالتفاف على أنظمة اكتشاف الروبوت التي تستخدمها مواقع الويب الرئيسية عبر الإنترنت. أقوم بتغطية كل من المسائل التقنية وغير الفنية ، بما في ذلك التوصيات ، والمراجع إلى الأوراق العلمية والمزيد.
تستند النتائج الفنية التي أشاركها أدناه إلى ملاحظات حول تشغيل البرامج النصية لتجشيد الويب لبضعة أشهر ضد مواقع الويب المحمية من قبل بائعي الحلول الرئيسيين.
أضيف باستمرار أشياء إلى هذا القسم. بمرور الوقت ، سأحاول أن أجعلها تبدو أكثر تنظيماً.
✔ الفوز / فشل /؟ رَابِطَة :
navigator العام windowUser-Agent ). هناك شرح مفصل لهذه القضية. يبدو أن التهرب الأكثر موثوقية لا يتم تخزينه على نظام التشغيل المضيف على الإطلاق ، أو باستخدام Osfooler-NG.window.outerdimensions Evasion ، فإنه لن يعمل بدون تكوين صحيح على نظام التشغيل غير الافتراضي في الوضع غير المسموح به ؛ يفشل دائمًا تقريبًا عندما يكون viewport size >= screen resolution (شاشة دقة شاشة منخفضة على المضيف).ServiceWorker / WebWorker عبر واجهات برمجة تطبيقات Puppeteer الموجودة.navigator و window Properties - وفقًا للوثائق المتعددة الأطراف ، يقوم المتصفح المخصص ببناء عادة خلف أحدث الإضافات التي يضاف إليها بائعي المتصفح. في هذه الحالة ، يتم استخدام chromium m7x المعدلة (ما يقرب من 10 إصدارات وراء كتابة هذا).puppeteer-extra-plugin-stealth مثل ML و Kameleo ، توفر على الأكثر تجاوزًا للمكونات الإضافية والامتدادات الأصلية التي يتم شحنها مع Google Chrome.TBD (إذا كان لديك اشتراك نشط في أي من هذه الخدمات ولا تمانع في مشاركة حساب يسقطني رسالة بريد إلكتروني ❤)
قد تكون مواقع الويب هذه مفيدة لاختبار تقنيات البصمات مقابل برنامج تجريف الويب
| صفحة الاختبار | ملحوظات |
|---|---|
| https://bot.incolumitas.com/ | مجموعة مفيدة للغاية ومفيدة من الاختبارات |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | بصمة قماش على المنشطات |
| https://pixelscan.net/ | ليس واقعية بنسبة 100 ٪ لأنها غالبًا ما تعرض "غير متناسقة" للكروم بعد تحديث جديد ، ولكن يستحق التحقق من أن المؤلف يضيف ميزات اكتشاف جديدة مثيرة للاهتمام بين الحين والآخر |
| https://browserleaks.com/ | لا يحتاج إلى مقدمة |
| https://f.vision/ | صفحة اختبار جيدة النوعية من بعض؟ شباب |
| https://www.ipqualityscore.com/ip-reputtry-check | الخدمة التجارية مع فحص السمعة المجانية ضد السوداء الشعبية |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | سجل Recaptcha بالإضافة إلى بعض الملاحظات المثيرة للاهتمام حول كيفية تحسين تكاليف حل Captcha |
| https://ja3er.com/ | SSL/TLS بصمات الأصابع |
| https://fingerprintjs.com/demo/ | جيد للاختبارات الأساسية - من الأشخاص الذين يؤمنون والمطالبون يمكن أن يخلقوا بصمات فريدة من نوعها "99.5 ٪" من الوقت |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | تحقق من درجة recaptcha |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | حقا زاحف ، الأقوى على الإطلاق |
أحتاج إلى تقديم ملاحظة عامة للأشخاص الذين يقومون بتقييم (و/أو) التخطيط لتقديم البرامج المضادة للبوت على مواقع الويب الخاصة بهم. برنامج مكافحة البوت هو هراء. بيع زيت الثعبان لأشخاص دون معرفة تقنية لباكز ثقيلة.
يعتمد حظر حركة مرور الروبوت على فرضية أن أنت (أو مزود التكنولوجيا الخاص بك) يمكن أن تميز الروبوتات عن المستخدمين الحقيقيين . لتحقيق ذلك ، يتم تطبيق العديد من التقنيات الغازية للخصوصية. حتى الآن لم يثبت أن أيا منهم ناجح ضد أدوات تجريف الويب المتخصصة. برنامج مكافحة البوت هو كل شيء عن تقليل حركة الروبوت الرخيصة. إنه يجعل عملية تجريف أكثر تكلفة وتعقيدًا ، ولكنها لا تجعلها مستحيلة تمامًا .
يستخدم بائعي البرامج المضادة للبرامج تقنيات الكشف التي تنقسم إلى واحدة من هاتين الفئتين:
لا يتم استخدام برنامج تجريف ويب متخصص. يمكن للبائع اكتشاف حركة المرور السيئة استنادًا إلى المعلومات التي تم الكشف عنها علناً بواسطة رأس الكاشطة على سبيل المثال ، User-Agent الاتصال ، إلخ.
ونتيجة لذلك ، يتم حظر فقط الروبوتات غير المستهدفة لكشط موقع ويب معين . سيجعل هذا معظم المديرين سعداء ، لأن العدد الإجمالي لحركة المرور السيئة قد انخفض وقد يبدو أنه لا يوجد المزيد من حركة الروبوت على الموقع. خطأ.
تستفيد أجهزة كاشطات الويب الأكثر تقدماً من الوكلاء السكنيين وتنفيذ تقنيات التهرب المعقدة لخداع البرامج المضادة للبوت للاعتقاد بأن مكشطة الويب هي مستخدم حقيقي. لا توجد آلية اكتشاف للتغلب على هذا بسبب التقادم الفني لمتصفحات الويب.
في هذه الحالة ، سيكون في معظم الوقت قادرًا على تجميع حركة المرور السيئة فقط من خلال إيجاد أنماط في حركة المرور والسلوك. هذا هو المكان الذي يلعب فيه بصمة المتصفح. المشكلة في حظر حركة المرور هنا هي أنه قد يتحول إلى عملية محفوفة بالمخاطر عندما تحاكي الروبوتات المستخدمين الحقيقيين بنجاح. هناك فرصة لأن يصبح موقع الويب من خلال منع روبوتات الموقع غير متاح للزوار الحقيقيين .
إذا كنت تعتقد أن هذه طريقة للذهاب إلى Google "Captcha Resolve API".
إذا كانت لديك مشاكل في تجريف موقع ويب معين ، فاكتب لي بريدًا إلكترونيًا قصيرًا على [email protected] . دعونا نسترجع سريعًا عن Tête-à-tête عبر Skype؟
هل ذكرت أن يكون موضع تقدير؟ :-)
➡ عنوان Ethereum 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6