没有许多合作伙伴和赞助商的支持,该存储库的发展是不可能的。这些合作伙伴之一是CrapingBee,这是一款具有一些整洁的内置反机器人检测功能的云网络刮擦服务。
CrapingBee-注册免费试用版,并使用代码“ Niespodd”获得-10%
无论您是刚刚开始从头开始构建Web刮擦,想知道您在做错了什么,因为解决方案无法正常工作,还是您已经与爬行者一起工作了一段时间,并且被困在一个页面上,该页面会给您一个错误,说您是一个机器人,您都不能进一步阅读,请继续阅读。
近年来,反机器人解决方案已经发展。越来越多的网站引入了安全措施:从简单的网站(例如根据其地理位置过滤IP地址),到基于浏览器参数和行为分析的深入分析的高级分析。与几年前相比,所有这些都使网络刮擦内容更加困难和成本。然而,仍然有可能。在这里,我重点介绍了一些您可能会发现有用的技巧。
在下面,您可以找到我用来解决不同反机器保护措施的精选服务列表。根据您的用例,您可能需要以下一个:
| 方案/用例 | 解决方案 | 例子 |
|---|---|---|
| 没有验证的短期会议 | 旋转IP地址池 | 当您刮擦亚马逊,沃尔玛或公共LinkedIn页面等网站时,这很方便。那是任何不需要登录的网站。您计划进行大量短暂的会议,并可以时不时地被阻止。 |
| 地理上受限制的网站 | 特定区域的IP地址池 | 当网站使用类似于Cloudflare的防火墙来阻止整个地理访问它时,这很有用。 |
| 登录后的长期会议 | 可重复的IP地址池和稳定的浏览器指纹集 | 这里最常见的情况是社交媒体自动化,例如您构建一种工具来自动化社交媒体帐户以更有效地管理广告。 |
| 基于JavaScript的检测 | 使用流行的逃避图书馆,类似 | 当您采用开源插件(例如上述木偶式隐形插件)来使用您现有的软件时,有许多使用FingerPrintjs可以轻松绕过的网站。 |
| 用浏览器指纹技术检测 | 天然外观的浏览器指纹。也就是说,涵盖了通过目标网站上已安装的JavaScript解决方案验证的整个表面。 | 这些是最先进的情况之一。主流示例是信用卡处理器,例如Adyen或Stripe。正在创建一个非常复杂的浏览器指纹,以检测信用欺诈,或提示用户的其他授权。 |
| 独特的检测技术集 | 针对目标网站独特检测表面的专门机器人软件。 | 很好的例子是运动鞋市场网站和电子商务商店,据报道是受到定制的机器人软件的重大攻击。 |
| 简单的定制检测技术 | 在深入研究以上任何一个之前,如果您针对一个较小的网站,那么您所需要的只是一个带有调整,廉价数据中心代理的零工脚本,而且您很高兴。 | - |
一旦确定项目需要哪种类型的逃避类型,您就可以使用下面的列表来选择您的项目的最佳提供商:
| 类型 | 服务 | 笔记 |
|---|---|---|
| 代理人 | 社会代理![]() | 强烈推荐? ✔️优点:IP池始终很好,与代理行业的现有“大鲨鱼”相反,每GB收取的代理行业,在这里您可以在旋转的端点内获得无限的流量。透明业务模型。 缺点:地理覆盖范围仅限于网站上列出的国家。 IP不会立即旋转,但是您宁愿等待10-15秒。 |
Brightdata(以前是Luminati网络)![]() | 最受欢迎的是最昂贵的代理提供商之一。 IP池主要来自Holavpn的用户和App Monetization SDK。 | |
Oxylabs![]() | 竞争者与更多无代码/低代码刮擦产品的竞争对手。 | |
| 作为服务刮擦 | 刮擦![]() | 强烈推荐? 最先进的隐身刮擦之一。有时,它可能比构建专用的刮擦解决方案便宜 - 它们不需要费用使用的流量量。 |
apify.com![]() | Apify已演变成一个完整的刮擦和自动化SaaS平台,具有现成的工具,一个集成的代理和自定义解决方案,用于刮擦任何规模。开发人员还可以在平台上创建刮板并将其租给其他用户。 | |
| De Captcha作为服务 | 防验码:验证码解决服务。旁路recaptcha,funcaptcha(...)![]() | 自我解释。比特币接受了❤️。 |
这是一项非竭尽全力的公司,为从较小的电子商务网站到《财富》 500强公司的企业提供最先进的反机器机器人解决方案:

加入Extra.Community。在那里运行了一个自动测试仪Botty McBotface ,该测试仪使用多种复杂的技术来确定经过测试的网站使用的确切保护(信贷到BERSTEND以及#InSiders的其他功能)。
重要的是,您自己使用此软件。其中一些仅包含Malwares仅供参考。我不建议使用它们。
| 隐形浏览器 | 木偶 | 硒 | 逃避 | SDK/工具 | 起源 |
|---|---|---|---|---|---|
| Gologin | ✔️ | ✔️ | ? | ? | ? + ?? |
| 隐身 | ✔️ | ✔️ | ? | ✔️ | ? ❓ |
| clonbrowser | ✔️ | ✔️ | ? | ✔️ | ? |
| 多元 | ✔️ | ✔️ | ? | ✔️ | ? + ?? |
| 靛蓝浏览器 | ✔️ | ✔️ | ? | ✔️ | ? |
| ghostrowser | ? | ? | |||
| 卡梅利奥 | ✔️ | ✔️ | ? | ✔️ | ? |
| 蚂蚁 | ? | ||||
| Chebrowser | ?/✔️ | ? | ? |
传奇: ? - 基于噪音的逃避。 - 否✔️-可接受(是否有支持库)。 ? - 很不错。
a将不胜感激!
在这里,我研究了用于获取主要在线网站使用的机器人检测系统的各个方面。我涵盖了技术和非技术事务,包括建议,对科学论文的参考等等。
我在下面分享的技术发现是基于对由主要反机器人解决方案供应商保护的网站运行网络刮擦脚本几个月的观察结果。
我不断地向本节添加东西。随着时间的流逝,我将尝试使其外观和感觉更加结构化。
✔️赢 /失败 /?领带 :
navigator和window属性User-Agent )匹配。有一个详细的解释该问题。最可靠的逃避似乎根本不是欺骗主机OS,也不是使用OSFooler-NG。window.outerdimensions避开窗口,但在无头模式下的非默认OS上的正确配置中,它将无法正常工作;当viewport size >= screen resolution (主机上的低屏幕分辨率显示)时,几乎总是失败。ServiceWorker / WebWorker线程限制。navigator和window属性- 根据Multilogin文档,自定义浏览器通常落后于浏览器供应商添加的最新添加。在这种情况下,使用了修改的铬M7X(编写本文时几乎落后10个版本)。puppeteer-extra-plugin-stealth自定义铬构建不同,例如ML和Kameleo最多可为本机插件和Google Chrome运送的扩展名提供。TBD(如果您在任何这些服务中都有积极的订阅,并且不介意共享一个帐户会给我发送电子邮件❤️)
这些网站可能对针对网络刮擦软件测试指纹技术有用
| 测试页面 | 笔记 |
|---|---|
| https://bot.incolumitas.com/ | 非常有用且有用的测试收集 |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | 类固醇上的帆布指纹 |
| https://pixelscan.net/ | 不是100%真实的,因为它经常在新更新后显示“不一致”,但值得检查时,作者时不时地添加了新的有趣的检测功能 |
| https://browserleaks.com/ | 不需要介绍 |
| https://f.vision/ | 一些来自某些的质量测试页面?伙计们 |
| https://www.ipqualityscore.com/ip-reputation-check | 与流行黑名单的免费声誉检查商业服务 |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | recaptcha分数以及一些有关如何优化验证验解决成本的有趣说明 |
| https://ja3er.com/ | SSL/TLS指纹 |
| https://fingerprintjs.com/demo/ | 适合基本测试 - 从相信和声称的人中可以创建独特的指纹“ 99.5%” |
| https://coveryourtracks.eff/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | 检查您的recaptcha分数 |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | 真的很令人毛骨悚然,最强大 |
我需要对正在评估(和/或)计划在其网站上引入反机器人软件的人进行一般性评论。反机器人软件是胡说八道。它的蛇油在没有技术知识的情况下出售给人们。
阻止机器人流量是基于您(或您的技术提供商)可以将机器人与真实用户区分开的前提。为了实现这一目标,应用了各种隐私侵入性技术。迄今为止,没有一个被证明是在专门的网络刮擦工具上成功的。反机器人软件就是减少廉价机器人流量。它使刮擦更加昂贵和复杂的过程,但并非完全不可能。
反机器人软件供应商使用的检测技术属于这两个类别之一:
没有使用专门的网络刮擦软件。供应商可以根据Scraper EG User-Agent标头,连接参数等公开披露的信息来检测不良流量。
结果,只有不针对特定特定网站的机器人被阻止。这将使大多数管理人员感到高兴,因为不良流量的总数下降了,并且几乎看起来网站上没有机器人流量。错误的。
更高级的Web刮板利用住宅代理并实施复杂的逃避技术来欺骗反机器人软件,以为Web Scraper是真正的用户。由于Web浏览器的技术限制,没有任何检测机制可以解决此问题。
在这种情况下,大多数情况下,供应商只能通过在机器人流量和行为中找到模式来聚集不良流量。这就是浏览器指纹发挥作用的地方。禁止流量的问题在于,当机器人成功模仿真实的用户时,它可能是一个冒险的操作。通过阻止机器人,该网站可能会成为真正的访问者。
如果您认为这是一种使用Google“ Captcha Resolve API”的方式。
如果您在刮擦特定网站方面有问题,请给我写一封短电子邮件[email protected] 。让我们通过Skype进行快速的tête-à-tête咨询。
我是否提到A会不胜感激? :-)
➡️以太坊地址0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6