沒有許多合作夥伴和讚助商的支持,該存儲庫的發展是不可能的。這些合作夥伴之一是CrapingBee,這是一款具有一些整潔的內置反機器人檢測功能的云網絡刮擦服務。
CrapingBee-註冊免費試用版,並使用代碼“ Niespodd”獲得-10%
無論您是剛剛開始從頭開始構建Web刮擦,想知道您在做錯了什麼,因為解決方案無法正常工作,還是您已經與爬行者一起工作了一段時間,並且被困在一個頁面上,該頁面會給您一個錯誤,說您是一個機器人,您都不能進一步閱讀,請繼續閱讀。
近年來,反機器人解決方案已經發展。越來越多的網站引入了安全措施:從簡單的網站(例如根據其地理位置過濾IP地址),到基於瀏覽器參數和行為分析的深入分析的高級分析。與幾年前相比,所有這些都使網絡刮擦內容更加困難和成本。然而,仍然有可能。在這裡,我重點介紹了一些您可能會發現有用的技巧。
在下面,您可以找到我用來解決不同反機器保護措施的精選服務列表。根據您的用例,您可能需要以下一個:
| 方案/用例 | 解決方案 | 例子 |
|---|---|---|
| 沒有驗證的短期會議 | 旋轉IP地址池 | 當您刮擦亞馬遜,沃爾瑪或公共LinkedIn頁面等網站時,這很方便。那是任何不需要登錄的網站。您計劃進行大量短暫的會議,並可以時不時地被阻止。 |
| 地理上受限制的網站 | 特定區域的IP地址池 | 當網站使用類似於Cloudflare的防火牆來阻止整個地理訪問它時,這很有用。 |
| 登錄後的長期會議 | 可重複的IP地址池和穩定的瀏覽器指紋集 | 這裡最常見的情況是社交媒體自動化,例如您構建一種工具來自動化社交媒體帳戶以更有效地管理廣告。 |
| 基於JavaScript的檢測 | 使用流行的逃避圖書館,類似 | 當您採用開源插件(例如上述木偶式隱形插件)來使用您現有的軟件時,有許多使用FingerPrintjs可以輕鬆繞過的網站。 |
| 用瀏覽器指紋技術檢測 | 天然外觀的瀏覽器指紋。也就是說,涵蓋了通過目標網站上已安裝的JavaScript解決方案驗證的整個表面。 | 這些是最先進的情況之一。主流示例是信用卡處理器,例如Adyen或Stripe。正在創建一個非常複雜的瀏覽器指紋,以檢測信用欺詐,或提示用戶的其他授權。 |
| 獨特的檢測技術集 | 針對目標網站獨特檢測表面的專門機器人軟件。 | 很好的例子是運動鞋市場網站和電子商務商店,據報導是受到定制的機器人軟件的重大攻擊。 |
| 簡單的定制檢測技術 | 在深入研究以上任何一個之前,如果您針對一個較小的網站,那麼您所需要的只是一個帶有調整,廉價數據中心代理的零工腳本,而且您很高興。 | - |
一旦確定項目需要哪種類型的逃避類型,您就可以使用下面的列表來選擇您的項目的最佳提供商:
| 類型 | 服務 | 筆記 |
|---|---|---|
| 代理人 | 社會代理![]() | 強烈推薦? ✔️優點:IP池始終很好,與代理行業的現有“大鯊魚”相反,每GB收取的代理行業,在這裡您可以在旋轉的端點內獲得無限的流量。透明業務模型。 缺點:地理覆蓋範圍僅限於網站上列出的國家。 IP不會立即旋轉,但是您寧願等待10-15秒。 |
Brightdata(以前是Luminati網絡)![]() | 最受歡迎的是最昂貴的代理提供商之一。 IP池主要來自Holavpn的用戶和App Monetization SDK。 | |
Oxylabs![]() | 競爭者與更多無代碼/低代碼刮擦產品的競爭對手。 | |
| 作為服務刮擦 | 刮擦![]() | 強烈推薦? 最先進的隱身刮擦之一。有時,它可能比構建專用的刮擦解決方案便宜 - 它們不需要費用使用的流量量。 |
apify.com![]() | Apify已演變成一個完整的刮擦和自動化SaaS平台,具有現成的工具,一個集成的代理和自定義解決方案,用於刮擦任何規模。開發人員還可以在平台上創建刮板並將其租給其他用戶。 | |
| De Captcha作為服務 | 防驗碼:驗證碼解決服務。旁路recaptcha,funcaptcha(...)![]() | 自我解釋。比特幣接受了❤️。 |
這是一項非竭盡全力的公司,為從較小的電子商務網站到《財富》 500強公司的企業提供最先進的反機器機器人解決方案:

加入Extra.Community。在那裡運行了一個自動測試儀Botty McBotface ,該測試儀使用多種複雜的技術來確定經過測試的網站使用的確切保護(信貸到BERSTEND以及#InSiders的其他功能)。
重要的是,您自己使用此軟件。其中一些僅包含Malwares僅供參考。我不建議使用它們。
| 隱形瀏覽器 | 木偶 | 硒 | 逃避 | SDK/工具 | 起源 |
|---|---|---|---|---|---|
| Gologin | ✔️ | ✔️ | ? | ? | ? + ?? |
| 隱身 | ✔️ | ✔️ | ? | ✔️ | ? ❓ |
| clonbrowser | ✔️ | ✔️ | ? | ✔️ | ? |
| 多元 | ✔️ | ✔️ | ? | ✔️ | ? + ?? |
| 靛藍瀏覽器 | ✔️ | ✔️ | ? | ✔️ | ? |
| ghostrowser | ? | ? | |||
| 卡梅利奧 | ✔️ | ✔️ | ? | ✔️ | ? |
| 螞蟻 | ? | ||||
| Chebrowser | ? /✔️ | ? | ? |
傳奇: ? - 基於噪音的逃避。 - 否✔️-可接受(是否有支持庫)。 ? - 很不錯。
a將不勝感激!
在這裡,我研究了用於獲取主要在線網站使用的機器人檢測系統的各個方面。我涵蓋了技術和非技術事務,包括建議,對科學論文的參考等等。
我在下面分享的技術發現是基於對由主要反機器人解決方案供應商保護的網站運行網絡刮擦腳本幾個月的觀察結果。
我不斷地向本節添加東西。隨著時間的流逝,我將嘗試使其外觀和感覺更加結構化。
✔️贏 /失敗 /?領帶 :
navigator和window屬性User-Agent )匹配。有一個詳細的解釋該問題。最可靠的逃避似乎根本不是欺騙主機OS,也不是使用OSFooler-NG。window.outerdimensions避開窗口,但在無頭模式下的非默認OS上的正確配置中,它將無法正常工作;當viewport size >= screen resolution (主機上的低屏幕分辨率顯示)時,幾乎總是失敗。ServiceWorker / WebWorker線程限制。navigator和window屬性- 根據Multilogin文檔,自定義瀏覽器通常落後於瀏覽器供應商添加的最新添加。在這種情況下,使用了修改的鉻M7X(編寫本文時幾乎落後10個版本)。puppeteer-extra-plugin-stealth自定義鉻構建不同,例如ML和Kameleo最多可為本機插件和Google Chrome運送的擴展名提供。TBD(如果您在任何這些服務中都有積極的訂閱,並且不介意共享一個帳戶會給我發送電子郵件❤️)
這些網站可能對針對網絡刮擦軟件測試指紋技術有用
| 測試頁面 | 筆記 |
|---|---|
| https://bot.incolumitas.com/ | 非常有用且有用的測試收集 |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | 類固醇上的帆布指紋 |
| https://pixelscan.net/ | 不是100%真實的,因為它經常在新更新後顯示“不一致”,但值得檢查時,作者時不時地添加了新的有趣的檢測功能 |
| https://browserleaks.com/ | 不需要介紹 |
| https://f.vision/ | 一些來自某些的質量測試頁面?伙計們 |
| https://www.ipqualityscore.com/ip-reputation-check | 與流行黑名單的免費聲譽檢查商業服務 |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | recaptcha分數以及一些有關如何優化驗證驗解決成本的有趣說明 |
| https://ja3er.com/ | SSL/TLS指紋 |
| https://fingerprintjs.com/demo/ | 適合基本測試 - 從相信和聲稱的人中可以創建獨特的指紋“ 99.5%” |
| https://coveryourtracks.eff/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | 檢查您的recaptcha分數 |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | 真的很令人毛骨悚然,最強大 |
我需要對正在評估(和/或)計劃在其網站上引入反機器人軟件的人進行一般性評論。反機器人軟件是胡說八道。它的蛇油在沒有技術知識的情況下出售給人們。
阻止機器人流量是基於您(或您的技術提供商)可以將機器人與真實用戶區分開的前提。為了實現這一目標,應用了各種隱私侵入性技術。迄今為止,沒有一個被證明是在專門的網絡刮擦工具上成功的。反機器人軟件就是減少廉價機器人流量。它使刮擦更加昂貴和復雜的過程,但並非完全不可能。
反機器人軟件供應商使用的檢測技術屬於這兩個類別之一:
沒有使用專門的網絡刮擦軟件。供應商可以根據Scraper EG User-Agent標頭,連接參數等公開披露的信息來檢測不良流量。
結果,只有不針對特定特定網站的機器人被阻止。這將使大多數管理人員感到高興,因為不良流量的總數下降了,並且幾乎看起來網站上沒有機器人流量。錯誤的。
更高級的Web刮板利用住宅代理並實施複雜的逃避技術來欺騙反機器人軟件,以為Web Scraper是真正的用戶。由於Web瀏覽器的技術限制,沒有任何檢測機制可以解決此問題。
在這種情況下,大多數情況下,供應商只能通過在機器人流量和行為中找到模式來聚集不良流量。這就是瀏覽器指紋發揮作用的地方。禁止流量的問題在於,當機器人成功模仿真實的用戶時,它可能是一個冒險的操作。通過阻止機器人,該網站可能會成為真正的訪問者。
如果您認為這是一種使用Google“ Captcha Resolve API”的方式。
如果您在刮擦特定網站方面有問題,請給我寫一封短電子郵件[email protected] 。讓我們通過Skype進行快速的tête-à-tête諮詢。
我是否提到A會不勝感激? :-)
➡️以太坊地址0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6