Развитие этого хранилища не было бы возможным без поддержки многих партнеров и спонсоров. Одним из этих партнеров является ScrapingBee, который представляет собой облачную службу скребования с некоторыми аккуратными встроенными функциями обнаружения анти-ботов.
Scrapingbee - Зарегистрируйтесь на бесплатную пробную версию и получите -10% на первом счете с кодом "Niespodd"
Независимо от того, начинаете ли вы строить веб -скребок с нуля и задаетесь вопросом, что вы делаете неправильно, потому что ваше решение не работает, или вы уже некоторое время работали с сканерами и застряли на странице, которая дает вам ошибку, говоря, что вы бот, вы не можете идти дальше, продолжайте читать.
Анти-ботские решения развивались в последние годы. Все больше и больше веб-сайтов вводят меры безопасности: от простых, таких как фильтрация IP-адресов в соответствии с их геолокацией, до продвинутых, на основе углубленного анализа параметров браузера и поведенческого анализа. Все это делает веб -сохранение более сложным и дорогостоящим, чем несколько лет назад. Тем не менее, это все еще возможно. Здесь я выделяю несколько советов, которые вы можете найти полезными.
Ниже вы можете найти список кураторских услуг, которые я использовал, чтобы обойти различные анти-ботские защиты. В зависимости от вашего варианта использования вам может понадобиться одно из следующих.
| Сценарий/использование | Решение | Пример |
|---|---|---|
| Недолговечные сеансы без автоза | Пул вращающихся IP -адресов | Это удобно, когда вы соскребите такие сайты, как Amazon, Walmart или Public LinkedIn. Это любой веб-сайт, где вход не требуется. Вы планируете сделать большое количество недолговечных сессий и можете позволить себе блокировать время от времени. |
| Географически ограниченные сайты | Область, специфичное для IP-адресов | Это полезно, когда веб -сайт использует брандмауэр, похожий на тот, который от Cloudflare, для блокирования всей географии от доступа к нему. |
| Долгоживущие сеансы после входа | Повторяемый пул IP -адресов и стабильный набор отпечатков пальцев браузера | Наиболее распространенным сценарием здесь является автоматизация социальных сетей, например, вы создаете инструмент для автоматизации учетных записей социальных сетей для более эффективного управления рекламой. |
| Обнаружение на основе JavaScript | Использование популярных библиотек уклонения от уклонения от уклонения от уклонения от уклонения от уклонения от уклонения от уклонения от уклонения от уклонения от уклонения | Существует ряд веб-сайтов, использующих Fingerprintjs, которые можно легко обойти, когда вы используете плагины с открытым исходным кодом, такие как вышеупомянутый плагин для кукловода, для работы с существующим программным обеспечением. |
| Обнаружение с помощью методов отпечатков пальцев в браузере | Натуральные отпечатки пальцев браузера. То есть, покрыв всю поверхность, которая подтверждается установленным решением JavaScript на целевом веб -сайте. | Это один из самых продвинутых случаев. Основными примерами являются процессоры кредитных карт, такие как Adyen или Stripe. Очень сложный отпечаток пальца браузера создается для обнаружения мошенничества с кредитом или предоставления дополнительной авторизации от пользователя. |
| Уникальный набор методов обнаружения | Специализированное программное обеспечение BOT, которое нацелено на уникальную поверхность обнаружения целевого веб -сайта. | Хорошими примерами являются веб-сайты рынка кроссовок и магазины электронной коммерции, которые, как сообщается, подвергаются тяжелой атаке со стороны программного обеспечения для BOT. |
| Простые методы обнаружения на заказ | Перед тем, как погрузиться в любое из вышеперечисленного, если вы нацелены на меньший веб-сайт, вполне вероятно, что все, что вам нужно,-это скрипт скраски с настройками, дешевый прокси-центр данных, и вы готовы идти. | - |
Как только вы определились с тем, какой тип уклонения понадобится в вашем проекте, вы можете использовать список ниже, чтобы выбрать лучшего поставщика для вашего проекта:
| Тип | Услуга | Примечание |
|---|---|---|
| Прокси | Социальный прокси ![]() | Настоятельно рекомендуется? ✔ Pros : IP -пулы постоянно хороши, вопреки существующим «большим акулам» прокси -индустрии, которые взимаются за ГБ, здесь вы получаете неограниченный трафик в пределах вращающейся конечной точки. Прозрачная бизнес -модель. Минусы: освещение GEO ограничено странами, перечисленными на веб -сайте. IP не вращается мгновенно, но вам скорее нужно ждать 10-15 секунд. |
BrightData (ранее Luminati Networks)![]() | Один из самых популярных, но, вероятно, также самый дорогой, поставщик прокси. IP -пул в основном получен от пользователей Holavpn и монетизации приложения SDK. | |
Кислороды![]() | Конкурент BrightData с большим количеством кодов/низкокодировки. | |
| Соскабливание как услуга | Scrapingbee![]() | Настоятельно рекомендуется? Один из самых передовых скрытных скребков в качестве услуги. Время от времени это может быть дешевле, чем создание специального решения для соскоб - они не взимают плату за количество используемого трафика. |
Apify.com![]() | Apify превратилась в полную платформу SaaS Scrapeing and Automation SaaS с готовыми инструментами, интегрированным прокси и пользовательскими решениями для соскоба в любом масштабе. Разработчики также могут создавать скребки на платформе и арендовать их другим пользователям. | |
| De-captcha как услуга | Antipcha: Решающая служба CAPTCHA. Банка recaptcha, funcaptcha (...)![]() | Самоэкспланирующее. Биткойн принят ❤. |
Это не эксплуатационный список компаний, которые предоставляют самые передовые анти-ботские решения для предприятий, от небольших сайтов электронной коммерции до компаний Fortune 500:

Присоединяйтесь к Extra.community. В управлении автоматизированным тестером McBotface используется несколько сложных методов, чтобы определить, какую точную защиту использует тестируемый веб -сайт (кредиты для Berstend и других из #insiders).
Важно использовать это программное обеспечение на свой страх и риск. Некоторые из них содержат Малвары только к вашему сведению. Я не рекомендую их использовать.
| Стелс браузер | Кукловодитель | Селен | Уклонение | SDK/инструмент | Источник |
|---|---|---|---|---|---|
| Гологин | ✔ | ✔ | ? | ? | ?? + ?? |
| Инкогнитон | ✔ | ✔ | ? | ✔ | ?? ❓ |
| Клонбруззер | ✔ | ✔ | ? | ✔ | ?? |
| Мультилогин | ✔ | ✔ | ? | ✔ | ?? + ?? |
| Браузер Indigo | ✔ | ✔ | ? | ✔ | ?? |
| Ghostbrowser | ? | ?? | |||
| Камелео | ✔ | ✔ | ? | ✔ | ?? |
| Антиброузер | ?? | ||||
| Chebrowser | ?/✔ | ? | ?? |
Легенда:? - Уклонение на основе шума. - Нет. ✔ - приемлемо (с библиотеками поддержки или нет). ? - Очень хорошо.
А на этом репо будет оценена !
Здесь я изучаю различные аспекты методов уклонения, используемых для обоснования систем обнаружения ботов, используемых крупными онлайн -сайтами. Я освещаю как технические, так и нетехнические вопросы, включая рекомендации, ссылки на научные статьи и многое другое.
Технические выводы, которыми я делюсь ниже, основаны на наблюдениях за выполнением сценариев по скребке веб-царапины в течение нескольких месяцев против веб-сайтов, защищенных основными поставщиками решений против ботов.
Я постоянно добавляю вещи в этот раздел. Со временем я постараюсь сделать его более структурированным.
✔ выигрыш / неудача /? Галстук :
navigator и windowUser-Agent ). Существует подробное объяснение проблемы. Похоже, что наиболее надежным уклонением вообще не является подделка ОС хоста или использует Osfooler-NG.window.outerdimensions , он не будет работать без правильной конфигурации в ОС, не являющейся деко, в режиме без головы; Почти всегда терпит неудачу, когда viewport size >= screen resolution (дисплей с низким разрешением экрана на хосте).ServiceWorker / WebWorker через API -интерфейсы существующих кукол.navigator и window - согласно многотологической документации пользовательской браузер, обычно отстают за последние дополнения, добавленные поставщиками браузеров. В этом случае используется модифицированный хром M7X (почти 10 версий при написании этого).puppeteer-extra-plugin-stealth сборщиков хрома, таких как ML и Kameleo, обеспечивают максимум переопределение для собственных плагинов и расширений, поставляемых с Google Chrome.TBD (если у вас есть активная подписка в любой из этих услуг и вы не против поделиться учетной записью, напишите мне по электронной почте ❤)
Эти веб -сайты могут быть полезны для тестирования методов снятия пальцев на программном обеспечении для сетевого скрепования
| Тестовая страница | Примечания |
|---|---|
| https://bot.incolumitas.com/ | Очень полезная и полезная коллекция тестов |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | снятие отпечатков пальцев на стероидах |
| https://pixelscan.net/ | Не на 100% реализует, так как он часто отображает «непоследовательный» для Chrome после нового обновления, но стоит проверить, как автор время от времени добавляет новые интересные функции обнаружения |
| https://browserleaks.com/ | Не нужно введение |
| https://f.vision/ | Страница тестирования хорошего качества? ребята |
| https://www.ipqualityscore.com/ip-reputatation-check | Коммерческий сервис с бесплатной проверкой репутации против популярных черных списков |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Оценка Recaptcha, а также несколько интересных заметок о том, как оптимизировать затраты на решение CAPTCHA |
| https://ja3er.com/ | SSL/TLS Отпечаток пальца |
| https://fingerprintjs.com/demo/ | Хорошо для основных тестов - от людей, которые верят и утверждают, могут создать уникальные отпечатки пальцев "99,5%" |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Проверьте свой счет Recaptcha |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | Действительно жутко, самый сильный из всех |
Мне нужно сделать общее замечание о людях, которые оценивают (и/или) планирование внедрения анти-ботского программного обеспечения на своих веб-сайтах. Программное обеспечение анти-ботов-чепуха. Его змеиное масло продавалось людям без технических знаний за тяжелые деньги.
Блокировка трафика бот основана на предпосылке, которую вы (или ваш поставщик технологий) можете отличить ботов от реальных пользователей . Чтобы это произошло, применяются различные методы, инвазивные конфиденциальности. На сегодняшний день ни один из них не был успешным против специализированных инструментов по скребке. Программное обеспечение для ботов-это сокращение дешевого бота-трафика. Это делает процесс соскабливания более дорогостоящим и сложным, но не делает его совершенно невозможным .
Программные поставщики программного обеспечения анти-ботов используют методы обнаружения, которые попадают в одну из этих двух категорий:
Не используется специализированное программное обеспечение для очистки веб -царапины. Поставщик может обнаружить плохой трафик на основе информации, открыто раскрытой скребком, например, заголовком User-Agent , параметров соединения и т. Д.
В результате только боты, которые не предназначены для очистки конкретного веб -сайта, заблокированы . Это сделает большинство менеджеров счастливыми, потому что общее количество плохого трафика уходит, и на веб -сайте больше нет трафика бота. Неправильный.
Более продвинутые веб-скребки используют жилые прокси и внедряют сложные методы уклонения, чтобы обмануть анти-ботское программное обеспечение, чтобы подумать, что веб-скребок является реальным пользователем. Механизм обнаружения не существует, чтобы обойти это из -за технического ограничения веб -браузеров.
В этом случае в большинстве случаев поставщик сможет сфокусировать плохой трафик только путем поиска моделей в трафике и поведении бот. Здесь вступает в игру отпечатков пальцев браузера. Проблема с запретом трафика здесь заключается в том, что он может оказаться рискованной операцией, когда боты успешно имитируют реальных пользователей. Есть вероятность, что , блокируя боты, сайт станет недоступным для реальных посетителей .
Если вы думаете, что это способ пойти на Google "Captcha Resolve API".
Если у вас есть проблемы с соскребью конкретного веб -сайта, напишите мне короткое письмо по адресу [email protected] . Давайте проведем быструю консультацию по Skype?
Я упоминал, что будет оценен? :-)
➡ Адрес Ethereum 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6