При реализации многих методов защиты от сбора данных необходимо учитывать, повлияют ли они на сканирование веб-сайта поисковой системой, поэтому давайте сначала проанализируем разницу между общими сборщиками и сбором данных поисковым роботом.
Сходства:
а. Для эффективной работы обоим необходимо напрямую захватить исходный код веб-страницы.
б. Оба они будут сканировать большое количество посещенного содержимого веб-сайта несколько раз за единицу времени;
в. С макроэкономической точки зрения оба IP-адреса изменятся;
d. Оба они слишком нетерпеливы, чтобы взломать часть шифрования (проверки) ваших веб-страниц. Например, веб-контент зашифрован с помощью js-файлов. Например, вам нужно ввести код подтверждения, чтобы просмотреть контент. Например, вам необходимо войти в систему, чтобы получить доступ к контенту.
Отличия:
Сканер поисковой системы сначала игнорирует весь сценарий и стиль исходного кода веб-страницы, а также код HTML-тега, а затем выполняет серию сложных операций над оставшимися частями текста, таких как сегментация слов, грамматический и синтаксический анализ. Сборщик обычно собирает необходимые данные с помощью характеристик HTML-тегов. При создании правил сбора необходимо заполнить начальную и конечную метку целевого контента, чтобы найти требуемый контент, или использовать для него определенные обычные правила; определенные веб-страницы. Выражение для фильтрации необходимого контента. Независимо от того, используете ли вы начальные и конечные теги или регулярные выражения, будут задействованы html-теги (анализ структуры веб-страницы).
Затем мы предложим некоторые методы борьбы с коллекторством.
1. Ограничить количество посещений IP-адреса в единицу времени.
Анализ: Ни один обычный человек не может посетить один и тот же веб-сайт 5 раз за одну секунду, если к нему не обращается программа, и те, у кого есть такое предпочтение, остаются с поисковыми роботами и надоедливыми скраперами.
Недостатки: Один размер подходит всем, что также не позволит поисковым системам включить этот веб-сайт.
Применимые веб-сайты: веб-сайты, которые не сильно зависят от поисковых систем.
Что будет делать сборщик: Уменьшить количество обращений в единицу времени и снизить эффективность сбора
2. Заблокировать IP
Анализ: используйте фоновые счетчики для записи IP-адресов посетителей и частоты доступа, вручную анализируйте записи посещений и блокируйте подозрительные IP-адреса.
Недостатки: Минусов вроде нет, но вебмастер немного занят.
Применимые веб-сайты: все веб-сайты, и веб-мастер может знать, какие из них являются роботами Google или Baidu.
Что будет делать сборщик: Вести партизанскую войну. Каждый раз используйте IP-прокси для сбора данных, но это снизит эффективность сборщика и скорость сети (используйте прокси).
3. Используйте js для шифрования веб-контента
Примечание. Я никогда не сталкивался с этим методом, я просто видел его где-то еще.
Анализ: нет необходимости анализировать, сканеры поисковых систем и сборщики могут убить друг друга.
Применимые веб-сайты: веб-сайты, которые крайне ненавидят поисковые системы и коллекционеров.
Коллекционер сделает так: Если ты такой крутой и рискуешь всем, он не придет тебя забирать.
4. На веб-странице скрыты авторские права веб-сайта или какой-либо случайный нежелательный текст. Эти стили текста записаны в файле CSS.
Анализ: хотя он не может предотвратить сбор, он приведет к тому, что собранный контент будет заполнен заявлением об авторских правах вашего веб-сайта или каким-то ненужным текстом, поскольку обычно сборщик не будет собирать ваши CSS-файлы одновременно, и эти тексты будут отображаться без стиля.
Применимые веб-сайты: все веб-сайты
Что будет делать сборщик: Текст, защищенный авторским правом, легко обработать и заменить. Вы ничего не можете поделать со случайным спам-текстом, просто будьте осторожны.
5. Пользователи должны войти в систему, чтобы получить доступ к содержимому веб-сайта.
Анализ: сканеры поисковых систем не разрабатывают процедуры входа в систему для каждого типа веб-сайтов. Я слышал, что сборщик может имитировать вход пользователя в систему и поведение отправки форм для определенного дизайна веб-сайта.
Применимые веб-сайты: веб-сайты, которые ненавидят поисковые системы и хотят заблокировать большинство сборщиков.
Что будет делать сборщик: создать модуль, имитирующий вход пользователя в систему и поведение формы отправки.
6. Используйте язык сценариев для пейджинга (скрыть пейджинг).
Анализ: Опять же, сканеры поисковых систем не будут анализировать скрытые страницы различных веб-сайтов, что влияет на их включение поисковыми системами. Однако когда сборщик пишет правила сбора, он должен проанализировать код целевой веб-страницы. Те, кто обладает некоторыми знаниями в области сценариев, будут знать реальный адрес ссылки страницы.
Применимые веб-сайты: веб-сайты, которые не сильно зависят от поисковых систем. Кроме того, человек, собирающий вас, не обладает знаниями в области сценариев.
Что будет делать сборщик: Следует сказать, что сборщик будет делать. Он в любом случае проанализирует код вашей веб-страницы, и, кстати, проанализирует ваш пейджинговый скрипт. Это не займет много дополнительного времени.