Теоретический анализ, десять методов и мер противодействия предотвращению захвата веб-сайтов Страница 1/2

Автор：Eve Cole Время обновления：2025-03-12 12:32:02

При реализации многих методов защиты от сбора данных необходимо учитывать, повлияют ли они на сканирование веб-сайта поисковой системой, поэтому давайте сначала проанализируем разницу между общими сборщиками и сбором данных поисковым роботом.

Сходства:

а. Для эффективной работы обоим необходимо напрямую захватить исходный код веб-страницы.

б. Оба они будут сканировать большое количество посещенного содержимого веб-сайта несколько раз за единицу времени;

в. С макроэкономической точки зрения оба IP-адреса изменятся;

d. Оба они слишком нетерпеливы, чтобы взломать часть шифрования (проверки) ваших веб-страниц. Например, веб-контент зашифрован с помощью js-файлов. Например, вам нужно ввести код подтверждения, чтобы просмотреть контент. Например, вам необходимо войти в систему, чтобы получить доступ к контенту.

Отличия:

Сканер поисковой системы сначала игнорирует весь сценарий и стиль исходного кода веб-страницы, а также код HTML-тега, а затем выполняет серию сложных операций над оставшимися частями текста, таких как сегментация слов, грамматический и синтаксический анализ. Сборщик обычно собирает необходимые данные с помощью характеристик HTML-тегов. При создании правил сбора необходимо заполнить начальную и конечную метку целевого контента, чтобы найти требуемый контент, или использовать для него определенные обычные правила; определенные веб-страницы. Выражение для фильтрации необходимого контента. Независимо от того, используете ли вы начальные и конечные теги или регулярные выражения, будут задействованы html-теги (анализ структуры веб-страницы).

Затем мы предложим некоторые методы борьбы с коллекторством.

1. Ограничить количество посещений IP-адреса в единицу времени.

Анализ: Ни один обычный человек не может посетить один и тот же веб-сайт 5 раз за одну секунду, если к нему не обращается программа, и те, у кого есть такое предпочтение, остаются с поисковыми роботами и надоедливыми скраперами.

Недостатки: Один размер подходит всем, что также не позволит поисковым системам включить этот веб-сайт.

Применимые веб-сайты: веб-сайты, которые не сильно зависят от поисковых систем.

Что будет делать сборщик: Уменьшить количество обращений в единицу времени и снизить эффективность сбора

2. Заблокировать IP

Анализ: используйте фоновые счетчики для записи IP-адресов посетителей и частоты доступа, вручную анализируйте записи посещений и блокируйте подозрительные IP-адреса.

Недостатки: Минусов вроде нет, но вебмастер немного занят.

Применимые веб-сайты: все веб-сайты, и веб-мастер может знать, какие из них являются роботами Google или Baidu.

Что будет делать сборщик: Вести партизанскую войну. Каждый раз используйте IP-прокси для сбора данных, но это снизит эффективность сборщика и скорость сети (используйте прокси).

3. Используйте js для шифрования веб-контента

Примечание. Я никогда не сталкивался с этим методом, я просто видел его где-то еще.

Анализ: нет необходимости анализировать, сканеры поисковых систем и сборщики могут убить друг друга.

Применимые веб-сайты: веб-сайты, которые крайне ненавидят поисковые системы и коллекционеров.

Коллекционер сделает так: Если ты такой крутой и рискуешь всем, он не придет тебя забирать.

4. На веб-странице скрыты авторские права веб-сайта или какой-либо случайный нежелательный текст. Эти стили текста записаны в файле CSS.

Анализ: хотя он не может предотвратить сбор, он приведет к тому, что собранный контент будет заполнен заявлением об авторских правах вашего веб-сайта или каким-то ненужным текстом, поскольку обычно сборщик не будет собирать ваши CSS-файлы одновременно, и эти тексты будут отображаться без стиля.

Применимые веб-сайты: все веб-сайты

Что будет делать сборщик: Текст, защищенный авторским правом, легко обработать и заменить. Вы ничего не можете поделать со случайным спам-текстом, просто будьте осторожны.

5. Пользователи должны войти в систему, чтобы получить доступ к содержимому веб-сайта.

Анализ: сканеры поисковых систем не разрабатывают процедуры входа в систему для каждого типа веб-сайтов. Я слышал, что сборщик может имитировать вход пользователя в систему и поведение отправки форм для определенного дизайна веб-сайта.

Применимые веб-сайты: веб-сайты, которые ненавидят поисковые системы и хотят заблокировать большинство сборщиков.

Что будет делать сборщик: создать модуль, имитирующий вход пользователя в систему и поведение формы отправки.

6. Используйте язык сценариев для пейджинга (скрыть пейджинг).

Анализ: Опять же, сканеры поисковых систем не будут анализировать скрытые страницы различных веб-сайтов, что влияет на их включение поисковыми системами. Однако когда сборщик пишет правила сбора, он должен проанализировать код целевой веб-страницы. Те, кто обладает некоторыми знаниями в области сценариев, будут знать реальный адрес ссылки страницы.

Применимые веб-сайты: веб-сайты, которые не сильно зависят от поисковых систем. Кроме того, человек, собирающий вас, не обладает знаниями в области сценариев.

Что будет делать сборщик: Следует сказать, что сборщик будет делать. Он в любом случае проанализирует код вашей веб-страницы, и, кстати, проанализирует ваш пейджинговый скрипт. Это не займет много дополнительного времени.