Из принципа сбора, который я упоминал ранее, вы можете видеть, что большинство программ сбора полагаются на правила анализа для сбора, такие как анализ правил имени файла Paging и анализ правил кода страницы.
1. Профилактика сбора имен файлов подкачки
Большинство коллекционеров полагаются на анализ правил имени файла подкачки для выполнения пакетной и многостраничной коллекции. Если другие не могут найти правила имени файла для вашего файла пейджинга, то другие не смогут собирать несколько страниц вашего веб -сайта в партиях.
Метод реализации:
Я думаю, что шифрование имен файлов подкачки с помощью MD5 - лучший способ. Говоря об этом, некоторые люди скажут, что если вы зашифруете имена файлов пейджинг с MD5, другие также могут имитировать ваши правила шифрования, чтобы получить имена файлов подкачки в соответствии с этим правилом.
Что я хочу указать, так это то, что когда мы зашифруем имя файла пейджинг
Если я представляю номер страницы страницы, то мы не должны шифровать ее так: page_name = md5 (i, 16) & ". Htm"
Лучше всего следить за одним или несколькими символами на номере страницы, который будет зашифрован, например: page_name = md5 (i & "Любые один или несколько букв", 16) и ". Htm"
Поскольку MD5 не может быть расшифрован, буквы страниц, которые видят другие, являются результатом шифрования MD5, поэтому заявление не может знать, какие буквы вы следуете после I, если он не использует насильственный **** MD5, но это не реалистично.
2. Предотвращение сбора правил кода страницы
Если на нашей странице контента нет правил кода, то другие не могут извлечь части контента, который им нужен из вашего кода. Таким образом, шаг, который нам нужно, чтобы предотвратить сбор, - это сделать код свободным от правил.
Метод реализации:
Рандомизируйте маркеры, которые нужно другой стороне.
1. Настройте несколько веб -шаблонов. Важные теги HTML в каждом веб -шаблоне разные. При представлении содержимого страницы случайным образом выберите веб -шаблоны. Некоторые страницы представляют собой макет с CSS+Div, а некоторые страницы - макет с таблицей. Этот метод немного неприятен. Для страницы контента вам нужно сделать еще несколько страниц шаблонов. Тем не менее, антиколлекция-очень утомительная вещь. Создание большего количества шаблонов может сыграть роль в предотвращении коллекции, что того стоит для многих людей.
2. Если вышеупомянутый метод слишком неприятный, рандомизируйте важные теги HTML на веб -странице.
Чем больше веб -шаблонов вы делаете, тем более случайным является HTML -код. Чем больше проблемы будут, когда другая сторона анализирует код контента. Когда другая партия пишет стратегию сбора для вашего сайта, это будет сложнее. В настоящее время большинство людей отступит, потому что этот человек ленив и собирает данные с веб -сайтов других людей ~~~ Давайте снова поговорим об этом. В настоящее время большинство людей используют программы сбора, разработанные другими для сбора данных. В конце концов, есть несколько человек, которые разрабатывают программы сбора для сбора данных самостоятельно.
Есть несколько простых идей для вас:
1. Используйте клиентские сценарии для отображения контента, который важен для коллекционеров данных, но не для поисковых систем.
2. Разделение одной страницы данных на n страниц также является способом увеличения сложности сбора.