Desde el principio de recopilación que mencioné anteriormente, puede ver que la mayoría de los programas de recolección se basan en reglas de análisis para la recopilación, como analizar las reglas del nombre del archivo de paginación y analizar las reglas del código de página.
1. Prevención de la recopilación de nombres de archivos de paginación
La mayoría de los coleccionistas confían en analizar las reglas del nombre del archivo de paginación para realizar una recopilación de lotes y múltiples páginas. Si otros no pueden encontrar las reglas del nombre del archivo para su archivo de paginación, entonces otros no podrán recopilar varias páginas de su sitio web en lotes.
Método de implementación:
Creo que encriptar los nombres de los archivos de paginación con MD5 es una mejor manera. Hablando de esto, algunas personas dirán que si cifra los nombres de archivos de paginación con MD5, otras también pueden simular sus reglas de cifrado para obtener los nombres de sus archivos de página de acuerdo con esta regla.
Lo que quiero señalar es que cuando encriptamos el nombre del archivo de paginación, no solo cifre la parte que cambia el nombre del archivo
Si represento el número de página de la página, entonces no debemos cifrarlo así: page_name = md5 (i, 16) & ". Htm"
Es mejor hacer un seguimiento de uno o más caracteres en el número de página para estar encriptados, como: page_name = md5 (i y "cualquiera o varias letras", 16) y ". Htm"
Debido a que MD5 no se puede descifrar, las letras de la página que otros ven son el resultado del cifrado MD5, por lo que el sumador no puede saber cuáles son las letras que sigue después, a menos que use violento **** MD5, pero no es realista.
2. Prevención de la recopilación de reglas del código de página
Si nuestra página de contenido no tiene reglas de código, entonces otros no pueden extraer las piezas de contenido que necesitan de su código. Entonces, el paso que necesitamos para evitar la recopilación es hacer que el código esté libre de reglas.
Método de implementación:
Aleatorizar los marcadores que la otra parte necesita extraer
1. Personalizar múltiples plantillas web. Las etiquetas HTML importantes en cada plantilla web son diferentes. Al presentar el contenido de la página, seleccione al azar plantillas web. Algunas páginas son de diseño con CSS+Div, y algunas páginas son de diseño con la mesa. Este método es un poco problemático. Para una página de contenido, debe hacer varias páginas de plantillas más. Sin embargo, la anticolección es algo muy tedioso. Hacer más plantillas puede desempeñar un papel en la prevención de la recolección, lo que vale la pena para muchas personas.
2. Si el método anterior es demasiado problemático, al azar las etiquetas HTML importantes en la página web.
Cuantas más plantillas web hagan, más aleatorio es el código HTML. Cuanto más problemas será cuando la otra parte analice el código de contenido. Cuando la otra parte escriba una estrategia de recolección para su sitio web, será más difícil. En este momento, la mayoría de las personas se retirarán porque esta persona es perezosa y recopila datos de los sitios web de otras personas ~~~ Hablemos nuevamente de ello. En la actualidad, la mayoría de las personas usan programas de recopilación desarrollados por otros para recopilar datos. Después de todo, hay algunas personas que desarrollan programas de recolección para recopilar datos por sí mismas.
Hay algunas ideas simples para ti:
1. Use scripts de clientes para mostrar contenido que sea importante para los recolectores de datos pero no para los motores de búsqueda.
2. Dividir una página de datos en n páginas para mostrar, lo cual también es una forma de aumentar la dificultad de la recopilación.