Al implementar muchos métodos anti-recopilación, debe considerar si afectarán el rastreo del sitio web por parte del motor de búsqueda, por lo que primero analicemos la diferencia entre los recopiladores generales y la recopilación del rastreador del motor de búsqueda.
Similitudes:
a. Ambos necesitan capturar directamente el código fuente de la página web para funcionar de forma eficaz.
b. Ambos rastrearán una gran cantidad de contenidos de sitios web visitados varias veces por unidad de tiempo;
c. Desde una perspectiva macro, ambas IP cambiarán;
d. Ambos están demasiado impacientes para descifrar parte del cifrado (verificación) de sus páginas web. Por ejemplo, el contenido web está cifrado a través de archivos js. Por ejemplo, debe ingresar un código de verificación para buscar. Por ejemplo, debe iniciar sesión para acceder al contenido.
Diferencias:
El rastreador del motor de búsqueda primero ignora todo el script, el estilo y el código de etiqueta html del código fuente de la página web, y luego realiza una serie de procesamientos complejos en las partes restantes del texto, como segmentación de palabras y análisis gramatical y sintáctico. El recopilador generalmente captura los datos requeridos a través de las características de las etiquetas HTML. Al crear reglas de recopilación, es necesario completar la marca de inicio y la marca de finalización del contenido de destino para ubicar el contenido requerido o usar reglas regulares específicas para; Expresión de páginas web específicas para filtrar el contenido requerido. Ya sea que utilice etiquetas de inicio y fin o expresiones regulares, estarán involucradas etiquetas html (análisis de la estructura de la página web).
Luego propondremos algunos métodos anti-cobro.
1. Limitar el número de visitas por unidad de tiempo de una dirección IP
Análisis: Ninguna persona común y corriente puede visitar el mismo sitio web 5 veces en un segundo, a menos que acceda a él mediante un programa, y aquellos que tienen esta preferencia se quedan con los rastreadores de los motores de búsqueda y los molestos raspadores.
Desventajas: Talla única, lo que también impedirá que los motores de búsqueda incluyan el sitio web.
Sitios web aplicables: sitios web que no dependen mucho de los motores de búsqueda.
Qué hará el recopilador: reducir el número de accesos por unidad de tiempo y reducir la eficiencia de recopilación
2. Bloquear IP
Análisis: utilice contadores en segundo plano para registrar las direcciones IP de los visitantes y la frecuencia de acceso, analizar manualmente los registros de visitas y bloquear direcciones IP sospechosas.
Desventajas: parece que no hay desventajas, pero el webmaster está un poco ocupado.
Sitios web aplicables: todos los sitios web y el webmaster pueden saber cuáles son robots de Google o Baidu.
Qué hará el recolector: ¡Luchar en la guerra de guerrillas! Utilice el proxy IP para recopilar datos cada vez, pero reducirá la eficiencia del recolector y la velocidad de la red (use un proxy).
3. Utilice js para cifrar contenido web
Nota: Nunca me encontré con este método, solo lo vi en otro lugar.
Análisis: no es necesario analizar, los rastreadores y recopiladores de motores de búsqueda pueden matarse entre sí
Sitios web aplicables: sitios web que odian extremadamente a los motores de búsqueda y a los coleccionistas.
El coleccionista hará esto: si eres tan increíble y lo arriesgas todo, no vendrá a recogerte.
4. Los derechos de autor del sitio web o algún texto basura aleatorio están ocultos en la página web. Estos estilos de texto están escritos en el archivo CSS.
Análisis: aunque no puede evitar la recopilación, hará que el contenido recopilado esté lleno de la declaración de derechos de autor de su sitio web o algún texto basura, porque generalmente el recopilador no recopilará sus archivos CSS al mismo tiempo y esos textos se mostrarán sin estilo.
Sitios web aplicables: todos los sitios web
Qué hará el recopilador: Para el texto protegido por derechos de autor, es fácil manejarlo y reemplazarlo. No hay nada que puedas hacer con el texto spam aleatorio, solo sé diligente.
5. Los usuarios deben iniciar sesión para acceder al contenido del sitio web.
Análisis: los rastreadores de los motores de búsqueda no diseñarán procedimientos de inicio de sesión para cada tipo de sitio web. Escuché que el recopilador puede simular el inicio de sesión del usuario y el comportamiento de envío de formularios para un determinado diseño de sitio web.
Sitios web aplicables: sitios web que odian los motores de búsqueda y quieren bloquear a la mayoría de los coleccionistas.
Qué hará el recopilador: crear un módulo que simule el inicio de sesión del usuario y el comportamiento de envío del formulario.
6. Utilice lenguaje de secuencias de comandos para realizar paginación (ocultar paginación)
Análisis: Nuevamente, los rastreadores de los motores de búsqueda no analizarán las paginaciones ocultas de varios sitios web, lo que afecta su inclusión en los motores de búsqueda. Sin embargo, cuando el recopilador escribe las reglas de recopilación, debe analizar el código de la página web de destino. Aquellos que tengan algunos conocimientos de secuencias de comandos sabrán la dirección real del enlace de paginación.
Sitios web aplicables: sitios web que no dependen en gran medida de los motores de búsqueda. Además, la persona que lo recopila no tiene conocimientos de programación.
Qué hará el recopilador: debe decirse qué hará el recopilador. De todos modos, analizará el código de su página web y, por cierto, analizará su script de paginación.