D'après le principe de collection que j'ai mentionné plus tôt, vous pouvez voir que la plupart des programmes de collecte reposent sur les règles d'analyse pour la collecte, telles que l'analyse des règles de nom de fichier de pagination et l'analyse des règles de code de page.
1. Prévention de la collecte de noms de fichiers de pagination
La plupart des collectionneurs s'appuient sur l'analyse des règles de nom de fichier de pagination pour effectuer une collection de lots et de plusieurs pages. Si d'autres ne peuvent pas trouver les règles de nom de fichier pour votre fichier de pagination, d'autres ne pourront pas collecter plusieurs pages de votre site Web par lots.
Méthode d'implémentation:
Je pense que le chiffrement des noms de fichiers de pagination avec MD5 est une meilleure façon. En parlant de cela, certaines personnes diront que si vous chiffrez les noms de fichiers de pagination avec MD5, d'autres peuvent également simuler vos règles de chiffrement pour obtenir vos noms de fichiers de pagination en fonction de cette règle.
Ce que je veux souligner, c'est que lorsque nous cryptons le nom du fichier de pagination, ne cryptant pas seulement la pièce qui modifie le nom du fichier
Si je représente le numéro de page de la page, alors nous ne devons pas le crypter comme ceci: page_name = md5 (i, 16) & ". Htm"
Il est préférable de suivre un ou plusieurs caractères sur le numéro de page à crypter, tels que: page_name = md5 (i & "n'importe qui ou plusieurs lettres", 16) & ". Htm"
Parce que MD5 ne peut pas être décrypté, les lettres de la page que les autres voient sont le résultat du cryptage MD5, donc l'additionneur ne peut pas savoir ce que les lettres vous suivez après moi, sauf s'il utilise violent **** MD5, mais ce n'est pas réaliste.
2. Prévention de la collecte des règles de code de page
Si notre page de contenu n'a pas de règles de code, d'autres ne peuvent pas extraire les éléments de contenu dont ils ont besoin de votre code. Ainsi, l'étape dont nous avons besoin pour empêcher la collecte est de rendre le code sans règles.
Méthode d'implémentation:
Randomiser les marqueurs que l'autre partie doit extraire
1. Personnalisez plusieurs modèles Web. Les balises HTML importantes dans chaque modèle Web sont différentes. Lorsque vous présentez le contenu de la page, sélectionnez au hasard des modèles Web. Certaines pages sont disposées avec CSS + Div, et certaines pages sont disposées avec la table. Cette méthode est un peu gênante. Pour une page de contenu, vous devez créer plusieurs autres pages de modèles. Cependant, l'anti-collection est une chose très fastidieuse. Faire plus de modèles peut jouer un rôle dans la prévention de la collection, ce qui en vaut la peine pour de nombreuses personnes.
2. Si la méthode ci-dessus est trop gênante, randomisez les balises HTML importantes dans la page Web.
Plus vous créez de modèles Web, plus le code HTML est aléatoire. Plus ce sera des problèmes lorsque l'autre partie analysera le code de contenu. Lorsque l'autre partie rédige une stratégie de collecte pour votre site Web, ce sera plus difficile. Pour le moment, la plupart des gens se retireront parce que cette personne est paresseuse et recueille des données sur les sites Web des autres ~~~ parlons à nouveau. À l'heure actuelle, la plupart des gens utilisent des programmes de collecte développés par d'autres pour collecter des données. Après tout, il y a quelques personnes qui développent des programmes de collecte pour collecter des données par eux-mêmes.
Il y a des idées simples pour vous:
1. Utilisez des scripts clients pour afficher le contenu qui est important pour les collecteurs de données mais pas pour les moteurs de recherche.
2. Diviser une page de données en n pages à afficher, ce qui est également un moyen d'augmenter la difficulté de collecte.