Il existe actuellement de nombreuses façons d'empêcher la collecte. Permettez-moi d'abord d'introduire les stratégies anti-collection communes, leurs inconvénients et leurs contre-mesures de collecte:
1. Déterminez le nombre de visites sur cette page de site Web par une IP dans un certain délai. S'il dépasse évidemment la vitesse de navigation normale, l'IP sera refusé.
Inconvénients:
1. Cette méthode ne s'applique qu'aux pages dynamiques, telles que: ASP / JSP / PHP, etc.
2. Cette méthode affectera sérieusement l'inclusion des araignées du moteur de recherche, car lorsque l'inclusion des araignées du moteur de recherche, la vitesse de navigation sera relativement rapide et multi-thread. Cette méthode rejette également les fichiers des araignées du moteur de recherche incluses dans le site
Collecte de stratégies: ne ralentissez que la vitesse de collecte, ou ne
Suggestion: faire une bibliothèque IP Spider Engine Spider, qui permet uniquement aux araignées du moteur de recherche de parcourir rapidement le contenu sur le site. Il n'est pas facile de collecter la bibliothèque IP des araignées du moteur de recherche. Une araignée du moteur de recherche n'a pas nécessairement une seule adresse IP fixe.
Commentaire: Cette méthode est plus efficace pour prévenir la collecte, mais elle affectera l'inclusion des moteurs de recherche.
2. Crypt des pages de contenu avec JavaScript
Inconvénients: Cette méthode convient aux pages statiques, mais elle affectera sérieusement l'inclusion des moteurs de recherche. Le contenu reçu par les moteurs de recherche est également crypté.
Collecte de contre-mesures: il est recommandé de ne pas choisir. Si vous devez choisir, vous pouvez également choisir le script JS qui décrypte le mot de passe.
Suggestions: il n'y a actuellement pas de bonnes suggestions d'amélioration
Commentaire: Il est recommandé que les webmasters qui s'attendent à ce que les moteurs de recherche amènent le trafic n'utilisent pas cette méthode.
3. Remplacez les marques spécifiques sur la page de contenu par "Marques spécifiques + texte de copyright caché"
Inconvénients: cette méthode a peu d'inconvénients, il n'augmentera que la taille du fichier de page, mais il est facile d'inverser la collection.
Collecte de stratégies: remplacez le texte protégé par le droit d'auteur collecté par du contenu de texte de droit d'auteur caché ou remplacez-le par votre propre droit d'auteur.
Suggestions: il n'y a actuellement pas de bonnes suggestions d'amélioration
Commentaire: Je pense que ce n'est pas très pratique. Même si j'ajoute des mots cachés aléatoires, il équivaut à en ajouter plus.
4. Permettez uniquement aux utilisateurs de parcourir après la connexion
Inconvénient: cette méthode affectera sérieusement l'inclusion des araignées du moteur de recherche
Collecte de contre-mesures: quelqu'un a publié des articles de contre-mesures. Pour plus de détails, veuillez vous référer à cela. "Comment le programme ASP Thief utilise-t-il XMLHTTP pour implémenter la soumission et les cookies ou l'envoi de session"
Suggestions: il n'y a actuellement pas de bonnes suggestions d'amélioration
Commentaire: Il est recommandé que les webmasters qui s'attendent à ce que les moteurs de recherche amènent le trafic n'utilisent pas cette méthode. Cependant, cette méthode est efficace contre les procédures de collecte générales.
5. Utilisez des scripts JavaScript et VBScript pour paginner
Inconvénients: influencer les moteurs de recherche pour l'inclure
Collectez les contre-mesures: analysez les scripts JavaScript et VBScript, découvrez leurs règles de pagination et créez une page de collection de pagination correspondant par vous-même à ce site.
Suggestions: il n'y a actuellement pas de bonnes suggestions d'amélioration