Lors de la mise en œuvre de nombreuses méthodes anti-collecte, vous devez déterminer si elles affecteront l'exploration du site Web par les moteurs de recherche. Analysons donc d'abord la différence entre les collecteurs généraux et la collecte par les robots des moteurs de recherche.
Points similaires :
a. Les deux doivent capturer directement le code source de la page Web pour fonctionner efficacement.
b. Les deux exploreront un grand nombre de contenus de sites Web visités plusieurs fois par unité de temps ;
c. D'un point de vue macro, les deux IP vont changer ;
d. Les deux sont trop impatients pour déchiffrer une partie de votre cryptage (vérification) des pages Web. Par exemple, le contenu Web est crypté via des fichiers js. Par exemple, vous devez saisir un code de vérification pour parcourir le contenu. vous devez vous connecter pour accéder au contenu.
Différences :
Le robot du moteur de recherche ignore d'abord l'intégralité du script et du style du code source de la page Web ainsi que le code de la balise HTML, puis effectue une série de traitements complexes sur les parties de texte restantes, telles que la segmentation des mots, l'analyse grammaticale et syntaxique. Le collecteur capture généralement les données requises grâce aux caractéristiques des balises HTML lors de l'élaboration des règles de collecte, il est nécessaire de remplir la marque de début et de fin du contenu cible, afin de localiser le contenu requis ou d'utiliser des règles régulières spécifiques pour ; pages Web spécifiques. Expression pour filtrer le contenu requis. Que vous utilisiez des balises de début et de fin ou des expressions régulières, les balises html (analyse de la structure des pages Web) seront impliquées.
Nous proposerons ensuite quelques méthodes anti-collecte.
1. Limiter le nombre de visites par unité de temps d'une adresse IP
Analyse : Aucune personne ordinaire ne peut visiter le même site Web 5 fois en une seconde, à moins qu'un programme n'y accède, et ceux qui ont cette préférence se retrouvent avec des robots de moteurs de recherche et des scrapers ennuyeux.
Inconvénients : Taille unique, ce qui empêchera également les moteurs de recherche d’inclure le site Web.
Sites Web applicables : sites Web qui ne s'appuient pas beaucoup sur les moteurs de recherche
Ce que fera le collecteur : Réduire le nombre d'accès par unité de temps et réduire l'efficacité de la collecte.
2. Bloquer l'adresse IP
Analyse : utilisez des compteurs d'arrière-plan pour enregistrer les adresses IP des visiteurs et la fréquence d'accès, analyser manuellement les enregistrements de visite et bloquer les adresses IP suspectes.
Inconvénients : Il ne semble y avoir aucun inconvénient, mais le webmaster est un peu occupé.
Sites Web applicables : tous les sites Web, et le webmaster peut savoir lesquels sont des robots Google ou Baidu
Ce que fera le collecteur : Combattez la guérilla ! Utilisez un proxy IP pour collecter des données à chaque fois, mais cela réduira l'efficacité du collecteur et la vitesse du réseau (utilisez un proxy).
3. Utilisez js pour crypter le contenu Web
Remarque : je n'ai jamais rencontré cette méthode, je l'ai juste vue d'ailleurs.
Analyse : pas besoin d'analyser, les robots et les collectionneurs des moteurs de recherche peuvent s'entre-tuer
Sites Web applicables : sites Web qui détestent extrêmement les moteurs de recherche et les collectionneurs
Le collectionneur fera ceci : si vous êtes si génial et que vous risquez tout, il ne viendra pas vous récupérer.
4. Le droit d'auteur du site Web ou du texte indésirable aléatoire est masqué dans la page Web. Ces styles de texte sont écrits dans le fichier CSS.
Analyse : bien que cela ne puisse pas empêcher la collecte, le contenu collecté sera rempli de la déclaration de droits d'auteur de votre site Web ou de texte indésirable, car généralement le collecteur ne collectera pas vos fichiers CSS en même temps et ces textes seront affichés sans style.
Sites Web applicables : tous les sites Web
Ce que fera le collectionneur : Pour le texte protégé par le droit d'auteur, il est facile de le manipuler et de le remplacer. Vous ne pouvez rien faire contre les spams aléatoires, soyez simplement diligent.
5. Les utilisateurs doivent se connecter pour accéder au contenu du site Web
Analyse : les robots des moteurs de recherche ne concevront pas de procédures de connexion pour chaque type de site Web. J'ai entendu dire que le collecteur peut simuler le comportement de connexion des utilisateurs et de soumission de formulaires pour une certaine conception de site Web.
Sites Web concernés : sites Web qui détestent les moteurs de recherche et souhaitent bloquer la plupart des collectionneurs
Ce que fera le collecteur : créer un module qui simule la connexion de l'utilisateur et le comportement de soumission du formulaire.
6. Utilisez un langage de script pour effectuer la pagination (masquer la pagination)
Analyse : Encore une fois, les robots des moteurs de recherche n’analyseront pas les paginations cachées de divers sites Web, ce qui affecte l’inclusion des moteurs de recherche. Cependant, lorsque les collectionneurs écrivent des règles de collecte, ils doivent analyser le code de la page Web cible. Ceux qui connaissent quelques connaissances en script connaîtront la véritable adresse du lien de la pagination.
Sites Web applicables : sites Web qui ne dépendent pas fortement des moteurs de recherche. De plus, la personne qui vous collecte n'a pas de connaissances en matière de scripts.
Ce que fera le collecteur : Il faut dire ce que fera le collecteur. Il analysera de toute façon le code de votre page Web, et analysera d'ailleurs votre script de pagination. Cela ne prend pas beaucoup de temps supplémentaire.