Bei der Implementierung vieler Anti-Sammlungsmethoden müssen Sie berücksichtigen, ob sie sich auf das Crawlen der Website durch die Suchmaschine auswirken. Lassen Sie uns daher zunächst den Unterschied zwischen allgemeinen Sammlern und der Crawler-Sammlung von Suchmaschinen analysieren.
Ähnlichkeiten:
a. Beide müssen den Quellcode der Webseite direkt erfassen, um effektiv zu funktionieren.
b. Beide crawlen eine große Anzahl besuchter Website-Inhalte mehrmals pro Zeiteinheit;
c. Aus makroökonomischer Sicht werden sich beide IPs ändern;
d. Beide sind zu ungeduldig, um einen Teil der Verschlüsselung (Verifizierung) Ihrer Webseiten zu knacken. Beispielsweise müssen Sie einen Bestätigungscode eingeben, um den Inhalt zu durchsuchen Beispielsweise müssen Sie sich anmelden, um auf den Inhalt zugreifen zu können.
Unterschiede:
Der Suchmaschinen-Crawler ignoriert zunächst das gesamte Quellcodeskript, den Stil und den HTML-Tag-Code der Webseite und führt dann eine Reihe komplexer Verarbeitungen für die verbleibenden Textteile durch, z. B. Wortsegmentierung sowie grammatikalische und syntaktische Analyse. Der Kollektor erfasst die erforderlichen Daten im Allgemeinen über die Eigenschaften von HTML-Tags. Bei der Erstellung von Sammlungsregeln ist es erforderlich, die Start- und Endmarkierung des Zielinhalts einzugeben, um den erforderlichen Inhalt zu lokalisieren spezifische Webseiten. Ausdruck, um den erforderlichen Inhalt herauszufiltern. Unabhängig davon, ob Sie Start- und End-Tags oder reguläre Ausdrücke verwenden, sind HTML-Tags (Analyse der Webseitenstruktur) beteiligt.
Dann werden wir einige Anti-Collection-Methoden vorschlagen.
1. Begrenzen Sie die Anzahl der Besuche pro Zeiteinheit einer IP-Adresse
Analyse: Kein normaler Mensch kann dieselbe Website fünfmal in einer Sekunde besuchen, es sei denn, ein Programm greift darauf zu, und diejenigen, die diese Vorliebe haben, bleiben mit Suchmaschinen-Crawlern und lästigen Scrapern zurück.
Nachteile: Einheitsgröße, was auch verhindert, dass Suchmaschinen die Website einbeziehen.
Anwendbare Websites: Websites, die nicht stark auf Suchmaschinen angewiesen sind
Was der Collector tun wird: Reduzieren Sie die Anzahl der Zugriffe pro Zeiteinheit und verringern Sie die Effizienz der Sammlung
2. IP blockieren
Analyse: Verwenden Sie Hintergrundzähler, um Besucher-IP-Adressen und Zugriffshäufigkeit aufzuzeichnen, Besuchsaufzeichnungen manuell zu analysieren und verdächtige IP-Adressen zu blockieren.
Nachteile: Es scheint keine Nachteile zu geben, aber der Webmaster ist etwas beschäftigt.
Anwendbare Websites: Alle Websites, und der Webmaster kann erkennen, welche Google- oder Baidu-Robots sind
Was der Collector tun wird: Guerillakrieg führen! Verwenden Sie jedes Mal einen IP-Proxy, um Daten zu sammeln, aber dies verringert die Effizienz des Collectors und die Netzwerkgeschwindigkeit (verwenden Sie einen Proxy).
3. Verwenden Sie js, um Webinhalte zu verschlüsseln
Hinweis: Diese Methode ist mir noch nie begegnet, ich habe sie nur woanders gesehen.
Analyse: Keine Analyse erforderlich, Suchmaschinen-Crawler und -Sammler können sich gegenseitig töten
Anwendbare Websites: Websites, die Suchmaschinen und Sammler extrem hassen
Der Sammler wird Folgendes tun: Wenn du so großartig bist und alles riskierst, wird er dich nicht abholen.
4. Das Website-Copyright oder ein zufälliger Junk-Text ist in der Webseite versteckt. Diese Textstile sind in der CSS-Datei geschrieben.
Analyse: Obwohl die Sammlung nicht verhindert werden kann, wird der gesammelte Inhalt dadurch mit der Urheberrechtserklärung Ihrer Website oder irgendeinem Junk-Text gefüllt, da der Collector im Allgemeinen nicht gleichzeitig Ihre CSS-Dateien sammelt und diese Texte ohne Stil angezeigt werden.
Anwendbare Websites: alle Websites
Was der Sammler tun wird: Bei urheberrechtlich geschütztem Text ist es einfach, ihn zu handhaben und zu ersetzen. Sie können nichts gegen zufällige Spam-Texte tun, seien Sie einfach gewissenhaft.
5. Benutzer müssen sich anmelden, um auf Website-Inhalte zugreifen zu können
Analyse: Suchmaschinen-Crawler entwerfen nicht Anmeldeverfahren für jede Art von Website. Ich habe gehört, dass der Collector das Anmelde- und Formularübermittlungsverhalten von Benutzern für ein bestimmtes Website-Design simulieren kann.
Anwendbare Websites: Websites, die Suchmaschinen hassen und die meisten Sammler blockieren möchten
Was der Collector tun wird: Erstellen Sie ein Modul, das die Benutzeranmeldung und das Absenden des Formularverhaltens simuliert
6. Verwenden Sie die Skriptsprache, um Paging durchzuführen (Paging ausblenden)
Analyse: Auch hier analysieren Suchmaschinen-Crawler nicht die versteckten Seitenzahlen verschiedener Websites, was sich auf deren Aufnahme in Suchmaschinen auswirkt. Wenn der Sammler jedoch die Sammlungsregeln schreibt, muss er den Code der Zielwebseite analysieren. Wer über einige Skriptkenntnisse verfügt, kennt die tatsächliche Linkadresse der Paging-Seite.
Anwendbare Websites: Websites, die nicht stark von Suchmaschinen abhängig sind. Außerdem verfügt die Person, die Sie sammelt, nicht über Skriptkenntnisse.
Was der Collector tun wird: Es sollte gesagt werden, was der Collector tun wird. Er wird Ihren Webseitencode sowieso analysieren und nebenbei auch Ihr Paging-Skript analysieren.