前述のコレクションの原則から、ほとんどのコレクションプログラムは、ページングファイル名のルールの分析やページコードルールの分析など、コレクションの分析ルールに依存していることがわかります。
1。ページングファイル名のコレクションの防止
ほとんどのコレクターは、バッチとマルチページコレクションを実行するために、ページングファイル名ルールの分析に依存しています。他の人があなたのページングファイルのファイル名ルールを見つけることができない場合、他の人はあなたのウェブサイトの複数のページをバッチで収集することができません。
実装方法:
MD5でページングファイル名を暗号化する方が良いと思います。これについて言えば、MD5でページングファイル名を暗号化すると、このルールに従ってページングファイル名を取得するために暗号化ルールをシミュレートできる人もいます。
私が指摘したいのは、ページングファイル名を暗号化するとき、ファイル名を変更する部分を暗号化しないでください。
ページのページ番号を表している場合、次のように暗号化する必要はありません:page_name = md5(i、16)& "。htm"
[ページ番号の1つ以上の文字を、暗号化する1つ以上の文字をフォローアップするのが最善です。たとえば、次のようになります。
MD5を復号化できないため、他の人が見ているページの文字はMD5暗号化の結果であるため、Adderは、暴力的な**** MD5を使用しない限り、私の後にどのような文字がどのようなものかを知ることができませんが、現実的ではありません。
2。ページコードルールの収集の防止
コンテンツページにコードルールがない場合、コードから必要なコンテンツを抽出することはできません。したがって、コレクションを防ぐために必要なステップは、コードをルールから解放することです。
実装方法:
相手が抽出する必要があるマーカーをランダム化する
1.複数のWebテンプレートをカスタマイズします。各Webテンプレートの重要なHTMLタグは異なります。ページコンテンツを表示するときは、Webテンプレートをランダムに選択します。一部のページはCSS+divを使用したレイアウトであり、一部のページはテーブルのレイアウトです。この方法は少し面倒です。コンテンツページの場合、さらにいくつかのテンプレートページを作成する必要があります。しかし、反収集は非常に退屈なことです。より多くのテンプレートを作ることは、収集の防止に役割を果たすことができます。これは多くの人々にとって価値があります。
2.上記の方法が面倒すぎる場合は、Webページの重要なHTMLタグをランダム化します。
より多くのWebテンプレートを作成するほど、HTMLコードはランダムになります。相手がコンテンツコードを分析するとき、それはより多くの問題になります。相手があなたのウェブサイトのコレクション戦略を書くと、それはより困難になります。この時点で、この人は怠け者であり、他の人のウェブサイトからデータを収集しているため、ほとんどの人が退却します~~~もう一度話しましょう。現在、ほとんどの人は、他の人が開発したコレクションプログラムを使用してデータを収集しています。結局のところ、自分でデータを収集するためのコレクションプログラムを開発する人は数人います。
あなたのためにいくつかの簡単なアイデアがあります:
1.クライアントスクリプトを使用して、データコレクターにとって重要なコンテンツを表示しますが、エンジンを検索するのではありません。
2。データの1ページをnページに分割することも、収集の難易度を高める方法です。