多くの収集防止メソッドを実装する場合は、検索エンジンによる Web サイトのクローリングに影響を与えるかどうかを考慮する必要があるため、まず一般的なコレクターと検索エンジン クローラー コレクションの違いを分析しましょう。
類似点:
a. どちらも効果的に機能するには、Web ページのソース コードを直接キャプチャする必要があります。
b. どちらも、訪問した Web サイトのコンテンツを単位時間当たり複数回クロールします。
c. マクロの観点からは、両方の IP が変更されます。
d. どちらも、Web ページの一部の暗号化 (検証) を解読するには時間がかかりすぎるため、たとえば、Web コンテンツを閲覧するには検証コードを入力する必要があります。たとえば、コンテンツにアクセスするにはログインする必要があります。
違い:
検索エンジン クローラーは、まず Web ページのソース コード スクリプト全体とスタイルおよび HTML タグ コードを無視し、次に残りのテキスト部分に対して単語の分割、文法解析、構文解析などの一連の複雑な処理を実行します。コレクターは通常、HTML タグの特性を通じて必要なデータを取得します。収集ルールを作成する場合、必要なコンテンツを見つけるために、ターゲット コンテンツの開始マークと終了マークを入力するか、特定の規則を使用する必要があります。特定の Web ページをフィルタリングして、必要なコンテンツを除外します。開始タグと終了タグを使用する場合でも、正規表現を使用する場合でも、HTML タグ (Web ページの構造解析) が関係します。
次に、収集防止の方法をいくつか提案します。
1. IPアドレスの単位時間当たりのアクセス数を制限する
分析: プログラムによってアクセスされない限り、普通の人は 1 秒間に 5 回同じ Web サイトにアクセスすることはできません。このような好みを持つ人は、検索エンジンのクローラーや迷惑なスクレーパーにさらされることになります。
短所: フリーサイズなので、検索エンジンに Web サイトが含まれなくなります。
対象となるWebサイト:検索エンジンにあまり依存しないWebサイト
コレクターが行うこと: 単位時間あたりのアクセス数を減らし、収集効率を低下させます。
2.IPをブロックする
分析: バックグラウンド カウンタを使用して訪問者の IP アドレスとアクセス頻度を記録し、訪問記録を手動で分析し、疑わしい IP アドレスをブロックします。
デメリット: デメリットはないようですが、管理人が少々忙しいです。
該当する Web サイト: すべての Web サイト。Web マスターはどれが Google ロボットか Baidu ロボットかを知ることができます。
コレクターが行うこと: ゲリラ戦と戦ってください! 毎回 IP プロキシを使用してデータを収集しますが、コレクターの効率とネットワーク速度が低下します (プロキシを使用します)。
3. js を使用して Web コンテンツを暗号化する
注: 私はこの方法に出会ったことはなく、他の場所で見ただけです。
分析: 分析する必要はありません。検索エンジンのクローラーとコレクターは互いに殺し合うことができます。
対象となるウェブサイト:検索エンジンやコレクターを極端に嫌うウェブサイト
コレクターはこうするでしょう:もしあなたがとても素晴らしくて、すべてを危険にさらしているなら、彼はあなたを集めに来ないでしょう。
4. Web サイトの著作権またはランダムなジャンク テキストが Web ページに隠されています。これらのテキスト スタイルは CSS ファイルに書き込まれます。
分析: 収集を阻止することはできませんが、収集されたコンテンツが Web サイトの著作権記述やジャンク テキストでいっぱいになります。これは、通常、コレクターは CSS ファイルを同時に収集せず、これらのテキストはスタイルなしで表示されるためです。
対象Webサイト:全Webサイト
コレクターが行うこと: 著作権で保護されたテキストの場合、取り扱いや置き換えが簡単です。ランダムなスパム テキストに対してできることは何もありません。ただ熱心に対処してください。
5. ユーザーはウェブサイトのコンテンツにアクセスするにはログインする必要があります
分析: 検索エンジン クローラーは、あらゆる種類の Web サイトのログイン手順を設計するわけではありません。コレクターは、特定の Web サイトのデザインに対するユーザーのログインとフォーム送信の動作をシミュレートできると聞きました。
該当する Web サイト: 検索エンジンを嫌い、ほとんどのコレクターをブロックしたい Web サイト
コレクターが行うこと: ユーザーのログインとフォームの送信動作をシミュレートするモジュールを作成します。
6. スクリプト言語を使用してページングを実行します (ページングを非表示にします)
分析: 繰り返しますが、検索エンジン クローラーはさまざまな Web サイトの非表示のページネーションを分析しません。これは、検索エンジンによる Web サイトの包含に影響します。ただし、コレクターがコレクション ルールを作成するときは、ターゲット Web ページのコードを分析する必要があります。スクリプトの知識がある人は、ページングの実際のリンク アドレスを知っています。
該当する Web サイト: 検索エンジンにあまり依存していない Web サイト。また、収集者にはスクリプトの知識がありません。
コレクターが行うこと: コレクターは、Web ページのコードを分析し、ページング スクリプトを分析します。余分な時間はかかりません。