老ウェブマスターがバイドゥとグーグルのスパイダーの育て方を教える

著者：Eve Cole 更新時間：2009-07-07 16:45:48

この話題に関して言えば、なぜこれらのスパイダーロボットをメンテナンスする必要があるのかと疑問に思われるかもしれません。これらのスパイダーロボットが来るかどうかは気にせず、毎日 Web サイトのコンテンツを更新することはできますか? website 一人で見るために作っても大丈夫ですが、当サイトは家で楽しむためではなく、みんなで楽しむために作ったサイトです。したがって、私たちはこれらのスパイダーロボットを貴重なゲストとして扱い、彼らの世話をしなければなりません。では、育て方についてお話しましょう。

1. Baidu と Google のスパイダーロボットの活動を分析する

最も簡単な方法はサーバーの IIS ログを確認することですが、これは独自のサーバーを持っている人、または少数のスペースプロバイダー Web サイトで提供されているユーザーのみが対象であり、ほとんどの Web サイトでは見ることができません。では、この貴重な情報をどのように見るのでしょうか?私は皆さんにソースコードをお勧めします: Luzhu CMS このウェブサイトのソースコードの背景には、各ロボットの訪問時間、訪問したページの痕跡が明確に記録されており、訪問の詳細なデータが分析されています。セグメント分析、各チャネルの分析、追加したコンテンツのセクションの分析を 24 時間実施します。主要な検索ロボットが Web サイトのどのチャネルやセクションを好むかを分析し、他のチャネルやセクションを修正するための提案も提供します。

Baidu と Google の詳細な活動方法の例を示します。もちろん、それぞれの Web サイトの方法は異なります。ここで私の Web サイト Luzhu Web サイトの例を示します。 Baidu のスパイダーロボットは Web サイトのトップページを最も好んでクロールし、5 分に 1 回クロールします。また、Baidu が Web サイトのトップページをエントリポイントとして使用し、その後、Web サイトと Web サイトの間に違いがあることを発見したことも理解できます。今回と前回のホームページにリンクすると、すぐに新しいリンクページに移動します。 Google は異なります。ホームページを頻繁にクロールすることはありません。Web サイトごとにマップがあり、レコードがある場合はクロールし続けます。このことから、Baidu は Web サイトの新しいコンテンツをすぐに検出しますが、Google は新しいコンテンツをすぐには検出しないことがわかります。かつて、自分の Web サイトにコンテンツを追加した後、すぐに Baidu にアクセスしてそのサイトをクロールしたスパイダークローラーの記録を確認したところ、それが含まれていたことを思い出します。もちろん、このコンテンツは私が書いたソフト記事であり、百度がオリジナルとみなしている記事なので、すぐに取り込まれます。

2. ウェブサイトを頻繁に改訂したり、変更をほとんど加えたりしないでください

なぜそう言えるのでしょうか? Baidu と Google は、あなたの Web サイトに関する一部の情報をデータベースに記録し、前回クロールされたページと比較して分析します。新しい Web サイトの場合、スパイダークローリングは一定期間停止されます。つまり、Web サイトはすぐに監視期間に入り、この期間中はスパイダークローリングは頻繁に行われなくなります。つまり、Baidu と Google はあなたを対象にしません。この期間中、ページの権限も降格される可能性があります。 5 月に一度、Web サイトのテンプレートを変更したことを覚えています。以前は、ほとんど毎日いくつかのページが含まれていましたが、変更後は 1 週間ほど停止されました。収録ページも大幅に減りました。これは Web サイトの包括的な変更であり、私が 3 日間で 90 以上の外部リンクを追加したことを覚えています。これは、Web サイトの小さな変更でしたが、最初はまだスパイダーを停止していませんでした。 1週間後、含まれているページ数を確認したところ、突然数百ページが不足していました。 Baidu と Google からダウンロードされた IP アドレスの数も、元の数に比べて減少しました。

3. ウェブサイトの更新コンテンツは、可能な限りオリジナルまたは疑似オリジナルである必要があります。

Baidu と Google がオリジナルの記事を好むことは誰もが知っているので、古い客人が家に来た場合は、彼の好きな料理やお茶を知っておく必要があります。 Baidu と Google がこれを気に入っていることはわかっています。これを有効に活用してみてはいかがでしょうか。新浪や一部の大手有名サイトをよく読むと、必ずしもオリジナルの記事ではない場合もありますが、検索スパイダーの好みを満たすために、記事をある程度加工して擬似オリジナルにすることもあります。とはいえ、インターネット上には日々膨大な情報が更新されているので、私たちと同じように、良い人もいれば悪い人もいます。有名なWebサイトでは疑似オリジナル処理を行っているので、中小規模のWebマスターとしてやってみませんか？ Baidu や Google のロボットは神ではなく、人間が書いたプログラムであり、人間がそれを実行します。プログラム上で現在のすべての記事を完全に分析することは不可能であり、それが同じであるかどうか、またはオリジナルであるかどうかを比較することしかできません。私たちの Web サイトにコンテンツを追加するとき、疑似オリジナルコンテンツをたくさん追加して、Web サイトの包含性を高めてみてはいかがでしょうか。

4. ウェブサイト更新コンテンツの適時性

前述したように、Baidu と Google は 1 日に数回 Web サイトをクロールするため、これを利用する必要があります。したがって、私たち自身のウェブサイトもコンテンツをタイムリーに更新する必要があります。そうすれば、彼らが来たら何かを得ることができ、より頻繁に来て、あなたの参加がより多くなるでしょう。前述したように、Web サイトのコンテンツを更新するときに偽の記事が作成される可能性があります。偽の記事を作成するのが苦手な場合は、Web サイトに記事が掲載されたら、タイムリーに Web サイトに更新するだけで済みます。その場合、Baidu と Google はその時点ではそれを含めていない可能性があり、Web サイト上のコンテンツがオリジナルであると誤って認識する可能性があります。 Web サイトのコンテンツをタイムリーに定期的に更新している場合、それが他人のオリジナルの作品であっても、Baidu と Google はあなたの作品のすべてのページを含めます。

要約すると、私たちの Web サイトが Baidu と Google に毎日大量に掲載されることを望む場合、Web サイト上でのスパイダーの活動時間と方法を深く理解し、レイアウトを変更せず、いくつかの要素を追加する必要があります。オリジナル記事をタイムリーに配信します。

上記は私自身の意見の一部であり、比較的表面的なものですので、よろしければ訂正してご連絡ください http://www.luzhuba.cn 。