
GoogleBotが追加されたWEBページをクロールしない理由
Googleが大量にあるWEBページでもインデックスしない場合があります。
内的要因は、常に高品質のページをインデックスしたいためページの品質を定めかねている場合です。
外的要因は、共有他社サイトのリソース超過や不正botの攻撃の影響で、WEBサーバーの処理速度が低下している場合です。
GoogleBotが追加されたWEBページをクロールしない
新設したWEBページのクロールが遅い、或いはページ自体がクロールされない事がありませんか?
これは私もいつも経験しています。
いつも通りサイトマップ送信をしているのに、すぐにインデックスされる時とインデックスされない時とがあるのです。
Google担当者へ直接質問をした
同じ疑問を持っている人がいるようで、WEBページがクロールされない理由をGoogleのJohn Muellerが尋ねられています。
特に巨大なページ数を誇るWEBサイトに対して、Googleのクロール力が不十分ではないかと言うのが質問の主旨です。
今回の質問者は数十万ページのWEBサイトの管理者です。
このサイトに対し、Googlebotは1日あたり約2,000のWEBページしかクロールしていませんでした。
インデックスの速度が遅い
60,000ページのクロールをした跡は検出されていますが、まだインデックスには登録されていません。
まだクロール未終了のページが大量にあるにも関わらず、1日あたり約2,000ページ程度しか進まない状況なのです。
このような大規模なサイトに対してこのペースは、確かに遅いと言えるでしょう。
そして何をしても、クロールされた1日あたりのページ数の急増は見られませんでした。
ですので、このようなクロール状況になっている理由を聞いた訳です。
それに対してのJohn Muellerの説明をベースに、その理由を解説します。
Googleクロール予算について
そもそも「GoogleBot」とは、ランキングの目的でWEBページに対しインデックスを付けるGoogleのクローラーの名前です。
しかしWEBの世界は非常に大きいため、Googleは闇雲にインデックスするのではなく基本戦略を持っています。
それは基本、インデックスするのは高品質のWEBページのみとし、低品質ページはインデックスしないというものです。
これは特に巨大なWEBサイト(数百万のWEBページ)において顕著に現れるそうです。
クロール予算
Googleがサイトのクロールに費やす時間とリソースは、一般に「サイトのクロール予算」と呼ばれます。
サイトでクロールされた全てのものが必ずしもインデックスに登録されるわけではありません。
各ページを評価・統合・評価して、クロール後にインデックスが作成されるかどうかが改めて判断されるのです。
制限と需要のバランス
クロールの予算は、クロール容量の制限とクロールの需要という要素によって決定されます。
つまり不必要なクロールを避け品質の高いコンテンツを確実にクロールする、この2つのバランスから成り立っている訳です。
クロールに影響を与える内的要因
それが実際に発生する主な理由が2つあるとJohn Muellerは答えます。
サイトの品質を計りかねている
まず最大の理由はサイトの品質の問題についてです。
サイトの品質が低いと、GoogleBotクローラーがWEBサイトをクロールしない可能性があります。
そして「低い」と断言はできないまでも、全体的な品質に確信が持てない状態だとクロール速度が遅くなる・或いはしない傾向にあります。
ですから新しいWEBサイトでは特に、一定の品質に確信を持つまでに時間が掛かるのです。
簡単に大規模サイトが構築できる時代
今はデータベースを使ってシステムを構築すれば、100万ページを超えるWEBページを瞬時に作成できる世の中です。
こういったWEBシステムが浸透する事で、基本的に1日でこのような大規模WEBサイトがたくさん見つかる訳です。
しかしこれらのページの品質決定は一つずつ丁寧に行う必要があります。
ですのでその品質が確定できるまで、インデックス作成について慎重にならざるを得ないのです。
サーバーの処理速度の問題
もう一つはサーバーの処理速度が遅い、あるいは応答に時間が掛かる場合です。
たとえ1秒未満のわずかな違いであっても、速度が違えばクロールされるようになります。
仮にそれが原因ならば、クロール統計レポートでそれを確認できると思います。
サーバーの速度とページの表示速度は、同じ物差しでは測れませんので注意ですね。
クロールに影響を与える外的要因
上記以外にも、Googlebotがクロールするページ数に影響を与える外部要因があります。
これについても2つご紹介しましょう。
共用サーバー上の他サイトがリソースを食っている
一つは共有サーバーでホストされているWEBサイトに起こりやすい原因です。
サーバー上に過剰なリソースを使用している他のWEBサイトがあり、それが足を引っ張っているケースですね。
こうなると共用サーバー内にある全てのWEBサイトの処理速度が低下してしまいます。
その結果十分な速度でページがクロールできない訳ですね。
サーバーが不正なbotの影響を受けている
もう1つはサーバーが不正botの攻撃圧力を受けている状態であり、WEBサイトの速度が低下している場合です。
サーバーの速度が遅ければ、やはり十分な速度でページがクロールできない訳ですね。
クロールする時間帯に注目
クローラーがWEBページをクロールする時間帯は、注目すべき部分です。
グーグルのような多くのクローラーは早朝にクロールします。
早朝であればサイトにアクセスする訪問者も少なく、クロール中断がされにくいためです。
不正bot対策を取る
夜中から夜明け付近でサーバー速度を測定し、その速度が遅ければ不正botがあえてその時間を狙っていると言えます。
この事も、クロールが影響を受ける外的要因と言えるでしょう。
この場合、不正botの攻撃を防ぐ様サーバー設定(アクセス制限など)を行う必要があります。