Webサイトのページ数が多くなると、Googleのクローラーがすべてを巡回しきれなくなる場合があります。そのようなときに重要になるのが「クロールバジェット」です。本記事では、クロールバジェットの基本的な考え方から、最適化すべき理由、具体的な対策方法までを網羅的に解説します。特に大規模サイトを運営している方や、インデックスされないページが増えている方はぜひ最後までご覧ください。クロールバジェットとは?クロールバジェットとは、Googlebot(Googleのクローラー)が1つのサイトに割り当てる「クロールできる上限(巡回可能なページ数や頻度)」のことです。Google公式では明確な数値は公開されていませんが、リソースを効率よく活用するために各サイトごとにクロールの上限枠が設けられているとされています。つまり、限られたクロール枠(予算)をサイト内のどのページにどれだけ使うかという考え方になります。Google検索セントラルの公式ドキュメントでは、クロールバジェット(クロールの割り当て)について次のように定義されています。「サイトに対するクロールバジェットとは、Googlebot によるクロールが可能であり、かつクロールが必要な URL セットであると定義できます。」簡単に言えば、「Googlebotがクロール可能なうえに、クロールする必要があるページの集合」がそのサイトのクロールバジェットになるということです。クロールすべき重要ページが多ければ需要(デマンド)が増え、逆に重要度の低いページばかりなら需要が低下します。また、どんなにサイト側が高速でも需要が少なければクロール頻度は上がらない、という点も押さえておきましょう。なぜSEOにおいてクロールバジェットが重要なのか?クロールバジェットの概念は、特に大規模サイトにおいて重要です。もしクロールバジェットを効率良く使えていないと、重要なページがクロールされずにインデックス登録から漏れるリスクが生じます。クロールされないページは検索結果に表示されず、SEO上の機会損失に直結します。逆に、優先度の低いページやエラーばかりのURLにクロール枠が浪費されていると、本来インデックスされるべき重要ページの収集が遅れたり見逃されたりする可能性があります。また、Googleはクローラーリソースに限りがあるため、サイト内のクロール効率が悪いと判断された場合にはクロール頻度自体を下げることも考えられます。本来であれば巡回してほしい更新ページが後回しにされたりするため、サイト全体のSEOパフォーマンスに影響を及ぼしかねません。したがって、クロールバジェットを最適化して重要ページのクロールを優先させることがSEOでは非常に重要なのです。対象となるサイトは?クロールバジェットの影響を特に受けやすいのは、数千〜数万ページ以上ある大規模なWebサイトや、商品数の多いECサイト・記事数の多いメディアサイトなどページ生成が頻繁なサイトです。Google公式も、サイトのページ数が1,000未満の場合はこのレポート(クロール統計情報)を細かく気にする必要はないと述べています。【参考元】クロールの統計情報レポート - Search Console ヘルプ実際、サイト規模が小さいうちはGooglebotが巡回に困るケースは少なく、クロールバジェットを意識しなくても問題が起きにくいでしょう。しかし、ページ数が少なくても重複コンテンツや無駄なURLが多いサイトでは、クロールバジェットの浪費につながる可能性があります。例えば、パラメータ付きの無限に生成されるURLや、不必要に細分化されたページがある場合です。そうした無駄を放置すると、小規模サイトでもクローラーが不要な巡回に時間を割き、肝心のページのクロールが遅れることがあります。そのため、基本的にはすべてのサイト運営者にとってクロールバジェットの概念は無関係とは言えないでしょう。クロールバジェットに影響する主な要因クロールバジェットは「クロール能力の上限」(Crawl Rate Limit)と「クロールの必要性」(Crawl Demand)の2つの要素によって決まると、Google検索セントラルでも明言されています。【参考元】大規模サイトのクロール バジェット管理 | Google 検索セントラルここでは、Googleがどのようにこれら2つの観点からサイトを評価し、クロールの優先順位を決めているかを深掘りして解説します。クロール能力の上限(Crawl Rate Limit)クロール能力の上限とは、Googlebotがあなたのサイトをクロールする際にサーバーへ過度な負荷をかけないように設定されるクロール速度の制限です。Googleは「Googlebotでは、負担をかけないためのクロール能力の上限を計算します。計算では、サイトのクロール時に使用可能な同時並行接続の最大数と、次回取得までに必要な待ち時間が考慮されます」と公式に説明しています。要するに、同時に何接続までクロールするか、次のクロールまでどれくらい待つかといった値を内部で調整しているということです。このクロール上限はサイトの状況に応じて変動します。「しばらくの間サイトが迅速に応答している場合はクロール頻度の上限が上がるので、使用可能な接続数が増え」逆に「サイトの応答が遅くなった場合やサーバーエラーが返された場合はクロール頻度の上限が下がり、Googlebotによるクロールが減ります」。つまり、サイトが軽快に応答していればより積極的にクロールし、応答が遅かったりエラーが増えればクロールを控えるという仕組みです。また、「Googleには多数のマシンがありますが、どのマシンでもクロール頻度に上限があります」とも言及されており、Google側のリソースにも物理的な上限が存在することも覚えておきましょう。クロールの必要性(Crawl Demand)一方、クロールの必要性(需要)とは、Google側が「そのサイトのページをどの程度クロールすべきか」を判断する指標です。GoogleはすべてのURLを均等にクロールするわけではなく、検索需要やページの更新頻度、サイト内外での評価などを踏まえてクロールの優先度を決めています。この概念をCrawl Demand(クロールデマンド)と呼び、需要が高いサイトほど頻繁にクロールされ、需要が低ければクロール頻度も抑えられる傾向にあります。Googleが公式に挙げているクロール必要性の主な判断要素は次の3つです。検出された URL 群: Googlebotは特に指示がなければサイト上で認識しているほぼ全てのURLをクロールしようとします。しかし、重複するURLが大量に存在したり、削除済み・重要でないURLばかりだと、クローラーが無駄な時間を費やすことになります。これはサイト運営者側が最も管理しやすい要素でもあります。人気度: インターネット上で人気の高いURLほど頻繁にクロールされる傾向があります。多くのユーザーに見られているページは常に最新の情報を提供する必要があるため、Googleも更新チェックの頻度を上げるということです。古さ: ページが最後に更新されてから時間が経っている場合(もしくは定期的に内容が変化する場合)、Googleはその変更をインデックスに反映させるために適切な頻度で再クロールしたいと考えています。反対に、最近変更がなく需要も低いと判断されたページはクロール頻度を下げられることがあります。以上を総合すると、クロールバジェットはサイト側の技術的な処理能力(サーバーの応答やエラー状況)と、ページの重要度・新鮮さ(ユーザー需要や更新状況)によって決定されると言えます。人気サイトであれば需要が高いので頻繁にクロールされますが、サーバーが弱ければクロール速度は絞られます。また、需要が低いサイトはクロール上限に達していなくてもクロール頻度が上がらない点に注意が必要です。悪影響を及ぼす具体的な要因一覧次に、クロールバジェットを浪費させてしまう代表的な要因をまとめます。以下のような問題があると、重要でない部分にクローラーのリソースが割かれてしまい、結果として有用なページのクロール機会が減ってしまいます。要因カテゴリ例影響内容重複ページパラメータ付きURL・絞り込み検索結果ページクローラーリソースの浪費(同じようなページの巡回に時間を取られる)無限スクロールページネーションが効かないUI(無限に続きを読み込むページ)同一コンテンツ領域の過剰クロール(下層のURLが無限に生成される恐れ)ソフト404存在しないのにエラーコードを返さないページ無意味なクロール消費(エラーページを何度も巡回される)スパム・低品質ページコピーページ・自動生成コンテンツ・広告のみのページサイト全体の評価低下・不要ページへのクロール配分増加リダイレクトチェーン301→302→301 の多重リダイレクト構造クローラーの混乱、無駄な時間消費(途中で巡回を諦める可能性も)上記のような要因がある場合、できるだけ早急に対処することが望ましいです。例えば、無限スクロールで追加読み込みされるコンテンツは適切にページ分割(ページネーション)するか、クローラー向けにリンクを用意することが推奨されます。また、ソフト404(存在しないページなのに正常なコードを返しているもの)はクロールされ続けてバジェットを浪費するため削除・適切なステータスコードの返却が必要です。低品質なページやスパム的なページはサイト評価も下げるのでインデックスさせない工夫が必要でしょう。リダイレクトチェーンについては後述する対策で詳しく触れますが、長いリダイレクトはクロールに悪影響を及ぼすとGoogleも明言しています。クロールバジェットを最適化する具体的な方法ここからは、サイト内の無駄なクロールを省き、重要なページが優先的にクロールされるようにするための具体的な最適化手法を紹介します。いずれもGoogle公式が推奨する方法に基づいており、実践することでクロール効率とインデックス状況の改善が期待できます。不要ページのクロールを防ぐ robots.txt の活用robots.txtファイルを使って、Googlebotに特定のページやディレクトリをクロールしないよう指示することができます。管理画面や検索結果の絞り込みページ、重複コンテンツのページなど、ユーザーには必要でも検索結果には不要なページはrobots.txtでクロール除外するのが効果的です。これにより、貴重なクロールバジェットを重要なページに集中させることができます。例えば、サイト内で同じ内容を異なる並び替えで表示するだけのページ群(典型的には無限スクロールの末尾に存在する別順序ページなど)は、1つに統合できない場合robots.txtでブロックすることが推奨されています。ただし、robots.txtでURLをブロックするとインデックス登録される可能性も大幅に下がる(クロールされなくなるため)点には注意が必要です。検索結果に絶対に表示させたくないページであれば問題ありませんが、ブロックの是非は慎重に判断しましょう。また、Googleは「他のページのためにクロールバジェットを一時的に再配分する目的でrobots.txtを使用しないでください」と述べています。クロールさせたり止めたりを頻繁に繰り返すような操作は意味がなく、robots.txtはあくまで長期的にクローラーに見せたくないリソースをブロックするための手段だと理解しましょう。一度ブロックしたURLでも、ブロックを解除すれば再度クロールキューに入る(しばらく残っている)ことも覚えておいてください。【関連記事】robots.txtとは?SEOに重要な設定の基本をわかりやすく解説サイトマップ(XML)の定期更新と精査XMLサイトマップは、Googleに対して「クロールしてほしいURL」を伝えるための重要な手段です。サイトマップを適切に活用することで、新規ページや更新ページを効率よくGoogleに発見してもらい、不要なURLへのクロールを避ける助けになります。ポイントは以下のとおりです。最新のURLのみを反映する: サイトマップには有効なページURLだけを載せ、削除済みページ(404/410)やnoindexを指定したページは含めないようにします。これにより、クローラーがエラーページに無駄な時間を割くのを防げます。更新日時の指定: サイトマップ内の各URLには可能であれば最終更新日時(<lastmod>タグ)を記載しましょう。Googleは定期的にサイトマップを読み取っているため、更新日を示すことで再クロールの必要性を伝えられます。サイトマップの分割: ページ数が非常に多いサイトや、構造が複雑なサイトでは、サイトマップをセクションごと(カテゴリごとなど)に分割すると管理しやすくなります。各サイトマップファイルをサイトマップインデックスでまとめて登録することで、クロールの漏れを防ぎます。定期的にサイトマップを精査し、不要なURLが入っていないか、新しいページが漏れていないかをチェックしましょう。Googleはサイトマップに含まれるコンテンツはすべてクロールしようと定期チェックしているため、クロールさせたいURLは漏れなく含めることが重要です。【関連記事】XMLサイトマップ作成方法 – SEO初心者でもできる完全ガイドステータスコード(404/410)の適正化不要になったページや存在しないページへのクロールを減らすには、適切なHTTPステータスコードを返すことが不可欠です。具体的には、削除したページには404(Not Found)または可能であれば410(Gone)を返すようサーバー設定を行いましょう。404は「そのページは存在しない」ことを示す一般的なコードであり、Googleに対して「再度クロールしなくて良い」という強いシグナルになります。410は「そのページは永久に削除された」ことを意味するコードで、Googleの処理上も404よりやや迅速にインデックスから排除される傾向があります(必ずしも410の方が良いとは限りませんが、削除を明確に伝えたい場合に有効です)。重要なのは、不要ページを放置して200番(正常応答)を返し続けないことです。適切なエラーコードを返さない「ソフト404」の状態にあると、Googleはそれを有用なページだと誤解して何度もクロールを試みてしまいます。その結果、クロールバジェットの無駄遣いになりますので、不要ページは検知次第きちんとエラーコードで処理しましょう。なお、一度認識されたURLはGoogleが完全に「無視」することはありませんが、404/410を返すことで「再クロールしないでほしい」という強力なシグナルを送ることができます。Search Consoleの「インデックス登録の問題」や「クロールエラー」セクションでエラーページの状況を監視しつつ、適宜対応してください。重複コンテンツの統合とcanonicalの設置サイト内に類似した内容のページが複数ある場合、重複コンテンツを統合することでクロール効率を高められます。同じような情報を持つページがたくさんあると、Googlebotはそれらをすべてクロールしようとしてクロールバジェットを消費してしまいます。そこで、以下の対策を検討しましょう。ページ統合: 内容がほぼ重複しているページ同士は、可能であれば1つのページにまとめることが最善です。統合することで、そのコンテンツに対する評価も分散せずに済みます。canonicalタグの活用: 統合が難しい場合や類似ページを残す必要がある場合は、**正規化(canonical指定)を使います。一方のページからもう一方のページを指す<link rel="canonical">タグを設置し、どちらが正規ページ(評価を集約すべきページ)かを示します。これにより、Googleは「どのページを優先的にクロールすべきか」**を理解し、無駄なクロールを抑制できます。パラメータ処理: URLパラメータによる重複ページが多数ある場合、Search ConsoleのURLパラメータ設定(※現在は推奨されない方法ですがかつて存在した機能)や、可能ならサーバーサイドでパラメータを統合したURLにリダイレクトする実装なども検討します。Google公式ガイドラインでも「重複コンテンツは除外して、一意のコンテンツのみをクロールするようにする」ことが推奨されています。これはまさに、重複ページにクロールバジェットを奪われないようにする基本施策と言えるでしょう。ページ表示速度の改善とリソース軽量化サイトのページ表示速度(パフォーマンス)を改善することは、ユーザー体験の向上だけでなくクロール効率にも寄与します。ページの読み込みが速いほど、Googlebotはより短時間で多くのページをクロールできるからです。Googleも「ページをより高速に読み込めるようになると、サイトからより多くのコンテンツを読み取れる可能性があります」と述べており、サイト速度とクロールバジェットには一定の相関があることが示唆されています。具体的な改善ポイントは下記の通りです。画像や動画の最適化: 画像圧縮や適切なフォーマットの採用(WebPなど)、動画の遅延読み込みなどを行い、メディアの読み込みを軽くします。不要なスクリプト・CSSの削減: 使っていないJavaScriptやCSSを削除し、必要なものも可能な限り軽量化・縮小(minify)します。コンテンツの遅延読み込み: ページ表示時に必ずしも必要ない要素(下部の画像など)はLazy Loadを利用し、初期表示を高速化します。サーバー応答の高速化: サーバーのスペック向上やキャッシュの活用、CDNの導入などでサーバーからの応答時間を短縮します。特にTTFB(初回バイトまでの時間)を改善するとGooglebotの巡回もスムーズになります。これらの対策によってCore Web Vitalsの指標が改善されれば、間接的に評価向上も期待できますし、結果としてクロールの処理効率も良くなります。サイト速度や頻発するエラーはクロールバジェットに影響することが確認されていますので、技術的な健全性を保つことが巡回数アップにもつながると考えてください。【関連記事】ページ速度はSEOに影響するのか?重要性と改善テクニックを徹底解説リダイレクトチェーンの解消と簡潔化複数回転送(リダイレクト)が連なっているリダイレクトチェーンは、クローラーにとって大きな時間ロスとなります。たとえばページAがページBに301リダイレクトし、さらにページBがページCに302リダイレクトするようなケースです。このように1回の遷移で目的ページに到達できない状態だと、Googlebotは途中でクロールを諦めてしまう場合もありますし、仮に辿れたとしても2回分のリクエストを消費することになります。当然、その余計なリクエスト分だけ他のページのクロールが遅れる可能性があります。Googleは公式に「長いリダイレクトチェーンはクロールに悪影響を及ぼす」と述べています。理想的にはリダイレクトは1回以内、どうしても必要でも2回までに収めるのが望ましいです。過去の運用で複雑なリダイレクトが積み重なっている場合は、目的地まで直接リダイレクトするよう.htaccessやサーバールールを整理しましょう。リダイレクトチェーンを解消することはユーザーの遷移においても待ち時間の短縮につながります。したがって、これはSEOにおける技術的最適化としても重要な取り組みです。サイトリニューアルやページ統合でリダイレクトを多用した後は特に、チェーンが発生していないか確認してみてください。【関連記事】301リダイレクトがSEOに与える影響とは?正しい設定方法と注意点Google Search Consoleでクロール状況を確認するクロールバジェット最適化の効果検証や、現状の課題発見にはGoogle Search Consoleのデータが役立ちます。Search Consoleを使うと、実際にGooglebotがサイトをどの程度クロールしているのかや、クロール時にエラーが発生していないかを把握することができます。このセクションでは、Search Console上でクロール関連データを確認する手順と、改善に活かすポイントを解説します。クロール統計レポートの見方と指標解説Search Consoleの「クロールの統計情報」レポートでは、過去90日間のクローラー(Googlebot)の活動状況がグラフと数値で表示されます。具体的には、1日のクロールリクエスト数、ダウンロードされたデータ量、平均応答時間などの指標が確認可能です。このレポートを使うことで、Googleがサイトをクロールする際にサーバー負荷の問題がなかったかどうか(可用性の問題)、クロール数がどのように推移しているか等を把握できます。主な指標の意味は以下の通りです。クロールリクエスト数: 1日にGoogleがあなたのサイトに対して行ったクロール(URL取得)回数です。日ごとの変化を見ることで、クロール頻度が増えているのか減っているのか傾向を掴めます。大幅な変動があれば何らかのサイト変更やクロール制限の影響を疑いましょう。ダウンロードされたデータ量: Googlebotが取得したページの合計データ量です。平均的なページサイズや、異常に重いページがないかを確認できます。もしデータ量が急増している場合、大きな画像や動画の追加などが原因でクロール効率が下がっている可能性があります。平均レスポンス時間: Googlebotがページを取得した際のサーバー応答の平均時間です。この数値が高い(遅い)と、クロール能力の上限が下げられる原因になります。サーバーの応答速度改善や原因追及が必要です。また、「ホストの可用性」グラフでは、サーバーエラーなどによりGooglebotの要求が拒否された(到達できなかった)ケースが赤いラインで示されます。赤いピークがある場合、その日時にサーバーダウンやホスト負荷超過が起きていたことを意味します。こうしたエラーはクロール頻度の低下につながるため、繰り返さないようサーバー増強や設定見直しが必要です。各ページの最終クロール日を確認する手順サイト内の特定のページが最後にいつクロールされたかを知りたい場合は、Search Consoleの「URL検査ツール」を使います。URL検査ツールに対象のページURLを入力すると、インデックス登録の有無やページのステータスとともに「前回のクロール日」が表示されます。これによって、あるページが長期間クロールされていない(=インデックスが古い状態に放置されている)ことを発見できます。例えば、重要な更新を加えたページの最終クロール日が数週間以上前だった場合、内部リンクを追加したりサイトマップ経由での通知を行ったりして、Googleに再度発見・巡回してもらうよう促すべきです。URL検査ツールでは前回クロール日時だけでなく、クロール時のステータス(成功/失敗)や発見された正規URLなども確認できます。もしクロールエラーが表示されている場合は、そのエラー内容に応じて対応しましょう。なお、大量のURLについて一括で最終クロール日を分析したい場合は、Search ConsoleのURL Inspection APIを利用する方法もあります。上級者向けですが、サイト全体でどのページがクロールされていないかを洗い出すのに有用です。クロールエラーの具体的な対処方法Search Console上で検出されるクロールエラーには様々な種類があります。典型的なものとその対処法をまとめます。404エラー(見つかりません): 該当URLが存在しない場合に発生します。基本的には放置で問題ありませんが、重要ページへの内部リンクが間違っていて404になっているケースもあるため、リンク元を特定して修正しましょう。また、過去に存在したページで外部からのリンクが多い場合は、関連する有効ページへ301リダイレクトすることも検討します。サーバーエラー(5xx系): サーバーが一時的にダウンしたり処理落ちした際に発生します。頻発する場合はサーバーの容量・性能を見直す必要があります。一度きりの一時的なエラーであれば大きな問題にはなりませんが、サーバーエラーが多いとGoogle側でサイトの可用性に問題ありと判断され、クロール頻度を下げる可能性があります。ログを確認し、原因を特定・解消してください。アクセス拒否(403など): クローラーが特定のページへのアクセスを禁止されている場合です。意図的にrobots.txtやログイン必須などでブロックしているのであれば問題ありませんが、もし不要なページでなければブロック設定を見直します。URL パラメータの問題: 無限にURLが生成されるようなパラメータ付きURLでクロールエラーや重複が多数報告されるケースです。不要なパラメータはクロールさせない(もしくは正規URLに統一する)対応を取りましょう。Search Consoleの「インデックス > カバレッジ」レポートでは、クロール済みだけれどインデックス未登録のURL一覧も確認できます。「検出 - インデックス未登録」や「クロール済み - インデックス未登録」として列挙されるURLは、何らかの理由でインデックスから除外されています。重複やnoindex指定、品質の低さなど原因は様々ですが、望まない形でインデックスされていない重要ページがないかチェックし、必要に応じて改善(コンテンツ強化やnoindex解除)しましょう。クロール最適化におけるGoogle推奨対策の優先度Googleは公式ガイドラインで、クロールバジェットを有効活用するための基本的かつ効果的な対策を提示しています。これまで述べた内容と重複しますが、特にSEO効果が高く優先して取り組むべき項目を整理すると以下の表のようになります。対策項目優先度説明重複URLの統合高重複コンテンツは統合し、canonical指定で評価を集中させる。無駄なクロールを減らし重要ページに集中させる基本施策。robots.txtの整備高クロール対象の制御の基礎。不要ページを除外しクロールバジェットを節約する。XMLサイトマップ活用高重要ページを一覧で通知しクロール誘導。更新頻度や最終更新日も伝えることで効率アップ。404/410の適切使用中削除済みURLに適切なエラー応答を返し、不要な再クロールを回避。クロールキューの無駄を減らす。ページ速度最適化中クロール処理能力の向上に寄与。ユーザビリティ向上も図れる。※サイト規模による優先度変動。リダイレクト簡潔化中長いリダイレクトチェーンを解消し、クローラーの時間浪費を防止。ユーザー遷移もスムーズに。※優先度は一般的な大規模サイトを想定した場合です。サイトの状況によって異なる場合があります。上記のように、まずは重複ページの整理や不要ページの除外といった「クロールさせる対象を適切に絞る」対策が最重要となります。その上で、サイトマップの活用による「クロールしてほしいページへの誘導」、さらに技術的施策であるエラーページの処理や速度改善、リダイレクト整理といった順に取り組むと良いでしょう。Googleも「クロールバジェットを増やす唯一の方法は、クロール処理能力の向上と、何よりユーザーにとってサイトコンテンツの価値を高めること」と述べています。結局のところ、価値あるコンテンツを持ち技術的にも健全なサイトにすることが、結果的にクロール頻度を高める最善策と言えるでしょう。まとめクロールバジェットは特に大規模サイトにとって、SEO成果を左右し得る重要な概念です。Googleのクローラーがサイト内を効率よく巡回できるように整備することは、インデックス状況の改善ひいては検索順位の向上にもつながります。逆にクロールバジェットが無駄な部分に消費されていると、新しいコンテンツがいつまで経っても検索結果に反映されない、といった機会損失が発生します。本記事で紹介した対策(不要ページの除外、サイトマップ活用、エラー適正化、重複解消、速度改善、リダイレクト整理など)は、いずれもGoogle公式が推奨するクロール最適化のベストプラクティスです。ぜひ自社サイトの現状をSearch Consoleで分析し、無駄を削ぎ落として「重要なページほど早く確実にクロールされる」環境を整えてみてください。継続的なクロール最適化の取り組みにより、サイト全体のSEOパフォーマンスが着実に向上していくはずです。