クロールバジェットとは何か、最適化する方法

公開: 2022-11-25

クロールバジェットとは何か、URL と Googlebot を使用してクロールバジェットを最適化する方法

検索エンジンボットのしくみを初めて知ったとき、クロールバジェットはなじみのない概念のように思えるかもしれません。最も簡単な SEO の概念ではありませんが、見た目ほど複雑ではありません。クロールバジェットとは何か、検索エンジンのクロールがどのように機能するかを理解し始めたら、クロール可能性を最適化するために Web サイトの最適化を開始できます。このプロセスは、サイトが Google の検索結果でランキングされる可能性を最大限に高めるのに役立ちます。

クロールバジェットとは

クロールバジェットを示すインデックス作成 todo リストを持つ googlebot

クロールバジェットとは、検索エンジンボットが 1 回のインデックス作成セッション内でインデックス化できる 1 つの Web サイトの URL の数です。クロールセッションの「予算」は、個々のサイトのサイズ、トラフィックメトリック、およびページの読み込み速度に基づいて、Web サイトごとに異なります。

ここまで読んで SEO 用語に慣れていない場合は、 SEO 用語集を使用して定義に慣れてください。

Web サイトのクロールバジェットに影響を与える要因は何ですか?

googlebot を使用したクロール予算の説明 Google は、インターネット上のすべての Web サイトに対して同じ時間や回数のクロールを行っているわけではありません。また、Web クローラーは、いくつかの要因に基づいて、クロールするページとその頻度を決定します。以下に基づいて、各サイトをクロールする頻度と期間を決定します。

人気:サイトやページへのアクセスが多いほど、更新のために分析する頻度が高くなります。 さらに、より人気のあるページは、より多くのインバウンドリンクをより迅速に獲得します。
サイズ:データ量の多い要素を含む大規模な Web サイトやページは、クロールに時間がかかります。
健全性/問題: Web クローラーが内部リンクを通じて行き止まりに達すると、新しい開始点を見つけるのに時間がかかるか、クロールを中止します。 404 エラー、リダイレクト、および読み込み時間の遅さは、Web クローラーの速度を低下させ、妨害します。

クロールバジェットは SEO にどのように影響しますか?

Webcrawlerのインデックス作成プロセスにより、検索が可能になります。コンテンツが見つからず、Google の Web クローラーによってインデックスに登録されない場合、Web ページと Web サイトは検索者に発見されません。これにより、サイトは多くの検索トラフィックを逃すことになります。

Google が Web サイトをクロールする理由

Googlebot は、ウェブサイトのページを体系的に調べて、そのページとウェブサイト全体の内容を判断します。ウェブクローラーは、コンテンツとともに URL のキャッシュを作成するために、そのウェブサイトのデータをページごとに処理、分類、整理します。これにより、Google は検索クエリに応じてどの検索結果を表示するかを決定できます。

さらに、Google はこの情報を使用して、検索クエリに最も適した検索結果を決定し、各検索結果を階層検索結果リストのどこに表示するかを決定します。

クロール中に何が起こるか?

インデックス作成チェックリストを使用した goobot

Google は、Googlebot がウェブサイトを処理するために一定の時間を割り当てます。この制限により、ボットは 1 回のクロールセッションでサイト全体をクロールしない可能性があります。代わりに、robots.txt ファイルやその他の要因 (ページの人気度など) に基づいて、サイトのすべてのページを処理します。

クロールセッション中、Googlebot は体系的なアプローチを使用して、処理する各ページのコンテンツを理解します。

これには、次のような特定の属性のインデックス作成が含まれます。

メタタグとNLP を使用してその意味を判断する
リンクとアンカーテキスト
画像検索および動画検索用のリッチメディアファイル
スキーママークアップ
HTML マークアップ

Web クローラーは、ページ上のコンテンツが正規のコンテンツと重複しているかどうかを判断するためのチェックも実行します。その場合、Google はその URL を優先度の低いクロールに移動します。これにより、ページを頻繁にクロールして時間を無駄にすることがなくなります。

クロールレートとクロールデマンドとは何ですか?

Google の Web クローラーは、実行するすべてのクロールに一定の時間を割り当てます。 Web サイトの所有者として、この時間を制御することはできません。ただし、サイト上での個々のページのクロール速度は変更できます。この数値はクロールレートと呼ばれます。

クロール需要は、Google がサイトをクロールする頻度です。この頻度は、インターネットユーザーによるサイトの需要と、検索でサイトのコンテンツを更新する必要がある頻度に基づいています。ログファイル分析を使用して、Google がサイトをクロールする頻度を確認できます (以下の #2 を参照)。

サイトのクロールバジェットを決定するにはどうすればよいですか?

クロールバジェットの計算

Google はサイトをクロールする回数と期間を制限しているため、クロールバジェットを把握しておく必要があります。ただし、Google はサイト所有者にこのデータを提供しません。予算が非常に限られているため、新しいコンテンツがタイムリーに SERP に表示されない場合は特にそうです。これは、重要なコンテンツや、収益を上げられる製品ページなどの新しいページにとって悲惨な結果になる可能性があります。

サイトがクロールバジェットの制限に直面しているかどうかを理解する (またはサイトが A-OK であることを確認する) には、次のことを行う必要があります。サイトにある URL の数のインベントリを取得します。 Yoast を使用している場合、合計はサイトマップ URLの上部に表示されます。

この数を取得したら、 Google Search Consoleの [設定] > [クロール統計] セクションを使用して、 Google がサイトで 1 日に何ページをクロールするかを決定します。

サイトマップのページ数を 1 日にクロールされる平均ページ数で割ります。

結果が 10 未満の場合、クロールバジェットは問題ないはずです。ただし、数が 10 未満の場合は、クロールバジェットを最適化することでメリットが得られます。

クロールバジェットを最適化するにはどうすればよいですか?

サイトがクロールバジェットに対して大きくなりすぎた場合、クロールバジェットの最適化に飛び込む必要があります。サイトをより頻繁に、またはより長時間クロールするように Google に指示することはできないため、制御できることに集中する必要があります。

クロールバジェットの最適化には、多面的なアプローチとGoogle のベストプラクティスの理解が必要です。クロールレートを最大限に活用するには、どこから始めればよいでしょうか。この包括的なリストは階層順に書かれているので、一番上から始めてください。

1. サイトのクロールレート制限を引き上げることを検討する

Google はサイトの複数のページに同時にリクエストを送信します。ただし、Google は礼儀正しく、サーバーを停止させないように努めているため、サイト訪問者の読み込み時間が遅くなります。サイトがどこからともなく遅れていることに気付いた場合は、これが問題である可能性があります。

ユーザーエクスペリエンスへの影響に対処するために、Google ではクロールレートを下げることを許可しています。これにより、Google が同時にインデックスに登録できるページ数が制限されます。

興味深いことに、Google ではクロールレートの上限を上げることもできます。つまり、一度により多くのページをプルできるため、一度にクロールされる URL が増えます。ただし、すべてのレポートは、クロールレート制限の引き上げに対する Google の対応が遅いことを示唆しており、Google がより多くのサイトを同時にクロールすることを保証するものではありません。

クロールレート制限を引き上げる方法:

Search Console で [設定] に移動します。
そこから、クロールレートが最適かどうかを確認できます。
その後、制限を 90 日間、より高速なクロールレートに引き上げることができます。

2. ログファイル分析の実行

ログファイル分析は、サーバーに送信されたすべての要求を反映するサーバーからのレポートです。このレポートでは、Googlebot がサイトで何を行っているかを正確に知ることができます。多くの場合、このプロセスはテクニカル SEO によって実行されますが、サーバー管理者に相談して取得することができます。

ログファイル分析またはサーバーログファイルを使用すると、次のことがわかります。

Google がサイトをクロールする頻度
最もクロールされるページ
サーバーコードが応答しない、または欠落しているページ

この情報を取得したら、それを使用して #3 から #7 を実行できます。

3. XML サイトマップと Robots.txt を最新の状態に保つ

Google が SERP に表示したくないページのクロールに多くの時間を費やしていることがログファイルに示されている場合は、Google のクローラーにこれらのページをスキップするようリクエストできます。これにより、より重要なページのためにクロールバジェットの一部が解放されます。

サイトマップ(Google Search Console またはSearchAtlasから取得できます) は、検索結果に表示されるように、Google にインデックスしてもらいたいサイト上のすべてのページのリストを Googlebot に提供します。検索エンジンに見つけてもらいたいすべての Web ページでサイトマップを最新の状態に保ち、検索エンジンに見つけてほしくないページを除外することで、Web クローラーがサイトで費やす時間を最大限に増やすことができます。

xml サイトマップの例

robots.txt ファイルは、クロールするページとクロールしないページを検索エンジンのクローラーに伝えます。適切なランディングページにならないページやゲートされたページがある場合は、robots.txt ファイル内の URL にnoindex タグを使用する必要があります。 Googlebot は、noindex タグを含むウェブページをスキップする可能性があります。

4. リダイレクトとリダイレクトチェーンを減らす

ステータス 301 レポート

検索エンジンのクロールから不要なページを除外してクロールバジェットを解放することに加えて、リダイレクトを削減または排除することでクロールを最大化することもできます。これらは、3xx ステータスコードになる任意の URL です。

サーバーはリダイレクトに応答してから新しいページを取得する必要があるため、リダイレクトされた URL を Googlebot が取得するのに時間がかかります。 1 回のリダイレクトにかかる時間はわずか数ミリ秒ですが、合計すると数ミリ秒かかります。また、これにより、サイトのクロールに全体的に時間がかかる可能性があります. Googlebot が一連の URL リダイレクトに遭遇すると、この時間は倍増します。

リダイレクトとリダイレクトチェーンを減らすには、コンテンツ作成戦略に注意し、スラッグのテキストを慎重に選択してください。

5.壊れたリンクを修正する

Google がよくサイトを探索する方法は、内部リンク構造を介して移動することです。ページを処理する際に、リンクが存在しないページにつながるかどうかを通知します (これは、多くの場合、ソフト 404 エラーと呼ばれます)。次に、そのページのインデックス作成に時間を無駄にしたくないので、先に進みます。

ユーザーまたは Googlebot を実際のページに移動するには、これらのページへのリンクを更新する必要があります。または (信じがたいことですが)、ページが実際に存在するにもかかわらず、Googlebot がそのページを 4xx または 404 エラーと誤認した可能性があります。このような場合は、URL にタイプミスがないことを確認してから、Google Search Console アカウントからその URL のクロールリクエストを送信してください。

これらのクロールエラーを最新の状態に保つには、Google Search Console アカウントの [インデックス] > [カバレッジレポート] を使用できます。または、 SearchAtlasのサイト監査ツールを使用してサイトエラーレポートを見つけ、Web 開発者に渡します。

注:新しい URL はすぐにログファイル分析に表示されない場合があります。 クロールをリクエストする前に、Google がそれらを見つけるまでしばらく待ちます。

6. ページ読み込み速度の改善に取り組む

ページの読み込み速度

検索エンジンボットは、サイト内を高速で移動できます。ただし、サイトの速度が標準に達していない場合、クロールの予算に大きな負担がかかる可能性があります. ログファイル分析、 SearchAtlas 、または PageSpeedInsights を使用して、サイトの読み込み時間が検索の可視性に悪影響を及ぼしているかどうかを判断します。

サイトの応答時間を改善するには、動的 URL を使用し、 Google の Core Web Vitals のベストプラクティスに従ってください。これには、フォールド上のメディアの画像最適化が含まれる場合があります。

サイトの速度の問題がサーバー側にある場合は、次のような他のサーバーリソースに投資することをお勧めします。

専用サーバー (特に大規模サイトの場合)
新しいサーバーハードウェアへのアップグレード
RAM の増加

サイトの速度は PageRank のシグナルであるため、これらの改善によりユーザーエクスペリエンスが向上し、Google 検索でのサイトのパフォーマンスが向上します。

7. Canonical タグの使用を忘れないでください

重複したコンテンツは、少なくとも重複したコンテンツにソースページがあることを認めていない場合は、Google に嫌われます。なんで？ Googlebot は、特に指示がない限り、やむを得ない場合を除き、すべてのページをクロールします。ただし、重複したページや使い慣れたもののコピー (ページ上またはオフサイト) に遭遇すると、そのページのクロールを停止します。これにより時間が節約されますが、正規 URL を識別する正規タグを使用することで、クローラーの時間をさらに節約する必要があります。

標準的な例

Canonicalsは、クロール期間を使用してそのコンテンツをインデックスに登録しないように Googlebot に指示します。これにより、検索エンジンボットが他のページを調べる時間が増えます。

8. 内部リンク構造に注目する

サイト内で適切に構造化されたリンクを実践することで、Google クロールの効率を高めることができます。内部リンクは、サイトのどのページが最も重要であるかを Google に伝え、これらのリンクはクローラーがページを見つけやすくするのに役立ちます。

最適なリンク構造は、ユーザーと Googlebot をウェブサイト全体のコンテンツに結び付けます。常に関連するアンカーテキストを使用し、コンテンツ全体に自然なリンクを配置してください。

e コマースサイトの場合、Googleには、クロールを最大化するためのファセットナビゲーションオプションのベストプラクティスがあります。ファセットナビゲーションにより、サイトユーザーは属性で商品をフィルタリングできるため、ショッピングがより快適になります。この更新により、過剰な URL クロールに加えて、正規の混乱や重複の問題を回避できます。

9. 不要なコンテンツを削除する

Googlebot は、サイトをクロールするたびに非常に高速に移動し、非常に多くのページをインデックスに登録できます。トラフィックを受け取らないページや、古いコンテンツや低品質のコンテンツを含むページが多数ある場合は、それらをカットしてください。剪定プロセスにより、サイトの重荷になる可能性のある余分な荷物を切り取ることができます。

サイトに過剰なページがあると、Googlebot が重要でないページに誘導され、ページが無視される可能性があります。

クロールエラーが発生しないように、すべてのリンクをこれらのページにリダイレクトすることを忘れないでください。

10. バックリンクを増やす

Googlebot がサイトに到着すると、内部リンクに基づいてページのインデックス作成を開始するのと同じように、インデックス作成プロセスで外部リンクも使用します。他のサイトがあなたのサイトにリンクしている場合、Googlebot はリンク元のコンテンツをよりよく理解するために、あなたのサイトに移動してページをインデックスに登録します。

さらに、被リンクはサイトの人気と最新性を高めます。Google はこれを使用して、サイトをインデックスに登録する必要がある頻度を決定します。

11.孤立したページを排除する

孤立したページのレポート

Google のクローラーは内部リンクを介してページ間を移動するため、リンク先のページを簡単に見つけることができます。ただし、サイトのどこかにリンクされていないページは、Google に気付かれないことがよくあります。これらは「孤立したページ」と呼ばれます。

孤立したページが適切な場合は? 非常に具体的な目的またはオーディエンスを持つランディングページの場合。たとえば、マイアミに住むゴルファーにのみ適用されるランディングページを含む電子メールを送信する場合、別のページからのリンクを希望しない場合があります。

クロールバジェットの最適化に最適なツール

クロールバジェットの最適化に関しては、Search Console と Google アナリティクスが非常に役立ちます。 Search Console では、クローラーにページのインデックス登録とクロール統計の追跡をリクエストできます。 Google アナリティクスは、内部リンクの旅を追跡するのに役立ちます。

SearchAtlas などの他の SEO ツールを使用すると、Site Audit ツールを使用してクロールの問題を簡単に見つけることができます。 1 つのレポートで、サイトの次の情報を確認できます。

インデクサビリティクロールレポート
索引の深さ
ページ速度
重複コンテンツ
XML サイトマップ
リンク

クロールバジェットを最適化し、検索エンジンのトップパフォーマーになる

検索エンジンがサイトをインデックスする頻度や期間を制御することはできませんが、サイトを最適化して、検索エンジンの各クロールを最大限に活用することはできます。サーバーログから始めて、Search Console のクロールレポートを詳しく見てみましょう。次に、クロールエラー、リンク構造、ページ速度の問題を修正します。

GSC のクロールアクティビティを進めている間は、リンクの構築や質の高いコンテンツの追加など、残りの SEO 戦略に集中してください。時間が経つにつれて、ランディングページが検索エンジンの結果ページを上っていくのがわかります。

クロール バジェットとは何か、最適化する方法

クロール バジェットとは

Web サイトのクロール バジェットに影響を与える要因は何ですか?

クロール バジェットは SEO にどのように影響しますか?