正規化と重複コンテンツ
公開: 2023-05-13ほとんどの人は、Web サイトの別の類似したバージョンにアクセスする複数のバージョンの URL を持っています。 これにはいくつかの理由があります。 まず、サイト所有者はさまざまな要素を分割テストしたり、ソーシャル メディア サイトなどの他の場所からのトラフィックを追跡したりできます。
ここからいくつかの疑問が生じます。 まず、どの Web サイトのバージョンがインデックスに登録され、Google が検索結果ページに表示して検索者に見せるものになるのでしょうか? Google は、どのバージョンが SERP でランク付けされるメインまたは「正規」バージョンであるかを決定するときに何を調べますか? このような重複したコンテンツ ページがあると、サイト所有者は罰せられるのでしょうか?
このプロセスは正規化、正規化、または標準化と呼ばれます。今日はこれらの質問に答え、正規化のより正確な概念を説明します。 ここでは、基本事項、Google がどのようなシグナルをチェックしているのかを詳しく説明し、複数のサイト バージョンと重複コンテンツが使用されているシナリオの例を見ていきます。 これは重要な情報のみであるため、詳細情報が必要な場合や正規化の問題についてのサポートが必要な場合は、ホワイト ラベル SEO サービスにご相談ください。
飛び込みましょう!
正規タグ
canonical タグは、ページ コードまたは HTTP ヘッダーの「<head>」セクションに入力できるコードです。 これにより、このバージョンの URL がランク付けしたいバージョンであることが検索エンジンに通知され、Google が検索者に表示するバージョンになります。 検索エンジンが Web サイトをクロールし、これらのタグを含む重複または類似のコンテンツを見つけた場合、ある URL バージョンがインデックスに登録されることを希望するものであることが明確になります。
これは次のようになります。
<link rel=”canonical” https://www.yourwebsitehere.com />
(コードが正しく挿入され、閉じられていることを確認してください。)
ただし、これは Google がチェックする他のシグナルの 1 つにすぎないことに注意してください。 Google はいくつかの要素を検討しており、別のシグナルを優先して正規タグが無視される場合もあります。
正規化シグナル
では、Google はどの URL が「正規」バージョンであるかをどのように判断するのでしょうか?
Google の John Mueller 氏は、正規 URL を選択する際には 2 つの一般的なガイドラインがあると説明しています。
- サイト設定 – サイトが Google に正規 URL をどのように指定するかを指定します。
- ユーザーの好み – Google が判断した URL が検索者にとってより有益である
Google がサイトの好みに関して考慮している点は次のとおりです。
- Canonical タグ (リンク rel canonical)
- サイトマップ ファイルに含まれる URL
- 内部リンク
- リダイレクト
- HTTPS URL
- より良く/よりクリーンに見える URL
Mueller 氏は、これらすべての要素を考慮し、どの URL にこれらの要素が最もよく組み込まれているかに基づいて正規のものを選択すると述べています。 また、同氏はサイト所有者に対し、検索ユーザーに表示する URL を希望する場合は、その設定を Web サイト全体に一貫して適用する必要があるとアドバイスしています。 繰り返しになりますが、この分野のリソースが限られている場合には、ホワイト ラベル ローカル SEO が役立ちます。
正規化プロセスのその他の要因には、重複、外部リンク、Hreflang などがあります。
Google はいくつかの要素を検討しており、別のシグナルを優先して正規タグが無視される場合もあります。 クリックしてツイートする重複したコンテンツ
重複したコンテンツや非常に類似したコンテンツは、意図的かどうかにかかわらず、さまざまな理由で存在する可能性があり、ランキングの際に多くの問題を引き起こす可能性があります。 正規化により、これらの問題を軽減できます。 重複コンテンツ自体がペナルティを受けることはありませんが、まったく影響がないわけではありません。
主に、コンテンツが重複していると、適切なサイト ページが結果ページに表示されなくなる可能性があります。 たとえば、正確なキーワードでランク付けされている 2 つの類似したページがある場合、それらが競合する可能性があり、どちらを SERP に掲載するかを Google が決定するのに時間がかかります。 Google が対応したとしても、あなたの好みのバージョンや、より力を入れたバージョンが表示されない可能性があります。 Google は、どのページが最高のユーザー エクスペリエンスを提供するかを特定する能力を高めています。 それでも、貴重なコンテンツは、爪楊枝の束に針が刺さったように、形式は似ていても本質は異なる過剰な重複に埋もれてしまうことがあります。 正規化を実践することで、このプロセスを簡素化できます。
Google の重複正規化ルール
URL に関しては、Google はパラメータを含む長いバージョンよりも、よりクリーンで短い URL バージョンを選択することがよくあります。 また、Google は多くの場合、サイトの HTTP バージョンよりも HTTPS を優先します。
Google は、ページ上で重複コンテンツを検出すると、インデックスを作成する正規バージョンを選択します。 これは、最良であると判断されたバージョンになります。 重複として識別されたすべてのページがページのクラスターを形成します。 シグナルはそのクラスター内のページに送信され、選択された正規を指す統合として機能します。 Google が決定する正規は、Google のランキングやインデックス作成要素に応じて、時間の経過とともに変更される可能性があることに注意してください。
以下に、ページ上の重複コンテンツ、または正規化の問題とみなされるケースの例をいくつか示します。
- 「www」を含む URL 対 そうでない人
- URL には大文字を含むものと含まないものがあります。できるだけ小文字を使用することをお勧めします。
- Web アドレスの末尾にスラッシュ「/」がある場合とない場合の URL
- スクレイピングまたはシンジケートされたコンテンツを含むページの URL – スクレイピングは違法ですが、元の所有者にリンクしている場合、コンテンツのシンジケートは許可されます。 Google が元のサイトではなく正規バージョンとして URL を選択した場合、シンジケーションが問題になります。 これはより高度なコンテンツの盗難であり、これが発生した場合は解決する必要があります。
- 「index.html」を含む URL と含まない URL。
- 同じコンテンツを含む URL の場所のバリエーション
- モバイルデバイス用の URL
- ソーシャル メディア サイトからリダイレクトされる URL バージョン
- ページのコンテンツを変更するかどうかに関係なく、ファセット ナビゲーション、トラッキング コード、セッション ID、コンテンツの並べ替えなどの URL パラメーターが URL の末尾に追加されます。
- ブログのメイン ページ、カテゴリ ページ、タグ ページ、ページ分割されたページ、フィード ページなど、別のページと同じ完全なコンテンツを表示するページは Google を混乱させ、間違った正規版が選択される可能性があります。
サイトの好みに関しては、一貫性が非常に重要であることを覚えておいてください。 重複したコンテンツや正規化の問題を最小限に抑えるために、URL をできるだけ均一に構造化します。
フレフラン
Hreflang は一部のサイトでは重複の問題を解決できますが、海外のサイトでは機能しません。 デフォルトでは、Google は正しい Web サイトのバージョンを選択し、ローカル バージョンに切り替えようとします。 ただし、ローカル バージョンは主要なサイトではないため、常に機能するとは限りません。問題が発生する可能性があります。 そうなった場合、ユーザーには別の国のユーザー向けの Web サイト ページが表示されることになります。 Google のシステムはこれを適切に分類するように設定されていないため、Web サイト所有者は、たとえば、少なくともわずかに異なるコンテンツ (コンテンツが単純な翻訳であっても) を含む多言語ページを公開することが推奨されます。
JavaScript サイト (通常はアプリ シェル モデルに基づいて構築されているサイト) の場合、ページの最初に表示されるコードは、他のページやさまざまな Web サイト上のコードと非常によく似た形で読み取ることができます。 このため、ページが他のページ クラスター (つまり、他の Web サイト) の一部として、または同じドメイン レベルの他のページに正規化されることがあります。
Google はアルゴリズムを使用しており、おそらく自動サイクルで重複検出を実行していることに注意してください。 これは問題の一部である可能性があります。 Google がコードを見たときにページを重複としてタグ付けし、ページを完全にクロールしない場合、HTML コンテンツに基づいて別のページのように見えるため、ページを正しく入れ替えることができない可能性があります。 これは、ページがすでに重複としてタグ付けされているため、ページのレンダリングに遅延が発生することを意味します。 ホワイトラベルの専門家として、私たちはホワイトラベルのデジタル広告と SEO サービスをお手伝いします。