规范化和重复内容
已发表: 2023-05-13大多数人都有多个版本的 URL,这些 URL 指向不同但相似的网站版本。 这有几个原因。 首先,网站所有者可能会拆分测试不同的元素或跟踪来自其他地方(如社交媒体网站)的流量。
由此产生了几个问题。 首先,哪些网站版本被编入索引并成为谷歌在其结果页面上显示供搜索者查看的版本? 在确定哪个版本是在 SERP 上排名的主要版本或“规范”版本时,谷歌会看什么? 网站所有者会因为拥有这些重复的内容页面而受到惩罚吗?
这个过程叫做规范化、规范化或标准化,今天我们就为大家解答这些问题,给大家一个更准确的规范化概念。 我们将深入探讨基础知识、Google 关注的信号,并查看使用多个站点版本和重复内容的示例场景。 这只是基本信息,因此如果您需要更多信息或规范化问题方面的帮助,请咨询白标 SEO 服务。
让我们跳进去吧!
规范标签
规范标签是您可以输入到页面代码或 HTTP 标头的“<head>”部分的代码。 这会通知搜索引擎,您的 URL 版本是您要对其进行排名的版本 - 谷歌向搜索者显示的版本。 当搜索引擎抓取网站并遇到重复或相似的内容(包括这些标签)时,它会澄清一个 URL 版本是您希望编入索引的版本。
这是它的样子:
<link rel=”canonical” https://www.yourwebsitehere.com />
(确保代码正确输入和关闭。)
然而,值得注意的是,这只是谷歌检查的其他信号之一。 谷歌会考虑几个因素,甚至可能会忽略规范标签以支持不同的信号。
规范化信号
那么 Google 如何确定哪个 URL 是“规范”版本呢?
Google 的 John Mueller 解释说,在选择规范 URL 时有两个一般准则:
- 网站偏好——网站告诉谷歌它希望规范 URL 是什么
- 用户偏好——Google 确定的 URL 对搜索者更有利
Google 会查看有关网站偏好的内容:
- 规范标签(链接 rel 规范)
- 站点地图文件中的 URL
- 内部链接
- 重定向
- HTTPS 网址
- 看起来更好/更干净的 URL
Mueller 说他们考虑了所有这些元素,并根据哪个 URL 最好地结合了这些元素来选择规范的元素。 他还建议网站所有者,如果他们更喜欢向搜索者显示哪些 URL,他们必须在他们的网站上一致地应用这些偏好。 同样,如果您在这方面的资源有限,白标本地 SEO 会很有帮助。
规范化过程中的其他因素包括重复、外部链接和 Hreflang。
谷歌会考虑几个因素,甚至可能会忽略规范标签以支持不同的信号。 点击鸣叫重复内容
重复或非常相似的内容可能出于各种原因(有意或无意)而存在,并且可能在排名时导致许多问题。 规范化可以缓解这些问题。 虽然重复内容本身不会给你带来惩罚,但这并不意味着它完全没有后果。
主要是,重复的内容可能会延迟正确的网站页面显示在结果页面上。 例如,如果您有两个相似的页面针对确切的关键字进行排名,它们可能会竞争,否则 Google 将花费时间来确定将哪一个放在 SERP 上。 即使谷歌找到它,它也可能不会显示你喜欢的版本或你付出更多努力的版本。 谷歌在识别哪些页面提供最佳用户体验方面做得越来越好。 尽管如此,有价值的内容有时会像一堆牙签中的一根针一样被过多的重复所掩盖——形式相似但本质不同。 您可以通过规范化实践来简化此过程。
Google 的重复规范化规则
在 URL 方面,Google 通常会选择更简洁、更短的 URL 版本,而不是更长且包含参数的 URL 版本。 此外,与站点的 HTTP 版本相比,Google 通常更喜欢 HTTPS。
当 Google 在页面上遇到重复内容时,它会选择规范版本进行索引。 这将是它确定为最佳的版本。 它识别为重复的所有页面将形成一个页面集群。 信号被发送到该集群内的页面,并充当指向所选规范的整合器。 请注意,Google 确定的规范仍会随着时间的推移而变化,具体取决于 Google 排名和索引因素。
以下是一些被认为是页面上的重复内容甚至规范化问题的案例示例:
- 带有“www”的 URL。 与那些没有
- 有带或不带大写字母的 URL – 建议尽可能使用小写字母。
- 网址末尾有和没有尾部斜杠“/”的 URL
- 包含抓取或联合内容的页面的 URL——抓取是非法的,但如果您链接到原始所有者,则允许内容联合。 如果 Google 选择您的 URL 作为原始站点的规范版本,联合会成为一个问题。 这是更高程度的内容盗窃,如果发生这种情况,必须加以解决。
- 带有和不带有“index.html”的 URL。
- 包含相同内容的 URL 位置变体
- 移动设备的 URL
- 从社交媒体网站重定向的 URL 版本
- URL 参数,无论是否改变页面内容,都添加在 URL 的末尾,例如分面导航、跟踪代码、会话 ID、排序内容等。
- 任何显示与另一个页面相同的完整内容的页面都会让 Google 感到困惑,并导致选择错误的规范,包括博客的主页、类别页面、标签页面、分页页面或提要页面。
请记住,在网站偏好方面,一致性至关重要。 尽可能统一地构建您的 URL,以尽量减少重复内容和规范化问题。
Hreflang
虽然 Hreflang 可以解决某些网站上的重复问题,但它不适用于国际网站。 默认情况下,Google 会选择正确的网站版本并尝试切换到本地版本。 但是,它并不总是有效,因为本地版本不是主要站点,可能会导致问题。 如果是这样,那么用户最终会看到为不同国家/地区的用户提供的网站页面。 因为谷歌的系统没有设置正确地解决这个问题,所以鼓励网站所有者发布多语言页面,例如,内容至少略有不同(即使内容是简单的翻译)。
对于 JavaScript 网站,通常是那些构建在应用程序外壳模型上的网站,首先出现在页面上的代码可以与其他页面甚至不同网站上的代码阅读起来非常相似。 因此,页面有时会被规范化为其他页面集群(即其他网站)的一部分或同一域级别的其他页面。
请记住,Google 使用算法并且很可能会自动循环运行重复检测。 这可能是问题的一部分。 如果 Google 在看到代码时将页面标记为重复但没有完全抓取它们,则可能无法正确交换它们,因为它看起来像是基于 HTML 内容的另一个页面。 这意味着呈现页面会出现延迟,因为它已被标记为重复。 作为您的白标专家,我们可以提供白标数字广告和 SEO 服务方面的帮助。