什么是抓取预算以及如何针对它进行优化

已发表: 2022-11-25

什么是抓取预算以及如何使用 url 和 googlebot 对其进行优化

当您第一次了解搜索引擎机器人的工作原理时,抓取预算似乎是一个陌生的概念。 虽然不是最简单的 SEO 概念,但它们并没有看起来那么复杂。 一旦您开始了解什么是抓取预算以及搜索引擎抓取的工作原理,您就可以开始优化您的网站以优化可抓取性。 此过程将帮助您的网站在 Google 搜索结果中发挥最大的排名潜力。

什么是抓取预算?

带有显示抓取预算的索引待办事项列表的 googlebot

抓取预算是搜索引擎机器人在一次索引会话中可以索引的来自一个网站的 URL 数量。 爬行会话的“预算”因网站而异,具体取决于每个网站的大小、流量指标和页面加载速度。

如果您已经走到这一步并且对 SEO 术语不熟悉,请使用我们的SEO 词汇表来更加熟悉这些定义

哪些因素会影响网站的抓取预算?

使用 googlebot 抓取预算说明 Google 不会对互联网上的每个网站投入相同的时间或抓取次数。 网络爬虫还根据多种因素确定他们爬取哪些页面以及频率。 他们根据以下因素确定每个站点应该被抓取的频率和时间:

  • 受欢迎程度:访问站点或页面的次数越多,分析更新的频率就越高。 此外,更受欢迎的页面将更快地积累更多的入站链接。
  • 大小:具有更多数据密集型元素的大型网站和页面需要更长的时间来抓取。
  • 健康/问题:当网络爬虫通过内部链接到达死胡同时,它需要时间才能找到新的起点——或者它会放弃爬行。 404 错误、重定向和缓慢的加载时间会减慢并阻碍网络爬虫。

您的抓取预算如何影响 SEO?

网络爬虫索引过程使搜索成为可能。 如果您的内容无法被 Google 的网络爬虫编入索引,您的网页和网站将不会被搜索者发现。 这会导致您的网站错失大量搜索流量。

为什么谷歌抓取网站?

Googlebots 系统地浏览网站页面以确定页面和整个网站的内容。 网络爬虫逐页处理、分类和组织来自该网站的数据,以便创建 URL 及其内容的缓存,以便 Google 可以确定应显示哪些搜索结果以响应搜索查询。

此外,Google 使用此信息来确定哪些搜索结果最适合搜索查询,以确定每个搜索结果应出现在分层搜索结果列表中的什么位置。

爬行过程中会发生什么?

带有索引清单的 googebot

Google 会为 Googlebot 分配一定的时间来处理网站。 由于此限制,机器人可能不会在一次抓取会话期间抓取整个站点。 相反,它将根据 robots.txt 文件和其他因素(例如页面的受欢迎程度)遍历网站的所有页面。

在抓取会话期间,Googlebot 将使用系统的方法来理解它处理的每个页面的内容。

这包括索引特定属性,例如:

  1. 元标记并使用 NLP 确定其含义
  2. 链接和锚文本
  3. 用于图像搜索和视频搜索的富媒体文件
  4. 架构标记
  5. HTML 标记

网络爬虫还将运行检查以确定页面上的内容是否与规范内容重复。 如果是这样,Google 会将 URL 降低到低优先级抓取,这样它就不会浪费时间抓取该页面。

什么是抓取率和抓取需求?

Google 的网络抓取工具会为其执行的每次抓取分配一定的时间。 作为网站所有者,您无法控制这段时间。 但是,当他们在您的网站上时,您可以更改他们抓取您网站上各个页面的速度。 这个数字称为您的抓取率

抓取需求是指 Google 抓取您网站的频率。 此频率基于互联网用户对您网站的需求以及您网站内容需要在搜索中更新的频率。 您可以使用日志文件分析了解 Google 抓取您网站的频率(请参阅下面的 #2)。

如何确定我网站的抓取预算?

计算你的抓取预算

由于 Google 限制了他们抓取您网站的次数和抓取时间,因此您需要了解自己的抓取预算。 然而,谷歌不会向网站所有者提供这些数据——尤其是当你的预算非常有限以至于新内容无法及时出现在 SERP 上时。 这对于重要内容和新页面(例如可以赚钱的产品页面)来说可能是灾难性的。

要了解您的网站是否面临抓取预算限制(或确认您的网站是 A-OK),您需要: 获取您网站上有多少 URL 的清单。 如果您使用 Yoast,您的总数将列在站点地图 URL的顶部

  • 获得此数字后,使用Google Search Console的“设置”>“抓取统计信息”部分来确定 Google 每天在您的网站上抓取的页面数量。
  • 将站点地图上的页面数除以每天抓取的平均页面数。
  • 如果结果低于 10,则您的抓取预算应该没问题。 但是,如果您的数量低于 10,则可以通过优化抓取预算来获益。
  • 您如何优化您的抓取预算?

    当您的网站变得太大而无法满足其抓取预算时,您将需要深入研究抓取预算优化。 因为您不能告诉 Google 更频繁地或更长时间地抓取您的网站,所以您必须专注于您可以控制的内容。

    抓取预算优化需要多方面的方法和对Google 最佳实践的理解 在充分利用抓取速度方面,您应该从哪里开始? 这份综合列表是按层次顺序编写的,因此请从顶部开始。

    1.考虑增加您网站的抓取速度限制

    Google 同时向您网站上的多个页面发送请求。 但是,Google 尽量保持礼貌,不会让您的服务器陷入困境,从而导致您的网站访问者的加载时间变慢。 如果您发现您的网站无缘无故地滞后,这可能就是问题所在。

    为了防止影响用户体验,Google 允许您降低抓取速度。 这样做会限制 Google 可以同时索引的页面数量。

    不过,有趣的是,Google 还允许您提高抓取速度限制——效果是他们可以一次拉取更多页面,从而导致一次抓取更多 URL。 虽然,所有报告都表明谷歌对抓取速度限制增加的反应很慢,并且不能保证谷歌会同时抓取更多网站。

    如何提高抓取速度限制:

    1. 在 Search Console 中,转到“设置”。
    2. 从那里,您可以查看您的抓取速度是否最佳。
    3. 然后,您可以将限制提高到 90 天内更快的抓取速度。

    2.执行日志文件分析

    日志文件分析是来自服务器的报告,反映了发送到服务器的每个请求。 该报告将准确告诉您 Googlebots 在您的网站上做了什么。 虽然此过程通常由技术 SEO 执行,但您可以与您的服务器管理员联系以获得一个。

    使用您的日志文件分析或服务器日志文件,您将了解到:

    • Google 抓取您网站的频率
    • 哪些页面被抓取最多
    • 哪些页面有无响应或缺少服务器代码

    获得此信息后,您可以使用它来执行#3 到#7。

    3. 更新您的 XML 站点地图和 Robots.txt

    如果您的日志文件显示 Google 花费过多时间抓取您不希望出现在 SERP 中的页面,您可以请求 Google 的抓取工具跳过这些页面。 这可以释放您的一些抓取预算,用于更重要的页面。

    您的站点地图(您可以从 Google Search Console 或SearchAtlas 获得)为 Googlebots 提供了您网站上所有您希望 Google 编制索引以便它们可以显示在搜索结果中的页面的列表。 使用您希望搜索引擎找到的所有网页更新您的站点地图,并忽略您不希望他们找到的网页,可以最大限度地利用网络爬虫在您网站上花费的时间。

    示例 xml 站点地图

    您的 robots.txt 文件告诉搜索引擎抓取工具您想要和不希望他们抓取哪些页面。 如果您的网页无法成为良好的着陆页或被门控的网页,您应该在 robots.txt 文件中为它们的 URL使用noindex 标记Googlebots 可能会跳过任何带有 noindex 标签的网页。

    4.减少重定向和重定向链

    状态 301 报告

    除了通过从搜索引擎抓取中排除不必要的页面来释放抓取预算外,您还可以通过减少或消除重定向来最大化抓取。 这些将是导致 3xx 状态代码的任何 URL。

    Googlebot 检索重定向的 URL 需要更长的时间,因为服务器必须响应重定向,然后检索新页面。 虽然一个重定向只需要几毫秒,但它们可以加起来。 这会使抓取您的网站总体上花费更长的时间。 当 Googlebot 遇到一系列 URL 重定向时,这段时间会成倍增加。

    要减少重定向和重定向链,请注意您的内容创建策略并仔细选择 slug 的文本。

    5.修复损坏的链接

    谷歌浏览网站的方式通常是通过您的内部链接结构进行导航。 当它在您的页面中运行时,它会注意到链接是否指向不存在的页面(这通常称为软 404 错误)。 然后它会继续前进,不想浪费时间索引所述页面。

    这些页面的链接需要更新才能将用户或 Googlebot 发送到真实页面。 或者(虽然很难相信)Googlebot 可能在页面实际存在时将页面错误识别为 4xx 或 404 错误。 发生这种情况时,请检查 URL 是否有任何拼写错误,然后通过您的 Google Search Console 帐户提交对该 URL 的抓取请求。

    要及时了解这些抓取错误,您可以使用 Google Search Console 帐户的索引 > 覆盖率报告。 或者使用SearchAtlas的站点审核工具来查找您的站点错误报告以传递给您的网络开发人员。

    注意:新 URL 可能不会立即出现在您的日志文件分析中。 在请求抓取之前给谷歌一些时间来找到它们。

    6.努力提高页面加载速度

    页面加载速度

    搜索引擎机器人可以快速浏览网站。 但是,如果您的网站速度没有达到标准,它确实会对您的抓取预算造成重大损失。 使用您的日志文件分析、 SearchAtlas或 PageSpeedInsights 来确定您网站的加载时间是否对您的搜索可见性产生负面影响。

    要缩短您网站的响应时间,请使用动态 URL 并遵循Google 的 Core Web Vitals 最佳实践 这可以包括首屏媒体的图像优化。

    如果站点速度问题出在服务器端,您可能需要投资其他服务器资源,例如:

    • 专用服务器(尤其适用于大型网站)
    • 升级到更新的服务器硬件
    • 增加内存

    这些改进还将提升您的用户体验,这可以帮助您的网站在 Google 搜索中表现更好,因为网站速度是 PageRank 的一个信号。

    7. 不要忘记使用规范标签

    Google 不赞成重复内容——至少当您不承认重复内容有源页面时。 为什么? 除非不可避免,否则 Googlebot 会抓取每个页面,除非另有指示。 但是,当它遇到重复页面或它熟悉的内容的副本(在您的页面上或站点外)时,它将停止抓取该页面。 虽然这可以节省时间,但您应该通过使用标识规范 URL 的规范标签来为爬虫节省更多时间。

    典型例子

    Canonicals告诉 Googlebot 不要费心使用您的抓取时间段来索引该内容。 这使搜索引擎机器人有更多时间检查您的其他页面。

    8.关注你的内部链接结构

    在您的站点中采用结构良好的链接做法可以提高 Google 抓取的效率。 内部链接告诉 Google 您网站上的哪些页面最重要,这些链接有助于爬虫更轻松地找到页面。

    最好的链接结构将用户和 Googlebot 连接到整个网站的内容。 始终使用相关的锚文本并在您的内容中自然放置 yoru 链接。

    对于电子商务网站,谷歌拥有分面导航选项的最佳实践,以最大限度地提高抓取率。 分面导航允许站点用户按属性过滤产品,从而使购物成为更好的体验。 除了过多的 URL 爬网之外,此更新还有助于避免规范混淆和重复问题。

    9. 删除不必要的内容

    每次抓取网站时,Googlebots 只能如此快速地移动并索引如此多的页面。 如果您有大量页面没有收到流量或内容过时或质量低下,请将其删除! 修剪过程可让您剪掉可能拖累网站的多余包袱。

    在您的网站上拥有过多的页面可能会在忽略页面的同时将 Googlebot 转移到不重要的页面上。

    请记住将任何链接重定向到这些页面,这样您就不会遇到抓取错误。

    10.积累更多反向链接

    正如 Googlebots 到达您的站点然后开始根据内部链接对页面进行索引一样,他们也在索引过程中使用外部链接。 如果其他网站链接到您的网站,Googlebot 将转到您的网站并为页面编制索引,以便更好地理解链接内容。

    此外,反向链接让您的网站更受欢迎和新近度更高,谷歌使用它来确定您的网站需要多久被索引一次。

    11. 消除孤儿页面

    孤立页面报告

    因为 Google 的爬虫通过内部链接从一个页面跳到另一个页面,所以它可以毫不费力地找到链接到的页面。 但是,未链接到您网站上某处的页面通常不会被 Google 注意到。 这些被称为“孤立页面”。

    什么时候它是一个孤儿页面合适? 如果它是具有非常特定目的或受众的着陆页。 例如,如果您向居住在迈阿密的高尔夫球手发送了一封电子邮件,其中包含仅适用于他们的登录页面,您可能不想链接到其他页面。

    抓取预算优化的最佳工具

    在优化抓取预算方面,Search Console 和 Google Analytics 可以派上用场。 Search Console 允许您请求抓取工具来索引页面并跟踪您的抓取统计信息。 Google Analytics 帮助您跟踪您的内部链接之旅。

    其他 SEO 工具,例如 SearchAtlas,可让您通过站点审核工具轻松找到抓取问题。 通过一份报告,您可以查看您网站的:

    • 可索引性抓取报告
    • 索引深度
    • 页面速度
    • 重复内容
    • 网站地图
    • 链接

    优化您的抓取预算并成为搜索引擎最佳执行者

    虽然您无法控制搜索引擎为您的网站编制索引的频率或时间,但您可以优化您的网站以充分利用每次搜索引擎抓取。 从您的服务器日志开始,仔细查看 Search Console 上的抓取报告。 然后深入修复所有抓取错误、链接结构和页面速度问题。

    当您完成 GSC 抓取活动时,请专注于您的 SEO 策略的其余部分,包括链接构建和添加优质内容 随着时间的推移,您会发​​现您的着陆页爬升到搜索引擎结果页。