什么是抓取预算以及如何针对 SEO 对其进行优化?

已发表: 2023-06-14

在 FATJOE,我们致力于为网页创建高质量的内容并确保指向这些页面的强大链接。

但是像谷歌这样的搜索引擎是如何找到这些页面的呢? 答案是爬行。

Google 抓取工具访问网站、跟踪链接并分析每个页面上的内容以将 URL 添加到其索引中。

抓取预算是搜索引擎在特定时间范围内分配给抓取网页的资源。 它决定了机器人将抓取您网站上的多少页面以及它们返回的频率。

管理抓取预算对于网站所有者和 SEO 团队来说非常重要,尤其是那些拥有大型网站的团队。

通过优化抓取预算,您可以确保搜索引擎将您网站的重要页面编入索引。 这可以提高您在搜索结果中的可见度,并有助于确保搜索引擎看到您的内容。

在本指南中,我们将介绍:

  • 什么是抓取预算
  • 怎么运行的
  • 为什么它对 SEO 很重要
  • 如何增加抓取预算
内容展示
什么是抓取预算?
为什么搜索引擎分配抓取预算?
Google 爬虫有哪些不同类型?
移动优先爬行
Google 如何分配抓取预算?
抓取容量限制
抓取需求
抓取预算只包括网页吗?
抓取限制如何工作?
抓取需求如何运作?
为什么抓取预算对 SEO 很重要?
在搜索结果中的可见性
网站结构
专题权威
关键字蚕食
您如何优化 SEO 的抓取预算?
策略 1:查看您的服务器日志和抓取统计报告
策略 2:增加抓取预算
定期发布新鲜优质内容
改善页面加载时间
确保移动友好性
策略三:网站维护:减少错误
策略 4:阻止爬虫访问您网站的某些部分
策略 5:减少重定向链
策略 6:获得更多的内部和外部链接
充分利用您网站的抓取预算

什么是抓取预算?

抓取预算是搜索引擎为网站抓取和索引其网页提供的资源。

这在搜索引擎优化 (SEO) 中很重要,因为它决定了 Google 和其他搜索引擎如何有效地找到您的网页并将其包含在搜索结果中。

为什么搜索引擎分配抓取预算?

Google 有自己的名为 GoogleBot 的爬虫,它可以探索和索引网页。

但是互联网是巨大的。

Google 无法抓取每个网站上的每个页面并将其编入索引。

因此,为了确保它到达与搜索用户最相关的页面,Google 为网站分配了抓取预算。

非谷歌搜索引擎也是如此,但我们将专注于谷歌,因为它是谷歌。

Google 爬虫有哪些不同类型?

搜索引擎有不同类型的爬虫来收集有关网页的信息。 我们在这里总结了爬虫和提取器的主要类型:

谷歌机器人

这是 Google 用于发现和索引网页的主要爬虫。 它会查看所有 HTML 内容、跟踪链接并分析网页内容。

特例爬虫

这些爬虫用于特定任务,例如收集可访问性信息。 特殊情况的爬虫可能会或可能不会遵守 robots.txt 规则。

用户触发的提取器

当最终用户触发提取时使用这种类型的爬虫。 例如,某些 Google Search Console 工具会根据用户操作发送提取请求。 用户触发的提取器通常会忽略 robots.txt 规则。

谷歌新闻抓取工具

这个专注于抓取与新闻相关的内容。 它收集最新的新闻信息并确保它出现在谷歌的搜索结果和谷歌新闻平台中。

谷歌图像抓取工具

顾名思义,这个爬虫是关于图像的。 它会搜索网络以查找图像并分析替代文本、标题和文件名等内容以了解上下文。

谷歌视频抓取工具

类似于图像爬虫,这个爬虫专门用于发现和索引视频内容。 它查看视频元数据、字幕和其他信息。

如需更全面地了解每个 Google 抓取工具和抓取工具(包括用户代理令牌和用例),请跳到最后查看我们有用的表格!

移动优先爬行

由于越来越多的人使用移动设备浏览互联网,谷歌已转向移动优先索引。

谷歌使用智能手机代理在桌面版之前抓取和索引网站的移动版。 确保您的网站具有移动响应能力对于网站的可抓取性和优化抓取预算至关重要。

该搜索引擎最近于 2023 年 5 月完成了向移动优先索引的最终批量切换:

Google 如何分配抓取预算?

抓取预算基于两个因素:抓取容量限制和抓取需求。

抓取容量限制

搜索引擎监控网站服务器的性能及其响应速度。 他们根据服务器的性能调整爬网容量限制。

该限制还受任何给定时间可用的爬网资源和网站所有者的偏好的影响。

您可以从 Google Search Console 的“抓取速度设置”页面手动调整抓取速度限制。

如果您遇到可用性问题,可以降低抓取频率。

但是手动增加它不会让 Google 更快地抓取您的网站。您也无法影响 Google 将抓取哪些页面。

抓取需求

抓取需求帮助搜索引擎决定更频繁地抓取哪些页面。

它会考虑网站大小、页面更新频率和感知页面价值等因素。

SEO 技术问题也会影响抓取需求。

抓取预算只包括网页吗?

不,抓取预算不仅仅与页面有关。

我们实际上是在谈论搜索引擎抓取的任何文档以及页面上存在的所有各种元素。 其中包括 JavaScript 和 CSS 文件、移动页面变体、结构化数据和 PDF 文件。

抓取限制如何工作?

爬取限制是关于保持爬取和服务器资源之间的平衡。

在抓取网站时,搜索引擎会监控服务器的响应方式。 如果服务器快速响应,抓取速度可能会增加。

如果服务器出现压力迹象,搜索引擎可能会降低抓取速度以减轻服务器负载。

网站所有者还可以在网站的 robots.txt 文件中实现抓取延迟。 这指示爬虫在对网站的连续请求之间暂停一段时间。

抓取需求如何运作?

抓取需求衡量页面对 GoogleBot 的重要性。

搜索引擎关注内部链接结构、外部链接和用户参与信号,以确定哪些页面具有更高的抓取需求。

以下是 Google 搜索中心对其的描述:

反向链接是网页可信、受欢迎且值得抓取的信号。

具有大量来自权威来源的高质量反向链接的网站会获得更大的抓​​取预算。

谷歌还希望为用户提供最新的搜索结果,因此优先抓取和索引新鲜内容。

为什么抓取预算对 SEO 很重要?

抓取预算直接影响搜索引擎如何发现和索引您网站的页面。

但值得注意的是,抓取预算本身并不是排名因素。

它通常也不会影响较小的站点。

最近的一段视频,Google 搜索倡导者 Daniel Waisberg 透露:

“如果你在大型网站上工作,它会更相关。如果您的网站页面少于几千页,则无需担心。”

如果你有一个拥有大量页面的大型网站或电子商务商店,你只需要担心抓取预算。

抓取预算会影响或受以下因素影响:

在搜索结果中的可见性

当抓取预算有限时,Google 可能需要更长的时间来抓取新页面和内容并对其进行排名。 如果 Google 由于抓取预算问题而找不到网页,它就不会出现在搜索结果中。

网站结构

如果您通过一系列重复或低价值的页面来浪费抓取预算,Google 将很难了解哪些页面很重要。 GoogleBot 会花时间抓取您网站上无助于您针对目标关键字进行排名的部分。

良好的网站结构有助于搜索引擎确定您的页面之间的关系,这反过来又可以构建您的语义 SEO。

专题权威

优先抓取重要页面并专注于高质量内容可以提高您的主题权威。

它增加了您在相关搜索词中排名更高的机会。

关键字蚕食

关键字蚕食是指网站上的两个页面在搜索结果中竞争相同的关键字。

抓取预算优化可帮助您避免这种情况。

组织您的网站结构并避免重复的内容可以让 Google 更轻松地抓取您的网站并理解您的内容,同时确保您的网页独一无二并避免在搜索结果中相互竞争。

您如何优化 SEO 的抓取预算?

那么,如何优化抓取预算以获得更好的 SEO 结果呢?

以下是您可以实施的六种策略:

策略 1:查看您的服务器日志和抓取统计报告

首先分析您的服务器日志文件。

这些日志包含有关搜索引擎抓取工具如何与您的网站交互的宝贵信息。 您可以了解正在抓取哪些页面、访问它们的频率以及是否发生任何抓取错误。

Google Search Console 中的抓取统计报告也可以提供有用的见解。

您可以看到抓取趋势图表、主机状态详细信息和抓取请求细分。

策略 2:增加抓取预算

虽然您无法直接控制搜索引擎分配的抓取预算,但您仍然可以影响它。

关键是要提高网站的整体质量和相关性。

以下是 Mobilo 首席执行官 Peter Nikolow 的细分:

以下是如何将此建议付诸实践:

定期发布新鲜优质内容

用新鲜的内容更新您的网站可以向搜索引擎表明您的网站是活跃的。

它向搜索引擎发出信号,表明您的内容提供了有价值的信息,可能会增加您网站的抓取预算。

改善页面加载时间

页面加载缓慢会阻碍抓取和索引过程。

谷歌是这样描述它的:

如果您的网页加载速度很快,Google 就可以探索您网站的更多内容并为您的更多网页编制索引。

致力于压缩图像并使用缓存技术来提高站点速度。

确保移动友好性

Google 使用您网站的移动版本进行索引和排名。

因此,拥有适合移动设备的网站至关重要。

以下是来自 Google 搜索中心博客的一些提示:

策略三:网站维护:减少错误

损坏的链接、404 页面和服务器错误会减慢搜索引擎爬虫的速度并耗尽您的爬网预算。

这可能包括导致无处可去的断开链接、无法找到的页面或导致中断的服务器问题。

进行例行网站审核,以识别未正确抓取或导致错误的任何页面。

策略 4:阻止爬虫访问您网站的某些部分

有时,您网站的某些部分可能与搜索引擎抓取或索引并不真正相关。

想想管理页面和重复的内容。

您可以使用“robots.txt”文件告诉搜索引擎爬虫避开这些部分。

这样,GoogleBot 就可以专注于探索您网站的重要页面并为其编制索引。

策略 5:减少重定向链

重定向链可能会用完您的抓取预算。

GoogleBot 在最终登陆目标 URL 之前必须连续导航多个重定向。

所有这些不必要的重定向都会占用抓取预算,而不会提供任何额外价值。

最小化重定向链可以帮助搜索引擎更快地到达目标页面。 它使爬虫和用户从 A 点到 B 点的旅程更加容易。

策略 6:获得更多的内部和外部链接

从值得信赖的网站获得更多反向链接可以提高您网站的知名度和权威性。

由于搜索引擎将您视为权威来源,因此他们更有可能为您的网站分配更多的抓取预算。

内部链接也很重要。

抓取预算的最大浪费之一是孤立页面。

这些网页没有任何指向它们的内部链接或外部链接。

根据 Botify 最近的一项研究,未链接的页面消耗了 Google 26% 的抓取预算:

资料来源:Botify

上下文内部链接可帮助 GoogleBot 查找您网站上的所有页面并将其编入索引。

通过确保要索引的每个页面都有至少一个指向它的内部链接,您可以更有效地利用爬网预算。

充分利用您网站的抓取预算

抓取预算优化是成功的 SEO 策略的重要组成部分。

它旨在让 GoogleBot 尽可能简单。 通过了解抓取预算的工作原理以及如何对其进行优化,您可以确保 Google 尽可能频繁地抓取您的网页并将其编入索引。

这将提高您在搜索结果中的可见度并帮助您吸引更多自然流量

您投入时间、精力和金钱来制作内容丰富的高质量网页; 通过确保搜索引擎可以抓取和查看您的页面来确保这不是浪费工作。

最后,您是否对所有 Google 爬虫和抓取器进行了全面分析,包括它们的用户代理令牌和用例? 查看下面我们方便的信息图!