网站上站点地图文件的重要性

已发表: 2019-12-03

最后更新于 2019 年 12 月 11 日

搜索引擎使用网络爬虫通过索引其他站点的网络内容来更新其网络内容。 网络爬虫,也称为蜘蛛或蜘蛛机器人,是一种互联网机器人,它系统地浏览万维网以获取网页 URL 的 Web 索引。 graphic of a spider bot

网络爬虫有什么作用?

网络爬虫复制页面以供搜索引擎处理,搜索引擎索引下载的页面,以便用户可以更有效地搜索。 如果链接正确,网络爬虫通常可以发现您网站的大部分页面。 但是,通过使用站点地图文件,您可以改进对网站页面的抓取。

如果您的网站是新网站并且很少有外部链接,或者该网站使用富媒体内容,则网络爬虫会通过跟踪从一个页面到另一个页面的链接来抓取网络。 更糟糕的是,如果您的网站规模庞大,其中包含大量相互隔离或链接不佳的内容页面,网络爬虫可能会忽略爬取您的一些新页面或最近更新的页面。 因此,如果没有其他网站链接到您的网页,搜索引擎可能不会发现您的网页。 在上述任何一种情况下,站点地图文件都可以为网络爬虫提供额外信息,以确保搜索引擎不会忽略您网站的某些页面。


那! 公司为世界各地的代理机构提供迷人而有效的网页设计服务。 详细了解我们的白标网页设计服务以及我们如何帮助您和您的客户创建或改善他们的网络形象。 今天就开始吧!


什么是站点地图文件,其结构如何?

站点地图是一个 XML 标记文件,其中列出了站点的 URL 以及有关每个 URL 的附加元数据; 比如页面最后一次更新的时间,它通常多久改变一次,以及它相对于网站中其他 URL 的重要性(优先级)。 我们可以有不同的站点地图文件,提供有关您网站上的页面、视频、图像和其他文件的信息以及它们之间的关系,以便搜索引擎可以更智能地抓取您的网站。 站点地图告诉爬虫哪些文件在您的网站中很重要,并提供有关这些文件的有价值信息。 支持站点地图的网络爬虫获取站点地图中的所有 URL,并使用关联的元数据了解这些 URL。

screenshot of a text file with sitemap code 站点地图协议格式由 XML 标记组成。 站点地图必须包括:

  • <urlset> 标记内带有命名空间(协议标准)的打开 <urlset>。
    • 每个 URL 的开始 <url> 标记条目,作为父 XML 标记。
      • <loc> 标签作为每个 <url> 父标签的子条目,带有页面的 url。
    • 结束 </url> 标记,
  • 结束 </urlset> 标记。

以下是带有一些可选标签的基本站点地图文件协议和结构的图示。 有关站点地图协议中 XML 标记定义的更多信息,请访问 https://www.sitemaps.org/protocol.html。

screenshot of website code

站点地图文件中列出的所有 URL 必须与站点地图文件位于同一域中。 例如,如果站点地图文件位于 https://www.mydomain.com/sitemap.xml,则它不能包含来自 https://subdomain.mydomain.com 的 URL。 如果站点地图文件位于 https://www.mydomain.com/myfolder/sitemap.xml,则它不能包含来自 https://www.mydomain.com 的 URL。 站点地图文件协议应使用 UTF-8 字符编码方法生成。 强烈建议将站点地图放在 HTML 服务器的根目录; 也就是说,把它放在 https://www.mydomain.com/sitemap.xml

站点地图不应超过 50MB,最多可包含 50,000 个 URL。 这些限制有助于确保您的 Web 服务器不会因提供大文件而陷入困境。 如果您的站点包含超过 50,000 个 URL 或站点地图大于 50MB,则必须创建多个站点地图文件并使用站点地图索引文件。 如果您的网站很小,但您计划增长超过 50,000 个 URL 或文件大小为 50MB,建议您开始使用站点地图索引文件。


That! Company White Label Services


在 <loc> 标记中,您需要包含页面 URL 的协议(例如,HTTP 或 HTTPS)。 如果您的网络服务器需要,您还需要在 URL 中包含一个斜杠。 例如,http://www.mydomain.com/ 是站点地图的有效 URL,而 www.mydomain.com 不是。 在站点地图中仅列出一个版本的页面 URL 非常重要。 这意味着,仅列出 HTTPS URL 或仅列出 HTTP URL,但不能同时列出两者。 包含多个版本的页面 URL 可能会导致搜索引擎对您的网站的抓取不完整。

将站点地图文件提供给搜索引擎的两种常见方法是通过搜索引擎提交工具提交它,或者在您网站的任何位置插入一行,例如站点地图:https://www.mydomain.com/sitemap.xml robots.txt 文件,它指定站点地图文件的路径。 robots.txt 文件告诉搜索引擎您不想将网站的哪个部分包含在索引中,站点地图告诉这些搜索引擎您希望它们去哪里。

为什么站点地图文件很重要?

graphic of a sitemap structure 拥有站点地图文件没有任何缺点,拥有一个可以改善您的 SEO,因此强烈建议在您的网站中拥有一个。 站点地图对 SEO 很重要,因为它们使搜索引擎更容易找到您网站的页面。 这很重要,因为搜索引擎对网页进行排名,而不仅仅是网站。 您可以将站点地图想象成您家的蓝图,如果每个网页都是一个房间,那么搜索引擎可以轻松快速地找到您家中的所有房间。

有多种 SEO 技巧和技巧可以帮助优化您的网站,其中之一就是使用站点地图文件。 站点地图文件的重要性有时被大大低估了。 同样,站点地图是您网站的文字地图。 它们使您的网站导航更容易,当您为您的网站保留更新的站点地图文件时,它不仅适合您自己,也适合搜索引擎。 站点地图文件是站点与搜索引擎通信的重要方式。

网站如何从站点地图文件中受益?

使用站点地图文件有很多好处。 它不仅提供了导航您网站的地图,而且还为搜索引擎提供了更好的可见性。 站点地图文件提供了将搜索引擎与您的网站页面所做的任何更改相关联的机会。 您不能指望搜索引擎急于解释您页面上的更改,但与没有站点地图文件的网站相比,它们无疑会更快地更改您所做的编辑。

当有指向网站的站点地图链接并将其提交给搜索引擎时,当搜索引擎将访问者带到您的网站时,您将减少对外部链接的依赖。 当您拥有站点地图文件并将其提交给搜索引擎时,您对外部链接的依赖就会减少,这些链接会将搜索引擎带到您的网站。

graphic of a sitemap structure in use

站点地图文件甚至有助于修复不良的内部链接。 例如,如果有意外损坏的链接或无法访问的孤立页面。 应该注意的是,依靠站点地图而不是仅仅修复错误并不是一个明智的主意。 您必须记住,使用站点地图文件并不能保证站点地图中的所有 URL 都会被抓取和索引,因为搜索引擎进程依赖复杂的算法来安排抓取。 但是,在大多数情况下,您的网站将受益于拥有站点地图文件,并且您永远不会因为拥有站点地图文件而受到惩罚。

作者:Arturo S.