/robots.txt 的重要性

已发表: 2020-07-27

最后更新于 2020 年 7 月 27 日

A robots text document is important 在之前的博客中,我们讨论了我们网站上的 sitemap.xml 文件的好处。 在这个博客中,我们将讨论我们网站上 /robots.txt 文件的重要性。

什么是 /Robots.Txt?

/robots.txt 是一个文本文件,位于我们网站的网络服务器的根目录中。 这是一个重要的文件,因为它用于向网络机器人提供有关我们网站的网络内容的说明。 Web Robots、Crawlers 或 Spiders 是搜索引擎用来为网站的 Web 内容编制索引的程序。 这些给定的指令称为机器人排除协议。

/robots.txt 文件是一个公共文件,可以通过键入 http://wwwmysite.com/robots.txt 之类的 URL 进行访问。 任何人都可以看到文件的内容,以及您不希望网络机器人访问的位置。 这意味着不应使用 /robots.txt 文件来隐藏您网站上的关键信息。

/robots.txt 是搜索引擎机器人在访问网站时首先查找的内容...点击推特

Robot.txt 文件语法和内容

/robots.txt 文件中给出的说明包括我们站点站点地图的位置、我们希望和不希望网络机器人访问的目录以及我们希望和不希望网络机器人访问的页面。 /robots.txt 文件的一个简单语法指令是:

用户代理: *
不允许: /

“User-agent: *”行表示文件中的指令适用于所有机器人。 “Disallow: /”告诉机器人不要抓取网站上的任何页面。

/robots.txt 中的其他标准指令可以是:

  • 允许完全访问网站内容但阻止文件夹或页面:

用户代理: *
禁止:/文件夹/
禁止:/page.html

  • 允许完全访问网站内容但阻止文件:

用户代理: *
禁止:/file-name.pdf

  • 允许对网站内容的完全访问,但阻止特定网络机器人的抓取:

用户代理: *
不允许:

用户代理:Googlebot
不允许: /

robots txt chart

有关一些网络机器人的列表,请访问 https://www.robotstxt.org/db.html

了解我们的白标 SEO – 安排会议

我们需要为要排除的每个 URL 前缀分隔“Disallow”行。 在 User-agent 或 Disallow 行中不支持通配符和正则表达式。 User-agent 字段中的“*”是一个特殊值,意思是“任何机器人”。

正确的:

用户代理: *
禁止:/file-name.pdf
禁止:/folder1/
禁止:/folder2/

错误:

用户代理: *
禁止:/file-name.pdf
禁止:/folder1/ /folder2/
不允许:/folder3/*

为什么 Robots.txt 很重要?

我们应该知道 /robots.txt 的重要性,因为文件的不当使用会损害网站的排名。 它是搜索引擎机器人在访问网站时查找的第一个文件。

robot talking

/robots.txt 文件包含控制搜索引擎机器人如何查看网站网页并与之交互的指令。 该文件以及与之交互的机器人是搜索引擎工作方式的基本要素。

/robots.txt 是搜索引擎机器人在访问网站时首先查找的内容,因为它想知道它是否有权访问网站内容以及可以抓取哪些文件夹、页面和文件。

在我们的网站上有 /robots.txt 文件的一些原因可能包括:

  • 我们有想要阻止搜索引擎的内容。
  • 有些付费链接或广告需要针对不同的网络机器人进行特殊说明。
  • 我们希望限制信誉良好的机器人访问我们的网站。
  • 我们正在开发一个实时站点,但您不希望搜索引擎对其进行索引。
  • 以上部分或全部是正确的,但我们无法完全访问我们的 Web 服务器及其配置方式。

其他方法可以控制上述原因,但是,/robots.txt 文件是处理它们的正确且直接的中心位置。 如果我们的网站上没有 /robots.txt 文件,搜索引擎机器人将拥有对我们网站的完全访问权限。

该指令的关键词的含义是什么?

“用户代理:” -> 指定适用于特定机器人的指令。 像“User-agent: *”这样的语句意味着指令适用于所有机器人。 像“用户代理:Googlebot”这样的声明意味着说明仅适用于 Googlebot。

“禁止:” -> 告诉网络机器人他们不应该查看哪些文件夹。 这意味着,例如,如果您不希望搜索引擎为您网站上的图像编制索引,那么您可以将这些图像放在一个文件夹中,并像“禁止:/images/”一样将其排除。

“允许:” -> 告诉机器人可以看到文件夹中的文件已被其他指令“禁止”。 例如:

用户代理: *
禁止:/图像/
允许:/images/myphoto.jpg

“站点地图:” -> 告诉机器人网站站点地图文件的位置。 例如:

用户代理: *
站点地图:https://www.mysite.com/sitemap.xml
禁止:/图像/
允许:/images/myphoto.jpg

机器人元标签,重要吗?

我们已经讨论了我们网站上 /robots.txt 文件的重要性和用途,但还有另一种方法可以控制网络机器人对我们网站的访问。 这种另一种方式是通过机器人元标记。

<meta name=”ROBOTS” content=”NOINDEX, FOLLOW”>

meta robots tag 像任何 <meta> 标记一样,它应该放在 HTML 页面的 <head> 部分。 此外,最好将其放在您网站上的每个页面上,因为机器人可能会遇到指向您网站上任何页面的深层链接。

“名称”属性必须是“机器人”。

“content”属性的有效值为:“INDEX”、“NOINDEX”、“FOLLOW”、“NOFOLLOW”。 允许多个逗号分隔的值,但显然,只有某些组合才有意义。 如果没有 robots <meta> 标签,则默认为“INDEX, FOLLOW”,因此无需拼写。 robots <meta> 标签的其他可能用途是:

<元名称=“机器人”内容=“索引,NOFOLLOW”>

<元名称=”ROBOTS” 内容=”NOINDEX, NOFOLLOW”>

元标记的使用与我们不希望网络机器人抓取的特定页面更相关。 不常用,控制访问更准确直接 网络机器人通过 /robots.txt 文件。

了解我们的白标网页设计 - 安排会议

结论

我们已经看到了 /robots.txt 在我们网站上的重要性、它们的语法,以及我们可以用它来做什么来为我们的网站带来好处。 我们也看到了 robots 元标记的使用及其局限性。

但是,如果我们使用它,我们需要确保它被正确使用。 不正确的 /robots.txt 文件可能会阻止网络机器人索引我们的网站页面,或者更关键的是,我们需要确保我们不会阻止搜索引擎需要排名的页面。

——

由 Arturo S 撰写。