/robots.txt 的重要性
已發表: 2020-07-27最後更新於 2020 年 7 月 27 日
在之前的博客中,我們討論了我們網站上的 sitemap.xml 文件的好處。 在這個博客中,我們將討論我們網站上 /robots.txt 文件的重要性。
什麼是 /Robots.Txt?
/robots.txt 是一個文本文件,位於我們網站的網絡服務器的根目錄中。 這是一個重要的文件,因為它用於向網絡機器人提供有關我們網站的網絡內容的說明。 Web Robots、Crawlers 或 Spiders 是搜索引擎用來為網站的 Web 內容編制索引的程序。 這些給定的指令稱為機器人排除協議。
/robots.txt 文件是一個公共文件,可以通過鍵入 http://wwwmysite.com/robots.txt 之類的 URL 進行訪問。 任何人都可以看到文件的內容,以及您不希望網絡機器人訪問的位置。 這意味著不應使用 /robots.txt 文件來隱藏您網站上的關鍵信息。
/robots.txt 是搜索引擎機器人在訪問網站時首先查找的內容...點擊推特Robot.txt 文件語法和內容
/robots.txt 文件中給出的說明包括我們站點站點地圖的位置、我們希望和不希望網絡機器人訪問的目錄以及我們希望和不希望網絡機器人訪問的頁面。 /robots.txt 文件的一個簡單語法指令是:
用戶代理: *
不允許: /
“User-agent: *”行表示文件中的指令適用於所有機器人。 “Disallow: /”告訴機器人不要抓取網站上的任何頁面。
/robots.txt 中的其他標準指令可以是:
- 允許完全訪問網站內容但阻止文件夾或頁面:
用戶代理: *
禁止:/文件夾/
禁止:/page.html
- 允許完全訪問網站內容但阻止文件:
用戶代理: *
禁止:/file-name.pdf
- 允許對網站內容的完全訪問,但阻止特定網絡機器人的抓取:
用戶代理: *
不允許:
用戶代理:Googlebot
不允許: /
有關一些網絡機器人的列表,請訪問 https://www.robotstxt.org/db.html
我們需要為要排除的每個 URL 前綴分隔“Disallow”行。 在 User-agent 或 Disallow 行中不支持通配符和正則表達式。 User-agent 字段中的“*”是一個特殊值,意思是“任何機器人”。
正確的:
用戶代理: *
禁止:/file-name.pdf
禁止:/folder1/
禁止:/folder2/
錯誤:
用戶代理: *
禁止:/file-name.pdf
禁止:/folder1/ /folder2/
不允許:/folder3/*
為什麼 Robots.txt 很重要?
我們應該知道 /robots.txt 的重要性,因為文件的不當使用會損害網站的排名。 它是搜索引擎機器人在訪問網站時查找的第一個文件。
/robots.txt 文件包含控制搜索引擎機器人如何查看網站網頁並與之交互的指令。 該文件以及與之交互的機器人是搜索引擎工作方式的基本要素。
/robots.txt 是搜索引擎機器人在訪問網站時首先查找的內容,因為它想知道它是否有權訪問網站內容以及可以抓取哪些文件夾、頁面和文件。
在我們的網站上有 /robots.txt 文件的一些原因可能包括:
- 我們有想要阻止搜索引擎的內容。
- 有些付費鏈接或廣告需要針對不同的網絡機器人進行特殊說明。
- 我們希望限制信譽良好的機器人訪問我們的網站。
- 我們正在開發一個實時站點,但您不希望搜索引擎對其進行索引。
- 以上部分或全部是正確的,但我們無法完全訪問我們的 Web 服務器及其配置方式。
其他方法可以控制上述原因,但是,/robots.txt 文件是處理它們的正確且直接的中心位置。 如果我們的網站上沒有 /robots.txt 文件,搜索引擎機器人將擁有對我們網站的完全訪問權限。
該指令的關鍵詞的含義是什麼?
“用戶代理:” -> 指定適用於特定機器人的指令。 像“User-agent: *”這樣的語句意味著指令適用於所有機器人。 像“用戶代理:Googlebot”這樣的聲明意味著說明僅適用於 Googlebot。
“禁止:” -> 告訴網絡機器人他們不應該查看哪些文件夾。 這意味著,例如,如果您不希望搜索引擎為您網站上的圖像編制索引,那麼您可以將這些圖像放在一個文件夾中,並像“禁止:/images/”一樣將其排除。
“允許:” -> 告訴機器人可以看到文件夾中的文件已被其他指令“禁止”。 例如:
用戶代理: *
禁止:/圖像/
允許:/images/myphoto.jpg
“站點地圖:” -> 告訴機器人網站站點地圖文件的位置。 例如:
用戶代理: *
站點地圖:https://www.mysite.com/sitemap.xml
禁止:/圖像/
允許:/images/myphoto.jpg
機器人元標籤,重要嗎?
我們已經討論了我們網站上 /robots.txt 文件的重要性和用途,但還有另一種方法可以控製網絡機器人對我們網站的訪問。 這種另一種方式是通過機器人元標記。
<meta name=”ROBOTS” content=”NOINDEX, FOLLOW”>
像任何 <meta> 標記一樣,它應該放在 HTML 頁面的 <head> 部分。 此外,最好將其放在您網站上的每個頁面上,因為機器人可能會遇到指向您網站上任何頁面的深層鏈接。
“名稱”屬性必須是“機器人”。
“content”屬性的有效值為:“INDEX”、“NOINDEX”、“FOLLOW”、“NOFOLLOW”。 允許多個逗號分隔的值,但顯然,只有某些組合才有意義。 如果沒有 robots <meta> 標籤,則默認為“INDEX, FOLLOW”,因此無需拼寫。 robots <meta> 標籤的其他可能用途是:
<元名稱=“機器人”內容=“索引,NOFOLLOW”>
<元名稱=”ROBOTS” 內容=”NOINDEX, NOFOLLOW”>
元標記的使用與我們不希望網絡機器人抓取的特定頁面更相關。 不常用,控制訪問更準確直接 網絡機器人通過 /robots.txt 文件。
結論
我們已經看到了 /robots.txt 在我們網站上的重要性、它們的語法,以及我們可以用它來做什麼來為我們的網站帶來好處。 我們也看到了 robots 元標記的使用及其局限性。
但是,如果我們使用它,我們需要確保它被正確使用。 不正確的 /robots.txt 文件可能會阻止網絡機器人索引我們的網站頁面,或者更關鍵的是,我們需要確保我們不會阻止搜索引擎需要排名的頁面。
——
由 Arturo S 撰寫。