Noindex Nofollow 和 Disallow:搜索爬蟲指令

已發表: 2022-12-01

您可以使用三個指令(命令)來指示搜索引擎如何從您的站點中發現、存儲和提供信息作為搜索結果:

  • NoIndex:不要將我的頁面添加到搜索結果中。
  • NoFollow:不要查看此頁面上的鏈接。
  • 不允許:根本不要看這個頁面。

這些指令允許您控制哪些網站頁面可以被搜索引擎抓取並出現在搜索中。

沒有索引是什麼意思?

noindex 指令告訴搜索爬蟲,如 googlebot,不要在其搜索結果中包含網頁。

索引編制是 Google 掃描或“抓取”互聯網以尋找新內容的過程,然後將這些新內容添加到搜索引擎的搜索可訪問內容庫中。

你如何標記頁面NoIndex?

有兩種方法可以發出noindex指令:

  1. 將 noindex 元標記添加到頁面的 HTML 代碼中
  2. 在 HTTP 請求中返回一個 noindex 標頭

通過為頁面使用“無索引”元標記,或作為 HTTP 響應標頭,您實際上是在搜索中隱藏該頁面。

noindex指令也可用於僅阻止特定的搜索引擎。 例如,您可以阻止 Google 將某個頁面編入索引,但仍允許 Bing:

示例:阻止大多數搜索引擎*

<meta name=”robots” content=”noindex”>

示例:僅阻止 Google

<meta name=”googlebot” content=”noindex”>

請注意:自 2019 年 9 月起, Google 不再遵守 robots.txt 文件中的 noindex 指令 Noindex 現在必須通過 HTML 元標記或 HTTP 響應標頭髮布。 對於更高級的用戶, disallow目前仍然有效,但並非適用於所有用例。

noindex 和 nofollow 有什麼區別?

這是存儲內容和發現內容之間的區別:

noindex在頁面級別應用,並告訴搜索引擎爬蟲不要在搜索結果中索引和提供頁面。

nofollow應用於頁面或鏈接級別,並告訴搜索引擎爬蟲不要跟踪(發現)鏈接。

本質上,noindex 標記從搜索索引中刪除了一個頁面,而 nofollow 屬性從搜索引擎的鏈接圖中刪除了一個鏈接。

NoFollow 作為頁面屬性

在頁面級別使用 nofollow 意味著爬蟲不會跟踪該頁面上的任何鏈接來發現其他內容,並且爬蟲不會將這些鏈接用作目標站點的排名信號。

<meta name=”robots” content=”nofollow”>

NoFollow 作為鏈接屬性

在鏈接級別使用 nofollow 可防止爬蟲探索廣告特定鏈接,並防止該鏈接被用作排名信號。

nofollow 指令使用 href 標籤內的 rel 屬性應用於鏈接級別:

<a href=”https://domain.com” rel=”nofollow”>

特別是對於 Google,使用 nofollow 鏈接屬性將阻止您的站點將 PageRank 傳遞到目標 URL。


然而,谷歌最近確實宣布,從 2020 年 3 月 1 日起,搜索引擎將開始將 NoFollow 鏈接視為有助於網站整體搜索權威的“提示”。

為什麼要將頁面標記為 NoFollow?

對於大多數用例,您不應將整個頁面標記為 nofollow——將單個鏈接標記為 nofollow 就足夠了。

如果您不希望 Google 查看頁面上的鏈接,或者您認為頁面上的鏈接可能會損害您的網站,則可以將整個頁面標記為nofollow 。

在大多數情況下,當您無法控制發佈到頁面的內容(例如:用戶生成的內容可以發佈到頁面)時,會使用一攬子頁面級nofollow指令。

一些高端出版商也一直在他們的頁面上全面應用 nofollow 指令,以阻止他們的作者在他們的內容中放置贊助商鏈接。

如何使用 NoIndex 頁面?

將不太可能為用戶提供價值且不應顯示為搜索結果的頁面標記為無索引。 例如,用於分頁的頁面不太可能隨著時間的推移在其上顯示相同的內容。

Domain.com/category/resultspage=2不太可能向用戶顯示比domain.com/category/resultspage=1更好的結果,並且這兩個頁面只會在搜索中相互競爭。 最好不要索引唯一目的是分頁的頁面。

以下是您應該考慮不編制索引的頁麵類型:

  • 用於分頁的頁面
  • 內部搜索頁面
  • 廣告優化著陸頁
    • 例如:只顯示推銷和註冊表單,沒有主導航
    • 例如:相同內容的重複變體,僅用於廣告
  • 存檔的作者頁面
  • 結帳流程中的頁面
  • 確認頁
    • 例如:感謝頁面
    • 例如:訂購完整的頁面
    • 例如:成功! 頁數
  • 一些與您的網站無關的插件生成的頁面(例如:如果您使用商務插件但不使用其常規產品頁面)
  • 管理頁面和管理登錄頁面

標記頁面 Noindex 和 Nofollow

標記為 noindex 和 nofollow 的頁面將阻止爬蟲索引該頁面,並阻止爬蟲探索頁面上的鏈接。

基本上,下圖展示了搜索引擎將根據您使用 noindex 和 nofollow 指令的方式在網頁上看到的內容:

了解如何獲得 Google 排名第一併擊敗競爭對手
預約電話

將已編入索引的頁面標記為 NoIndex

如果搜索引擎已經為某個頁面編制了索引,並且您將其標記為noindex ,那麼下次抓取該頁面時,它將從搜索結果中刪除要使這種從索引中刪除頁面的方法起作用,您不得使用 robots.txt 文件阻止(禁止)爬蟲。

如果您告訴爬蟲不要讀取該頁面,它永遠不會看到noindex標記,並且該頁面將保持索引狀態,儘管其內容不會被刷新。

如何阻止搜索引擎索引我的網站?

如果你想從搜索索引中刪除一個頁面,在它已經被索引後,你可以完成以下步驟:

  1. 應用 noindex 指令將 noindex 屬性添加到元標記或 HTTP 響應標頭
  2. 請求搜索引擎抓取頁面對於 Google,您可以在搜索控制台中執行此操作,請求 Google 重新索引該頁面。 這將觸發 Googlebot 抓取頁面,Googlebot 將在其中發現 noindex 指令。您需要為要刪除頁面的每個搜索引擎執行此操作。
  3. 確認頁面已從搜索結果中刪除 請求爬蟲重新訪問您的網頁後,給它一些時間,然後確認您的頁面已從搜索結果中刪除。 您可以通過轉到任何搜索引擎並輸入站點冒號目標 url 來執行此操作,如下圖所示。

    如果您的搜索沒有返回任何結果,那麼您的網頁已從該搜索索引中刪除。
  4. 如果頁面尚未刪除檢查您的 robots.txt 文件中是否沒有“禁止”指令。 如果不允許Google和其他搜索引擎抓取該頁面,則無法讀取noindex指令。如果讀取,請刪除目標頁面的disallow指令,然後重新請求抓取。
  5. 在 robots.txt 文件中為目標頁面設置禁止指令Disallow: /page$
    您需要將美元符號放在 robots.txt 文件中 URL 的末尾,否則您可能會不小心禁止該頁面下的任何頁面以及以相同字符串開頭的任何頁面。 例如: Disallow: /sweater也會禁止 /sweater-weather 和 /sweater/green,但是Disallow: /sweater$只會禁止確切的頁面 /sweater。

如何從 Google 搜索中刪除網頁

如果您要從搜索中刪除的頁面位於您擁有或管理的網站上,則大多數網站都可以使用網站管理員 URL 刪除工具。

網站管理員 URL 刪除工具只會從搜索中刪除大約 90 天的內容,如果您想要更持久的解決方案,您需要使用 noindex 指令,禁止從您的 robots.txt 中抓取,或者從您的站點中刪除該頁面。 Google 在此處提供了有關永久刪除 URL 的附加說明。

如果您嘗試從不屬於您的網站的搜索中刪除網頁,您可以請求 Google 從搜索中刪除符合以下條件的網頁:

  • 顯示個人信息,例如您的信用卡或社會安全號碼
  • 該頁面是惡意軟件或網絡釣魚計劃的一部分
  • 該頁面違反了法律
  • 該頁面侵犯了版權

如果頁面不符合上述條件之一,您可以聯繫 SEO 公司或 PR 公司尋求在線聲譽管理方面的幫助。

你應該不索引類別頁面嗎?

通常不建議不索引類別頁面,除非您是企業級組織,以編程方式根據用戶生成的搜索或標籤旋轉類別頁面並且重複內容變得笨拙。

在大多數情況下,如果您智能地標記您的內容,以幫助用戶更好地瀏覽您的站點並找到他們需要的內容的方式,那麼您會沒事的。

事實上,類別頁面可以成為 SEO 的金礦,因為它們通常在類別主題下顯示內容的深度。

看看我們在 2018 年 12 月所做的分析,以量化一些在線出版物的類別頁面的價值。

*使用 AHREFS 數據進行的分析。

我們發現類別著陸頁為數百個第 1 頁關鍵字排名,並且每月帶來數千名有機訪問者。

每個站點最有價值的類別頁面通常都會帶來數以千計的自然訪問者。

看看下面的 EW.com,我們測量了每個頁面的流量(用圓圈的大小表示)和每個頁面的流量值(用圓圈的顏色表示)。

頁面的每月自然流量 = 大小
頁面的每月有機價值 = 顏色深度

現在想像一下相同的圖表,但對於訪問者可能會主動購買的基於產品的網站。

話雖如此,如果您的類別相似到足以導致用戶混淆或在搜索中相互競爭,那麼您可能需要進行更改:

  • 如果您自己設置類別,那麼我們建議將內容從一個類別遷移到另一個類別,並減少您總體上擁有的類別總數。
  • 如果您允許用戶旋轉類別,那麼您可能希望不索引用戶生成的類別頁面,至少在新類別經過審查過程之前。

如何阻止 Google 索引子域?

有幾個選項可以阻止 Google 索引子域:

  • 您可以使用 .htpasswd 文件添加密碼
  • 您可以使用 robots.txt 文件禁止爬蟲
  • 您可以向子域中的每個頁面添加 noindex 指令
  • 您可以 404 所有子域頁面

添加密碼以阻止索引

如果您的子域用於開發目的,那麼將 .htpasswd 文件添加到子域的根目錄是一個完美的選擇。 登錄牆將阻止爬蟲索引子域上的內容,防止未經授權的用戶訪問。

示例用例:

  • 開發域名.com
  • 登台.domain.com
  • 測試.domain.com
  • QA.domain.com
  • UAT.domain.com

使用 robots.txt 阻止索引

如果您的子域用於其他目的,那麼您可以將 robots.txt 文件添加到子域的根目錄。 然後應該可以按如下方式訪問它:

https://subdomain.domain.com/robots.txt

您需要將 robots.txt 文件添加到您試圖阻止搜索的每個子域。 例子:

https://help.domain.com/robots.txt

https://public.domain.com/robots.txt

在每種情況下,robots.txt 文件都應禁止爬蟲,要使用單個命令阻止大多數爬蟲,請使用以下代碼:

用戶代理: *

不允許: /

user-agent:之後的星號*稱為通配符,它​​將匹配任何字符序列。 使用通配符將向所有用戶代理髮送以下禁止指令,無論其名稱如何,從 googlebot 到 yandex。

反斜杠告訴爬蟲該子域的所有頁面都包含在禁止指令中。

如何有選擇地阻止子域頁面的索引

如果您希望子域中的某些頁面出現在搜索中,而不是其他頁面,您有兩種選擇:

  • 使用頁面級 noindex 指令
  • 使用文件夾或目錄級別的禁止指令

頁面級別的 noindex 指令實施起來會更麻煩,因為該指令需要添加到每個頁面的 HTML 或頁眉中。 但是,noindex 指令將阻止 Google 索引子域,無論該子域是否已被索引。

目錄級禁止指令更容易實現,但只有在子域頁面不在搜索索引中時才會起作用。 只需更新子域的 robots.txt 文件即可禁止抓取適用的目錄或子文件夾。

使用 LinkGraph 安排時的免費 SEO 建議
預約電話

我怎麼知道我的頁面是否沒有索引?

不小心在您的網站上添加無索引指令頁面可能會對您的搜索排名和搜索可見性造成嚴重後果。

如果您發現某個頁面儘管有良好的內容和反向鏈接但沒有看到任何自然流量,請首先抽查您是否不小心從 robots.txt 文件中禁止了抓取工具。 如果這不能解決您的問題,您需要檢查各個頁面是否有 noindex 指令。

檢查 WordPress 頁面上的 NoIndex

WordPress 可以輕鬆地在您的頁面上添加或刪除此標籤。 檢查頁面上是否存在 nofollow 的第一步是簡單地切換“設置”菜單的“閱讀”選項卡中的“搜索引擎可見性”設置。

這可能會解決問題,但此設置只是作為“建議”而不是規則,而且您的某些內容可能最終會被編入索引。

為了確保您的文件和內容的絕對隱私,您必須採取最後一步,或者使用 cPanel 管理工具(如果可用)或通過一個簡單的插件對您的網站進行密碼保護。

同樣,可以通過刪除密碼保護並取消選中可見性設置來從您的內容中刪除此標籤。

檢查 Squarespace 上的 NoIndex

使用平台的代碼注入功能,Squarespace 頁面也很容易被 NoIndexed。 與 WordPress 一樣,Squarespace 可以使用密碼保護輕鬆阻止常規搜索,但是該平台還建議不要採取此步驟來保護內容的完整性。

通過在您希望對 Internet 搜索引擎隱藏的每個頁面及其下面的每個子頁面中添加 NoIndex 代碼行,您可以確保應禁止公眾訪問的受保護內容的安全。 與其他平台一樣,刪除此標籤也相當簡單:只需使用代碼注入功能將代碼取回即可。

Squarespace 的獨特之處在於其競爭對手主要將此選項作為頁面管理工具中設置套件的一部分提供。 Squarespace 從這裡出發,允許對代碼進行個人操作。 這很有趣,因為您能夠看到您對頁面內容所做的更改,這與此空間中的其他內容不同。

在 Wix 上檢查 NoIndex

Wix 還可以簡單快速地修復 NoIndexing 問題。 在“菜單和頁面”設置中,如果您想在您的站點中對單個頁面進行 NoIndex,則只需停用“在搜索結果中顯示此頁面”選項即可。

與其競爭對手一樣,Wix 還建議使用密碼保護您的頁面或整個網站,以提供額外的隱私。 但是,Wix 與其他工具不同,因為支持團隊不會在兩個方面規定並行操作以保護爬蟲的內容。 Wix 特別說明了從菜單中隱藏頁面和從搜索條件中隱藏頁面之間的區別。

對於經驗不足的網站建設者來說,這是特別有用的建議,考慮到從您的網站菜單中刪除會使該頁面無法從網站訪問,而不是通過謹慎的 Google 搜索詞訪問,他們最初可能不了解其中的區別。

獲得 7 天免費使用地球上最強大的 SEO 軟件
學到更多