分頁——搜索引擎索引的關鍵元素
已發表: 2017-11-08目錄
關於分頁的 SEO 指南,例如在線商店類別或博客文章,是一個反復出現的主題,並且有一些方法可以解決這個問題。 我們將討論如何處理分頁以幫助網絡爬蟲更輕鬆地處理內容。
什麼是分頁?
分頁只是將網站上的特定資源劃分為頁面。 最簡單的示例可以是大多數在線商店中的類別,在列出特定數量的產品後,用戶可以轉到產品列表的下一部分。 在一個類別中展示產品的另一種方法是無限滾動分頁,當用戶向下滾動時,會顯示新產品和新產品。 博客也是如此。 一般來說,網站的哪個資源被分成幾部分並不重要,重要的是你如何做以及你如何通知Googlebot隨後的內容。
讓網絡爬蟲做他們該做的事
分頁時犯的一個基本錯誤是在第一個分頁頁面上使用規範標籤。 即使在一種情況下它是合理的,它通常也是錯誤的。
例如,如果一個產品類別被分成幾頁,這意味著基頁包含特定數量的產品,第二頁包含另一組產品,依此類推,直到最後一個分頁。
分頁頁面如下:
https://website.com/product-category/page-2
https://website.com/product-category/page-3
https://website.com/product-category/page-4
等等
因此,使用這樣的規範鏈接沒有多大意義:
<link rel="canonical" href="https://website.com/product-category" />
由於它是來自給定類別的產品的另一部分,因此第 2、3、4 頁等不是主頁的重複(除非不是這種情況,那麼使用規範鏈接是合理的) .
當然,您可以提供規範鏈接,但要提供給他們自己。 在這種情況下,請在頁面 https://website.com/product-category/ 上輸入以下內容:
<link rel="canonical" href="https://website.com/product-category" />
以及頁面 https://website.com/product-category/page-2 上的以下內容:
<link rel="canonical" href="https://website.com/product-category/page-2" />
包含所有內容的頁面
有一個例外 -包含所有內容的基本頁面,另外分為幾個內容較少的子頁面。 在這種情況下,使用規範鏈接是有意義的。 這是一種經常在內容很多的長篇文章中使用的做法。
因此,以下頁面:
https://website.com/product-category/page-1
https://website.com/product-category/page-2
https://website.com/product-category/page-3
https://website.com/product-category/page-4
組合成一個邏輯序列實際上將包括您想要用於搜索引擎索引的基本頁面 https://website.com/product-category/ 上的所有內容。
這個不幸的第一頁…
另一個錯誤是複制類別基本頁面https://website.com/product-category/ 與第一個分頁頁面 https://website.com/product-category/page-1
如果基本頁麵包含與 /page-1 相同的內容,那麼複製是沒有意義的——某些內容管理系統通常會生成(除了基本頁面之外)以 /page-1 開頭的第一個分頁頁面;在這種情況下,該地址應該例如使用重定向 301 重定向到基本頁面,並且在代碼中您應該提供一個鏈接,而不是 https://website.com/product-category/page-1 而是 https://website。 com/產品類別/
否則,您將遇到內部重定向問題,從而浪費 Googlebot 抓取給定網站的抓取預算。 換句話說,當您可以使用 HTTP 狀態代碼 200 直接鏈接到登錄頁面時,使用 Redirect 301 使用內部鏈接將其重定向是沒有用的。
rel="next"andrel="prev" 屬性
如果您決定按如下方式分頁:
https://website.com/product-category/
https://website.com/product-category/page-2
https://website.com/product-category/page-3
https://website.com/product-category/page-4
然後您可以向爬蟲指示各個頁面之間的關係。 在 <head> 部分中提供具有 rel 屬性的相關鏈接會突出顯示序列的各個頁面。
在第一個(基本)頁面上,輸入以下內容:
<link rel="next" href="https://website.com/product-category/page-2">
作為包含同一資源的一部分的另一個頁面。
在下一頁,即 https://website.com/product-category/page-2,輸入以下內容:
<link rel="prev" href="https://website.com/product-category/"> <link rel="next" href="https://website.com/product-category/page-3">
繼續,在第三頁,即 https://website.com/product-category/page-3:
<link rel="prev" href="https://website.com/product-category/page/page-2"> <link rel="next" href="https://website.com/product-category/page-4">
假設 /page-4 是分頁序列中的最後一個,請在其中放置以下內容:
<link rel="prev" href="https://website.com/product-category/page-3">
它是帶有“rel next/prev”屬性的標題中最常用的鏈接組合。 有時會在代碼中的鏈接“<a href=”中添加屬性(例如,在列表下方),但最好將它們放在<head> 部分- 爬蟲越早獲得剩餘資源所在位置的線索, 更好。
您需要記住,具有“rel next/prev”屬性的鏈接不是絕對指令,也就是說,在抓取網站時可以但不必考慮它們。 此外,使用絕對路徑指向後續頁面是值得的,儘管 Google 指南說“值可以是絕對路徑和相對路徑”。 但是,對於在 URL 中有參數的頁面,例如排序參數,它們也應該放在“rel next/prev”鏈接中——例如,以下頁面:
https://website.com/product-category/page-3&sort=desc
將在 <head> 部分中包含以下鏈接:
<link rel="prev" href="https://website.com/product-category/page-2&sort=desc"> <link rel="next" href="https://website.com/product-category/page-4&sort=desc">
但是一個僅指向自身的規範標籤(沒有按降序排序的參數):
<link rel="canonical" href="https://website.com/product-category/page-3"/>
索引還是不索引?
分頁時面臨的另一個問題是濫用機器人元標記。 谷歌聲稱,單個頁面將被視為一個邏輯順序,這將導致考慮到其鏈接的屬性,並且在大多數情況下將幫助用戶顯示第一頁。
通常情況下,單個分頁頁面儘管通過具有“rel next/prev”屬性的鏈接相互連接,但仍位於搜索引擎索引中。 如果您對此有疑問,最好使用以下方法:
<meta name="robots" content="noindex, follow" />
在隨後的頁面上,即在 /page-2 和更高版本上。 網絡爬蟲將爬取鏈接直到最後一個分頁頁面,但不會將它們編入索引。
那麼規範呢?
與 John Mueller (https://plus.google.com/+JohnELincoln/posts/TCJHwdZHdQc) 的討論清楚地表明,您不應將“無索引”元標記與指向可索引 URL 的規範結合起來。 因此,在這種情況下,如果分頁頁面上的規範鏈接指向自身,則不放置“無索引”元標記,反之亦然。
我沒有註意到抓取帶有指向頁面本身的規範鏈接和“無索引”元標記的分頁頁面的任何問題; 然而,谷歌想要自己決定什麼索引和什麼不索引,所以也許我們應該讓谷歌來做。
分頁和網站 XML 站點地圖
這是一個有趣的案例:您寧願不要在 sitemap.xml 中輸入分頁鏈接,而只輸入例如類別或包含所有內容的主要文章的基地址。 原則上,在 XML 站點地圖中應該輸入您想要索引的那些地址,因此如果您不關心分頁索引,請不要包含指向 /page-2 和更高版本的 URL。 自然,如果您使用“無索引”機器人元標記來阻止它,那就更簡單了——不要提供它們。
分頁頁面作為參數
如果您想支持從最後一個分頁頁面索引產品/文章,請為網絡爬蟲提供對超出基本類別的其他類別頁面的無限制訪問。 通常情況下,單個頁面具有“ ?page= ”或“ ?p= ”參數,並且可能與其餘參數一起在robots.txt中被錯誤地阻止。
Google Search Console中的 URL 參數也是如此。 值得向 Googlebot 展示這些參數負責將資源劃分為頁面並讓機器人做出決定。
分類的分頁和描述
一種經常遵循的做法是擴展類別內容,例如在線商店。 經常會在所有分頁 URL 上以未更改的形式顯示添加的描述。 如果所有頁面都被視為一個邏輯序列並通過“rel next/prev”屬性組合成一個整體,那麼在/page-2、/page-3等上似乎沒有必要復制相同的文本。
就列出的產品而言,它是相似的:每個後續頁面都顯示一組新產品,用戶既不想在每個頁面上一直閱讀相同的類別描述,也不想在類別中進一步查看相同的產品. 但是有一個問題——誰會閱讀類別描述? Googlebot 可能會這樣做,所以不要給它重複輸入。
如果使用無限滾動,是否需要分頁?
事實證明,在“無限滾動”解決方案中,分頁也是一個可行的選項,通過向下滾動一個類別中的產品/文章列表,可以顯示新資源。 John Mueller (http://scrollsample.appspot.com/items) 提供了一個合理的示例:在滾動列表時,指向後續頁面的新參數被添加到 URL。
http://scrollsample.appspot.com/items?page=2
http://scrollsample.appspot.com/items?page=3
等等等等。
顯然,這裡使用了帶有“rel next/prev”屬性的鏈接,並提供了指向自身的規範鏈接; 例如在http://scrollsample.appspot.com/items?page=5,如下:
<link rel="canonical" href="/items?page=5" /> <link rel="next" href="/items?page=6"/> <link rel="prev" href="/items?page=4"/>
分頁作為索引策略的一個元素
應用特定分頁解決方案的決定自然是您的決定。 上述示例並非在所有情況下都是完美的選擇,因為您可能會遇到技術困難、CMS 問題,或者只是與所採用的索引策略相反。 但是,值得將分頁優化到至少不會阻止 Googlebot 抓取網站的程度,以及促進對在單次訪問期間不易訪問的隱藏產品/文章頁面的索引。