Разбивка на страницы — ключевой элемент индексации в поисковых системах
Опубликовано: 2017-11-08Оглавление
Рекомендации SEO по разбивке на страницы, например, категорий интернет-магазина или статей в блогах, являются повторяющейся темой, и есть несколько подходов к этому. Мы собираемся обсудить, как справиться с нумерацией страниц, чтобы поисковым роботам было проще обрабатывать контент.
Что такое пагинация?
Пагинация — это просто разделение определенного ресурса на веб-сайте на страницы. Простейшим примером могут быть категории в большинстве интернет-магазинов, где после перечисления определенного количества товаров пользователь может перейти к следующей части списка товаров. Еще один способ представить продукты в категории — это разбиение на страницы с бесконечной прокруткой, когда пользователь прокручивает страницу вниз, и отображаются все новые и новые продукты. То же самое и для блогов. Как правило, не имеет значения, какой ресурс веб-сайта разделен на части, важно, как вы это делаете и как вы уведомляете робота Googlebot о последующем контенте.
Позвольте поисковым роботам делать то, что они делают
Одна из основных ошибок при пагинации — использование канонических тегов на первой странице пагинации. И хотя это оправдано в одной ситуации, обычно делается неправильно.
Если, например, товарная категория разделена на несколько страниц, это означает, что базовая страница включает в себя определенное количество товаров, вторая страница включает в себя еще одну группу товаров и так далее и тому подобное до последней страницы пагинации.
Страницы пагинации следующие:
https://website.com/product-category/page-2
https://website.com/product-category/page-3
https://website.com/product-category/page-4
и т.п.
поэтому нет особого смысла использовать такие канонические ссылки:
<link rel="canonical" href="https://website.com/product-category" />
в связи с тем, что это дальнейшая часть товаров из данной категории, страницы 2,3,4 и т.д. не являются дубликатами главной страницы (если это не так, то разумно использовать каноническую ссылку) .
Естественно, вы можете предоставить канонические ссылки, но на себя . В таком случае введите на странице https://website.com/product-category/ следующее:
<link rel="canonical" href="https://website.com/product-category" />
и следующее на странице https://website.com/product-category/page-2:
<link rel="canonical" href="https://website.com/product-category/page-2" />
Страница со всем содержимым
Есть исключение — базовая страница со всем содержимым , дополнительно разделенная на несколько подстраниц с меньшим содержанием. В такой ситуации имеет смысл использовать каноническую ссылку. Эта практика часто используется в довольно длинных статьях с большим количеством контента.
Итак, следующие страницы:
https://website.com/product-category/page-1
https://website.com/product-category/page-2
https://website.com/product-category/page-3
https://website.com/product-category/page-4
объединенные в единую логическую последовательность, фактически будут включать весь контент базовой страницы https://website.com/product-category/, который вы хотите использовать для индексации поисковыми системами.
Эта неудачная первая страница пагинации…
Еще одна ошибка — дублирование базовой страницы категории https://website.com/product-category/ с первой страницей пагинации https://website.com/product-category/page-1.
Если базовая страница содержит тот же контент, что и /page-1, то делать дубликат бессмысленно — некоторые системы управления контентом обычно генерируют (помимо базовой страницы) первую страницу пагинации, начинающуюся с /page-1; в таком случае , адрес должен, например, перенаправляться на базовую страницу с помощью Redirect 301 , а в коде указывать ссылку не на https://website.com/product-category/page-1, а на https://website. com/категория продукта/
В противном случае вы столкнетесь с внутренней проблемой перенаправления, что приведет к трате краулингового бюджета робота Googlebot на сканирование данного веб-сайта. Другими словами, нет смысла перенаправлять его с помощью внутренней ссылки с помощью Redirect 301, когда вы можете напрямую ссылаться на целевую страницу, используя код состояния HTTP 200.
Атрибуты rel="next"andrel="prev"
Если вы решили разбивать страницы следующим образом:
https://website.com/product-category/
https://website.com/product-category/page-2
https://website.com/product-category/page-3
https://website.com/product-category/page-4
затем вы можете указать взаимосвязи между отдельными страницами для сканера. Предоставление релевантных ссылок с атрибутами rel в разделе <head> выделяет отдельные страницы последовательности.
На первой (базовой) странице поместите следующее:
<link rel="next" href="https://website.com/product-category/page-2">
как другая страница, содержащая часть того же ресурса.
На следующей странице , например https://website.com/product-category/page-2, введите следующее:
<link rel="prev" href="https://website.com/product-category/"> <link rel="next" href="https://website.com/product-category/page-3">
Двигаемся дальше, на третьей странице, т.е. https://website.com/product-category/page-3:
<link rel="prev" href="https://website.com/product-category/page/page-2"> <link rel="next" href="https://website.com/product-category/page-4">
Предполагая, что /page-4 является последним в последовательности разбивки на страницы , поместите туда следующее:
<link rel="prev" href="https://website.com/product-category/page-3">
Это наиболее часто используемая комбинация ссылок в заголовке с атрибутами «rel next/prev». Иногда к ссылкам «<a href=» добавляются атрибуты в коде (например, под списком), но лучше поместить их в секцию <head> — тем быстрее краулер поймет, где находится остальная часть ресурса. , лучшее.
Вы должны помнить, что ссылки с атрибутами «rel next/prev» не являются абсолютными директивами , то есть они могут, но не обязаны учитываться при сканировании сайта. Кроме того, стоит использовать абсолютные пути к последующим страницам, хотя в рекомендациях Google говорится, что «значения могут быть абсолютными путями и относительными путями». Однако в случае страницы с параметрами в URL, например, параметрами сортировки, их также следует поместить в ссылки «rel next/prev» — например, следующая страница:
https://website.com/product-category/page-3&sort=desc
будет включать следующие ссылки в разделе <head>:
<link rel="prev" href="https://website.com/product-category/page-2&sort=desc"> <link rel="next" href="https://website.com/product-category/page-4&sort=desc">
но канонический тег, указывающий только на себя (без параметра сортировки по убыванию):
<link rel="canonical" href="https://website.com/product-category/page-3"/>
Индексировать или не индексировать?
Еще одна проблема, возникающая при разбиении на страницы, — неправильное использование метатегов robots. Google заявил, что отдельные страницы следует рассматривать как логическую последовательность, которая приведет к учету атрибутов их ссылок и в большинстве случаев поможет пользователю отобразить первую страницу.
Очень часто отдельные страницы пагинации, несмотря на то, что связаны друг с другом ссылками с атрибутами «rel next/prev», находятся в индексе поисковой системы. Если у вас есть проблемы с этим, лучше всего использовать следующее:
<meta name="роботы" content="noindex, следуйте" />
на последующих страницах, т.е. на /page-2 и выше. Поисковый робот будет сканировать ссылки до последней страницы с разбивкой на страницы, но не будет их индексировать.
Так что там с канониками?
Из обсуждения с Джоном Мюллером (https://plus.google.com/+JohnELincoln/posts/TCJHwdZHdQc) ясно следует, что не следует комбинировать метатеги «без индекса» с каноническими , указывающими на индексируемый URL. Поэтому в этом случае, если каноническая ссылка на странице пагинации ведет на себя, метатег no index не ставится и наоборот.
Я не заметил проблем с обходом разбитых на страницы страниц с каноническими ссылками на сами страницы и метатегом «без индекса»; однако Google хочет сам решать, что индексировать, а что нет, поэтому, возможно, мы должны позволить Google сделать это.
Разбивка на страницы и карта сайта в формате XML
Вот интересный случай: в sitemap.xml вы скорее вводите не ссылки на страницы, а только базовый адрес, например, категории или основной статьи со всем содержимым. В принципе, в XML-карте сайта должны быть прописаны те адреса, которые вы хотите проиндексировать, поэтому, если вас не волнует индексация страниц, не включайте туда URL-адреса до /page-2 и выше. Естественно, если вы заблокируете его метатегом robots «без индекса», то еще проще — не предоставлять их.
Страницы пагинации как параметры
Если вы хотите поддерживать индексирование продуктов/статей с последней страницы с разбивкой на страницы, предоставьте поисковым роботам неограниченный доступ к страницам других категорий, помимо базовой категории. Часто отдельные страницы имеют параметры « ?page= » или « ?p= » и могут быть ошибочно заблокированы в robots.txt вместе с остальными параметрами.
Это похоже на параметры URL в Google Search Console . Стоит показать роботу Google, что такие параметры отвечают за разделение ресурсов на страницы и пусть решает бот.
Разбивка на страницы и описания категорий
Распространенной практикой является расширение содержания категорий, например, в интернет-магазинах. Часто бывает так, что добавленное описание отображается на всех URL пагинации в неизменном виде. Если все страницы трактовать как логическую последовательность и объединять в единое целое по атрибутам «rel next/prev», то дублировать один и тот же текст на /page-2, /page-3 и т.д. кажется излишним.
То же самое и с перечисленными продуктами: на каждой последующей странице отображается новый набор продуктов, и пользователь не хочет ни читать одно и то же описание категории все время на каждой странице, ни просматривать одни и те же продукты дальше в категории. . Однако возникает вопрос – кто читает описания категорий? Googlebot, вероятно, так и делает, поэтому не кормите его дубликатами.
Нужна ли вам нумерация страниц, если вы используете бесконечную прокрутку?
Оказывается, нумерация страниц также является жизнеспособным вариантом в решении с «бесконечной прокруткой», когда при прокрутке списка продуктов/статей в категории отображаются новые ресурсы. Джон Мюллер (http://scrollsample.appspot.com/items) привел разумный пример: при прокрутке списка к URL-адресу добавляются новые параметры, указывающие на последующие страницы.
http://scrollsample.appspot.com/items?page=2
http://scrollsample.appspot.com/items?page=3
и так далее и тому подобное.
Очевидно, здесь используются ссылки с атрибутами «rel next/prev» и предоставляется каноническая ссылка на себя; например, на странице http://scrollsample.appspot.com/items?page=5 это выглядит следующим образом:
<link rel="canonical" href="/items?page=5" /> <link rel="next" href="/items?page=6"/> <link rel="prev" href="/items?page=4"/>
Пагинация как элемент стратегии индексации
Решение о применении того или иного решения для пагинации, естественно, остается за вами. Приведенные выше примеры не являются идеальными вариантами в каждой ситуации, потому что вы можете столкнуться с техническими трудностями, проблемами с CMS или просто с нарушением принятой стратегии индексации. Тем не менее, стоит оптимизировать пагинацию до такой степени, чтобы, по крайней мере, не мешать роботу Googlebot сканировать веб-сайт, а также способствовать индексации скрытых страниц товаров/статей, которые не так легко доступны за одно посещение.