Дубли страниц, зеркала и неполные дубли контента

В этой статье мы рассмотрим неприятное явление — дубли страниц сайта в индексе поисковых систем. Дубли – несколько копий одной страницы с разными URL в индексе поисковика. Чем это опасно, как и зачем от них избавляться?

Проблема 1. Неправильное определение релевантных страниц

Представим, что продвигаемая страница доступна по нескольким URL-адресам. Поисковик выбирает релевантной (показывает ее пользователям по запросу) «неправильную» страницу.

Дубль начинает конкурировать с другими страницами в поисковой выдаче в заведомо слабой позиции, так как у нее нет прокачки внешними и внутренними ссылками.

Проблема 2. Ухудшение индексации сайта

У поисковых систем существует квота на индексацию сайта — количество страниц, которое поисковик может проиндексировать за определенный промежуток времени. При наличии дублей, квота будет тратится на их индексирование, а не основных продвигаемых страниц. Это серьезная проблема для крупных интернет-магазинов и агрегаторов с тысячами страниц.

Дубли страниц

Наиболее часто дубли страниц встречаются в следующих директориях и страницах:

  • Логи — /logs/
  • Файлы — /files/
  • Регистрация — /register/
  • Корзина — /cart/, /order/
  • Страницы поиска — /search/
  • Страницы авторизации — /auth/
  • Файлы статистики — /*_openstat
  • Аккаунты пользователей — /user/
  • Скрипты, таблицы стилей — /ajax/
  • Напоминание пароля — /remind_password/
  • Версия для печати — /*printable, /print
  • Страницы сортировки — /*sort, asc, desc, list=*
  • Страницы контекстной рекламы или меток — /*from=adwords

Ищем дубли и выписываем их URL-адрса:

  • Google Search Console («Вид в поиске» — «Оптимизация HTML»)
    • Повторяющиеся заголовки (теги title)
    • Повторяющееся мета-описание
  • Яндекс.Вебмастер («Индексирование сайта» — «Структура сайта»)
  • Вручную ищем все страницы сайта в Яндексе и Google через оператор site:mysite.ru

Что делать с дублями страниц:

  • Удалить (при возможности)
  • 301 редирект с дублирующей на основную страницу (при возможности)
  • Добавить запрет на индексирование через директиву Disallow в robots.txt (не всегда помогает)
  • Добавить запрет на индексирование страниц-дублей через мета-тег <meta name="robots" content="noindex">
  • Поисковики рекомендуют использовать канонические адреса страниц через элемент <link rel="canonical" href="">

Зеркала сайтов

Зеркалами называются сайты, являющиеся полными или частичными копиями друг друга. Например, хосты site.com и www.site.com - зеркала, так как сайты доступны по разным адресам, а их контент не отличается.

Для поиска зеркал, вбиваем в адресную строку:

  • www.site.ru
  • site.ru
  • Добавляем в конце адреса «/», а если есть — убираем
  • Добавляем в конце адреса «/index.php», "/index.html" и  "/index.htm"

Во всех случаях должен открываться один адрес, чтобы не было дублей всего сайта!

Что делать, если у сайт есть зеркала? Их нужно склеивать:

  • Выбираем основное зеркало — сайт с www или без
  • Устанавливаем 301 редирект на основное зеркало
  • Выбираем основное зеркало в Яндекс-вебмастере в разделе «Настройка индексирования»
  • Выбираем основной домен в Google Search Console (шестеренка в правом верхнем углу — «Настройки сайта»)
  • Прописываем директиву «Host: site.ru» в robots.txt для Яндекса

Неполные дубли контента

Неполные дубли — это одинаковые части контента, которые встречаются на нескольких страницах сайта.

Обычно неполными дублями являются:

  • Анонсы статей в рубриках блога
  • Описания категорий на страницах пагинации
  • Конверсионные блоки на страницах услуг («Оформи заказ ...»)

Найти неполные дубли можно проанализировав основной контент сайта. Меню, шапку сайта, сайтбар, подвал — не трогаем.

Что делать с неполными дублями:

  • Удалить (при возможности)
  • Делать уникальными
  • <!--noindex--> неполный дубль <!--/noindex-->
  • Не показывать описания категорий на страницах пагинации
УжасноПлохоНормальноХорошоОтлично (Пока оценок нет)