Оглавление
Время чтения: 7 минут
Дублирование контента на сайте - полное или частичное - приводит к ряду проблем. Поисковикам становится сложнее индексировать и ранжировать страницы, ухудшаются поведенческие факторы, появляется риск попадания под фильтры. Поэтому дубликаты необходимо постоянно отслеживать и вовремя удалять.

Виды дублей
Не все дубли одинаковы. Обычно их разделяют на два вида - полные и частичные. Рассмотрим каждый из них подробнее.
Полные дубли

Это страницы, у которых полностью совпадает содержимое, но отличаются url-адреса. К таким дублям относятся:
- страницы с www и без www;
- версия сайта на http и https протоколах;
- url со слешем в конце и без;
- технические дубли - index.php, index.html, default.aspx и другие;
- адреса с utm метками для отслеживания статистики посещаемости;
- url с метками для реферальной программы (при которой пользователь получает бонусы, если приводит новых клиентов);
- дубли, возникающие из-за ошибок в иерархии - характерны для интернет-магазинов, когда карточки товаров повторяются в разных разделах;
- дубликаты, возникающие из-за неправильной настройки 404-й страницы.
Неполные дубли
Это частичное копирование информации на страницах с разными адресами. Например:
- повторы категорийных текстов на url-ах каталога, генерирующихся при применении фильтров или пагинации;
- дублирование характеристик в карточках похожих товаров;
- отзывы покупателей, размещающиеся в карточках товара и на отдельной странице;
- скопированные контентные блоки на страницах услуг ( такие как “О нас”, “Наши преимущества” и т.п).
Почему они могут возникать?
- Автоматическая генерация из CMS.
Система управления сайтом может создавать технические дубли категорийных страниц или карточек товаров.
- Изменения структуры.
При смене url-ов разделов сайта необходимо корректно прописать 301 редиректы. Иначе страница будет открываться по новому и по старому адресу одновременно.
- Неправильная работа 404 страницы.
Из-за технической ошибки неправильно набранные url могут копировать контент с существующих страниц и попадать в индекс.
- Изначально некорректная структура.
Некоторые карточки могут загружаться в разные разделы и открываться под разными адресами.
- Незакрытые зеркала.
Для поисковиков сайты https://www.example.com и http://example.com - два отдельных ресурса, хоть и содержимое у них идентично. Такие дубликаты необходимо “склеивать” 301 редиректом еще до основного запуска сайта.
Чем опасны для сайта?
- Затруднение индексации.
У поисковых систем есть так называемый краулинговый бюджет - ограничение на количество проиндексированных url в сутки. Если роботы обрабатывают много дубликатов, правильным страницам становится сложнее попасть в индекс.
- Проблемы с определением релевантности.
Поисковикам трудно понять, какую из двух страниц с идентичным контентом считать релевантной запросу пользователей. Из-за этого сайт в среднем хуже ранжируется в выдаче.
- Неправильное распределение ссылочного веса.
Пользователи могут ставить внешние ссылки на дублирующий url вместо основной страницы.
- Угроза санкций.
Из-за большого количества неоригинального контента поисковики могут отправить сайт под фильтры и исключить из выдачи.
Как найти?

Выявить дубликаты можно разными способами.
- С помощью краулеров, таких как Netpeak Spider, Screaming Frog, Megaindex. Программа сканирует весь сайт и помечает обнаруженные дубли.
- Если ресурс небольшой, страницы можно проверить вручную, используя специальный оператор. В строке поиска Google или Яндекс нужно ввести команду site: и адрес сайта. В выдаче появится список всех url с заголовками и описаниями.
- Перед оператором из предыдущего пункта можно добавить фрагмент текста. Тогда в результатах поиска отобразятся все страницы, на которых содержится этот фрагмент.
- Через расширенный поиск Google. Если ввести адрес конкретной страницы, можно увидеть ее дубликаты со схожими адресами.
- C помощью панелей вебмастеров. В Яндекс.Вебмастере для этого нужно зайти в разделы “Индексирование” и “Заголовки и описания”, а в Google Search Console - “Покрытие”.
- Найти дубликаты текстов как на внешних источниках, так и внутри сайта можно с помощью проверки на антиплагиат от text.ru или Content Watch.
Как устранить

Способ устранения дубля зависит от его вида и причины появления.
- Запрет через директиву в robots.txt.
Подходит для массовых дублирований, например, фильтров в каталоге. Чтобы исключить из индекса все повторяющиеся страницы, нужно прописать правило для общей части их адресов (Disallow: *filter*). При этом важно следить, чтобы под запрет не попали посадочные url.
- 301 редирект.
С его помощью склеивают зеркала или меняют структуру сайта. Устанавливаются редиректы, как правило, через файл .htaccess.
- Тег rel=”canonical”.
Строка с этим тегом в html коде страницы сообщает роботу Google адрес канонической, то есть, основной страницы. Так можно закрывать от индексации адреса с utm-метками, пагинации или отдельные страницы/разделы.
- Тег meta name="robots".
Прямая инструкция для робота, прописываемая в html. Подойдет для страниц печати или технических дублей.
В студии AppFox можно подать заявку на программирование, создание игр или заказать разработку приложений https://appfox.ru и получить бесплатную консультацию по ценам и услугам.