Что такое дубли страниц сайта, как найти и устранить

Время чтения: 7 минут

Оглавление

Виды дублей
- Полные дубли
- Неполные дубли
Почему они могут возникать?
Чем опасны для сайта?
Как найти?
Как устранить

Дублирование контента на сайте - полное или частичное - приводит к ряду проблем. Поисковикам становится сложнее индексировать и ранжировать страницы, ухудшаются поведенческие факторы, появляется риск попадания под фильтры. Поэтому дубликаты необходимо постоянно отслеживать и вовремя удалять.

Виды дублей

Не все дубли одинаковы. Обычно их разделяют на два вида - полные и частичные. Рассмотрим каждый из них подробнее.

Полные дубли

Это страницы, у которых полностью совпадает содержимое, но отличаются url-адреса. К таким дублям относятся:

страницы с www и без www;
версия сайта на http и https протоколах;
url со слешем в конце и без;
технические дубли - index.php, index.html, default.aspx и другие;
адреса с utm метками для отслеживания статистики посещаемости;
url с метками для реферальной программы (при которой пользователь получает бонусы, если приводит новых клиентов);
дубли, возникающие из-за ошибок в иерархии - характерны для интернет-магазинов, когда карточки товаров повторяются в разных разделах;
дубликаты, возникающие из-за неправильной настройки 404-й страницы.

Неполные дубли

Это частичное копирование информации на страницах с разными адресами. Например:

повторы категорийных текстов на url-ах каталога, генерирующихся при применении фильтров или пагинации;
дублирование характеристик в карточках похожих товаров;
отзывы покупателей, размещающиеся в карточках товара и на отдельной странице;
скопированные контентные блоки на страницах услуг ( такие как “О нас”, “Наши преимущества” и т.п).

Почему они могут возникать?

Автоматическая генерация из CMS.

Система управления сайтом может создавать технические дубли категорийных страниц или карточек товаров.

Изменения структуры.

При смене url-ов разделов сайта необходимо корректно прописать 301 редиректы. Иначе страница будет открываться по новому и по старому адресу одновременно.

Неправильная работа 404 страницы.

Из-за технической ошибки неправильно набранные url могут копировать контент с существующих страниц и попадать в индекс.

Изначально некорректная структура.

Некоторые карточки могут загружаться в разные разделы и открываться под разными адресами.

Незакрытые зеркала.

Для поисковиков сайты https://www.example.com и http://example.com - два отдельных ресурса, хоть и содержимое у них идентично. Такие дубликаты необходимо “склеивать” 301 редиректом еще до основного запуска сайта.

Чем опасны для сайта?

Затруднение индексации.

У поисковых систем есть так называемый краулинговый бюджет - ограничение на количество проиндексированных url в сутки. Если роботы обрабатывают много дубликатов, правильным страницам становится сложнее попасть в индекс.

Проблемы с определением релевантности.

Поисковикам трудно понять, какую из двух страниц с идентичным контентом считать релевантной запросу пользователей. Из-за этого сайт в среднем хуже ранжируется в выдаче.

Неправильное распределение ссылочного веса.

Пользователи могут ставить внешние ссылки на дублирующий url вместо основной страницы.

Угроза санкций.

Из-за большого количества неоригинального контента поисковики могут отправить сайт под фильтры и исключить из выдачи.

Как найти?

Выявить дубликаты можно разными способами.

С помощью краулеров, таких как Netpeak Spider, Screaming Frog, Megaindex. Программа сканирует весь сайт и помечает обнаруженные дубли.
Если ресурс небольшой, страницы можно проверить вручную, используя специальный оператор. В строке поиска Google или Яндекс нужно ввести команду site: и адрес сайта. В выдаче появится список всех url с заголовками и описаниями.
Перед оператором из предыдущего пункта можно добавить фрагмент текста. Тогда в результатах поиска отобразятся все страницы, на которых содержится этот фрагмент.
Через расширенный поиск Google. Если ввести адрес конкретной страницы, можно увидеть ее дубликаты со схожими адресами.
C помощью панелей вебмастеров. В Яндекс.Вебмастере для этого нужно зайти в разделы “Индексирование” и “Заголовки и описания”, а в Google Search Console - “Покрытие”.
Найти дубликаты текстов как на внешних источниках, так и внутри сайта можно с помощью проверки на антиплагиат от text.ru или Content Watch.

Как устранить

Способ устранения дубля зависит от его вида и причины появления.

Запрет через директиву в robots.txt.

Подходит для массовых дублирований, например, фильтров в каталоге. Чтобы исключить из индекса все повторяющиеся страницы, нужно прописать правило для общей части их адресов (Disallow: *filter*). При этом важно следить, чтобы под запрет не попали посадочные url.

301 редирект.

С его помощью склеивают зеркала или меняют структуру сайта. Устанавливаются редиректы, как правило, через файл .htaccess.

Тег rel=”canonical”.

Строка с этим тегом в html коде страницы сообщает роботу Google адрес канонической, то есть, основной страницы. Так можно закрывать от индексации адреса с utm-метками, пагинации или отдельные страницы/разделы.

Тег meta name="robots".

Прямая инструкция для робота, прописываемая в html. Подойдет для страниц печати или технических дублей.

В студии AppFox можно подать заявку на программирование, создание игр или заказать разработку приложений https://appfox.ru и получить бесплатную консультацию по ценам и услугам.

Как найти и устранить дубли страниц сайта?