С 10:00 до 20:00

8 (800) 551-20-99

Скопировать

info@appfox.ru

Скопировать

С 10:00 до 21:00

Бесплатно по России

Заполнить бриф

Онлайн заявка

#

Как найти и устранить дубли страниц сайта?

Редакция Appfox

Редакция Appfox

Время чтения: 7 минут

Дублирование контента на сайте - полное или частичное - приводит к ряду проблем. Поисковикам становится сложнее индексировать и ранжировать страницы, ухудшаются поведенческие факторы, появляется риск попадания под фильтры. Поэтому дубликаты необходимо постоянно отслеживать и вовремя удалять.

Поиск и удаление дублей страниц сайта

Виды дублей

Не все дубли одинаковы. Обычно их разделяют на два вида - полные и частичные. Рассмотрим каждый из них подробнее.

Полные дубли

Что такое полные дубли страниц сайта?

Это страницы, у которых полностью совпадает содержимое, но отличаются url-адреса. К таким дублям относятся:

  1. страницы с www и без www;
  2. версия сайта на http и https протоколах;
  3. url со слешем в конце и без;
  4. технические дубли - index.php, index.html, default.aspx и другие;
  5. адреса с utm метками для отслеживания статистики посещаемости;
  6. url с метками для реферальной программы (при которой пользователь получает бонусы, если приводит новых клиентов);
  7. дубли, возникающие из-за ошибок в иерархии - характерны для интернет-магазинов, когда карточки товаров повторяются в разных разделах;
  8. дубликаты, возникающие из-за неправильной настройки 404-й страницы.

Неполные дубли

Это частичное копирование информации на страницах с разными адресами. Например:

  • повторы категорийных текстов на url-ах каталога, генерирующихся при применении фильтров или пагинации;
  • дублирование характеристик в карточках похожих товаров;
  • отзывы покупателей, размещающиеся в карточках товара и на отдельной странице;
  • скопированные контентные блоки на страницах услуг ( такие как “О нас”, “Наши преимущества” и т.п).

Почему они могут возникать?

  1. Автоматическая генерация из CMS.

Система управления сайтом может создавать технические дубли категорийных страниц или карточек товаров.

  1. Изменения структуры.

При смене url-ов разделов сайта необходимо корректно прописать 301 редиректы. Иначе страница будет открываться по новому и по старому адресу одновременно.

  1. Неправильная работа 404 страницы.

Из-за технической ошибки неправильно набранные url могут копировать контент с существующих страниц и попадать в индекс.

  1. Изначально некорректная структура.

Некоторые карточки могут загружаться в разные разделы и открываться под разными адресами.

  1. Незакрытые зеркала.

Для поисковиков сайты https://www.example.com и http://example.com - два отдельных ресурса, хоть и содержимое у них идентично. Такие дубликаты необходимо “склеивать” 301 редиректом еще до основного запуска сайта.

Чем опасны для сайта?

  1. Затруднение индексации.

У поисковых систем есть так называемый краулинговый бюджет - ограничение на количество проиндексированных url в сутки. Если роботы обрабатывают много дубликатов, правильным страницам становится сложнее попасть в индекс.

  1. Проблемы с определением релевантности.

Поисковикам трудно понять, какую из двух страниц с идентичным контентом считать релевантной запросу пользователей. Из-за этого сайт в среднем хуже ранжируется в выдаче.

  1. Неправильное распределение ссылочного веса.

Пользователи могут ставить внешние ссылки на дублирующий url вместо основной страницы.

  1. Угроза санкций.

Из-за большого количества неоригинального контента поисковики могут отправить сайт под фильтры и исключить из выдачи.

Как найти?

Как найти дубли страниц сайта?

Выявить дубликаты можно разными способами.

  1. С помощью краулеров, таких как Netpeak Spider, Screaming Frog, Megaindex. Программа сканирует весь сайт и помечает обнаруженные дубли.
  2. Если ресурс небольшой, страницы можно проверить вручную, используя специальный оператор. В строке поиска Google или Яндекс нужно ввести команду site: и адрес сайта. В выдаче появится список всех url с заголовками и описаниями.
  3. Перед оператором из предыдущего пункта можно добавить фрагмент текста. Тогда в результатах поиска отобразятся все страницы, на которых содержится этот фрагмент.
  4. Через расширенный поиск Google. Если ввести адрес конкретной страницы, можно увидеть ее дубликаты со схожими адресами.
  5. C помощью панелей вебмастеров. В Яндекс.Вебмастере для этого нужно зайти в разделы “Индексирование” и “Заголовки и описания”, а в Google Search Console - “Покрытие”.
  6. Найти дубликаты текстов как на внешних источниках, так и внутри сайта можно с помощью проверки на антиплагиат от text.ru или Content Watch.

Как устранить

Как удалить дубли страниц сайта?

Способ устранения дубля зависит от его вида и причины появления.

  1. Запрет через директиву в robots.txt.

Подходит для массовых дублирований, например, фильтров в каталоге. Чтобы исключить из индекса все повторяющиеся страницы, нужно прописать правило для общей части их адресов (Disallow: *filter*). При этом важно следить, чтобы под запрет не попали посадочные url.

  1. 301 редирект.

С его помощью склеивают зеркала или меняют структуру сайта. Устанавливаются редиректы, как правило, через файл .htaccess.

  1. Тег rel=”canonical”.

Строка с этим тегом в html коде страницы сообщает роботу Google адрес канонической, то есть, основной страницы. Так можно закрывать от индексации адреса с utm-метками, пагинации или отдельные страницы/разделы.

  1. Тег meta name="robots".

Прямая инструкция для робота, прописываемая в html. Подойдет для страниц печати или технических дублей.

В студии AppFox можно подать заявку на программирование, создание игр или заказать разработку приложений https://appfox.ru и получить бесплатную консультацию по ценам и услугам.

Автор

Редакция Appfox

Редакция Appfox

# # # Калькулятор