Как убрать дубли страниц в wordpress
Осторожно! WordPress создает много дублей!
Всем привет! На днях обнаружил баг в WordPress, который создает бесчисленное множество дублей страниц. Проблема касается всех, у кого есть сайты на этой CMS. Да-да, многими любимый движок может создать большое количество идентичных документов.
В связи с недавними баден-баденовскими событиями начал плотно изучать информацию в Яндекс.Вебмастере. Анализировал сводку по индексированию («Страницы в поиске»). Искал связь между пометками «Некачественная страница» и наложением фильтра за переоптимизацию.
И вот, зайдя в статистику для блога, был неприятно шокирован — сотни дублей несуществующих документов.
Оказывается, если к любому посту в блоге добавить любые цифры, то WordPress создаст такую страницу — она будет идентична основной записи. Баг с постраничной навигацией отдельных постов — сотни или тысячи вероятных дублей.
На таких страницах нет мета-тега robots и есть canonical, который в качестве канонического документа указывает именно дубль.
Проверьте, у вас также?
Усугубляет ситуацию связь с плагином All in one SEO pack, который дополнительно дает ссылку на предыдущую запись: поисковый робот не только заходит, по сути, на несуществующую страницу, но и начинает ходить по другим таким же. Добавлялось и удалялось сотни подобных «постов».
Что делать и как убрать дубли?
Сперва, хочу сказать, что в одной из ближайших версий вордпресса этот баг постараются исправить.
1) Плагин After Last Page Fix от Белотицкого Юрия. Скачать можно здесь. Установка в один клик, настроек нет. Скрипт вместо создания множества дублированных документов отдает 404-ошибку. На мой взгляд, самый удачный вариант. Недостатки:
2) Дополнительная настройка All in One SEO Pack. Разработчики этого плагина, скорее всего, оказались в курсе данного бага и в новых версиях появились дополнительные чекбоксы.
Несуществующие записи будут создаваться, но в них будет указан мета-тег robots, запрещающий их индексирование.
Избежать дублирование страниц в WordPress без плагинов
Дублирование страниц в WordPress
Доступ к одной и той же статье на блоге WordPress можно получить c разных URL адресов. Например, открыть главную страницу можно со следующих адресов:
Все эти адреса можно считать альтернативными и все они, по сути, дубли одной страницы. Для поисковиков эти URL разные и все свойства URL, в том числе Page Rang и связанные с ним SEO сигналы “распыляются” по всем дублям. Получается ситуация при которой страницы-дубли конкурируют между собой в поисковой выдаче. А это “не есть хорошо”.
Запрещаем дублирование страниц в WordPress без плагинов
Чтобы решить эту проблему, нужно указать один приоритетный URL, который называется каноническим.
Тег link rel “canonical”
Борьба с дублями страниц сайта занимает важное место в оптимизации ресурса. Причем эта борьба осложняется, тем что у каждого поисковика свои стандарты по восприятию дублей.
Ссылка на канонический URL
По правилам Google, возможно указание относительного URL адреса, например:
В качестве канонического URL можно указать любое URL в пределах всех подобластей одного домена. Например: домены www.example.edu; helps.example.edu; можно указать как канонические для домена example.edu.
Как указать канонический URL в WordPress без плагина
В WordPress этот тег реализуется следующей формой канонического перенаправления:
Указать канонический URL на блоге WordPress достаточно просто без плагинов. Для этого:
Авторизуемся и входит в административную панель сайта;
И добавляем перед ней такой код:
Выглядит это приблизительно так:
Вот и все! Канонический URL указан для всех страниц блога WP.
Заключение про дублирование страниц в WordPress
Любой SEO плагин решит проблему канонического адреса гораздо проще.
Как избавиться от дублей WordPress
Избавимся от дублей страниц!
Якорь «читать далее…» (страница с пометкой «more» ) — есть ни что иное как дублированные страницы, эдакий анонс — дублированный контент другой страницы. Сайт (или блог) платформы WordPress, если он создан для продажи ссылок с Сапы, такой дублированный контент даже полезен, потому что вместо 200 страниц в индексе поисковиков находится 1000 страниц. Если блог создан с иной целью — для продвижения по поисковым запросам, от дублированных страниц лучше избавляться.
Есть два способа избавиться от дублей WordPress
Избавиться от дублей в отдельном шаблоне
1. От якоря «more» избавляемся через добавление функции в шаблон сайта.
Для этого, заходим в корневой каталог сайта
Открываем в корневой папке шаблона файл functions.php
Добавляем функцию:
function no_more_jumping($post) < return ‘ID).'»>’.’Читать далее
»’.’’; > add_filter(‘the_content_more_link’, ‘no_more_jumping’);
Избавляемся от дублированных страниц в целом, а не в отдельно взятом шаблоне
2. От якоря «more» избавляемcя через добавление функции — в WordPress (этот способ хорош тем, что данная функция действует, вне зависимости от того, какой шаблон используется на сайте)
Через файл post-template.php
Вот, собственно, и вся работа по избавлению от дублированных страниц (анонса, дублированного контента). Но есть еще и другой вид дубляжа: черновики, копии страниц, которые создаются каждый раз при редактировании записей, копии страниц с комментариями. Все это и многое другое, все дублированные страницы висят мертвым грузом на сайте — этот баласт нужно сбрасывать!
Удаление дублей WordPress при помощи плагина
Есть плагин-чистильщик! Плагин «WP-Optimize»
Установите его на блог. Он настроек не требует — прост в обращении.
Плагин уберёт любой мусор из блога, как только вы ему это поручите. Он очень хороший чистильщик! Когда он удалит все «завалы» из таблиц и баз, так сайт сразу повеселеет. Удаляет этот Оптимизатор всю накопившуюся свалку одним кликом мышкой по нему. В открывшемся окошке плагина расставляете птички-галочки и жмете на кнопку «Очистить».
На удаление дублированных страниц у плагина уходит всего несколько секунд. После чего, в верхнем левом углу появляется запись, сколько и чего было удалено за одно действие.
Уборку помещений делать необходимо, с этим никто никогда не спорит. Делать уборку своих сайтов тоже периодически необходимо. Избавляться от дублей и расчищать территорию от мусора — это по-сути, одно и тоже.
P.S. Поделись со мной своими мыслями вслух, оставь свой комментарий! Мне кажется, что если сейчас эта проблема «лишнего баласта» перед сайтом остро не стоит, то это только до поры — до времени. Наступает момент, когда сервер станет перегруженным «дальше некуда» и сайт начнет работать неповоротливо, а загрузка страниц будет происходить всё медленнее. В один, не самый прекрасный день, вы получите уведомление от вашего хостинг-провайдера, что лимит базы исчерпан и нужно расширять DNS, менять тарифы. Мы с вами знаем, что есть иной способ — Сайт можно оптимизировать, облегчить.
Как найти и удалить дубли страниц онлайн на сайте в WordPress
Как удалить дубли страниц и что это такое
Естественно, поисковые компании не хотят платить лишних денег за обработку одной и той же информации два, а то и несколько раз. Поэтому сайты, имеющие дубли страниц и дублированный контент, в случае их обнаружения поисковыми системами (что часто и бывает) подвергаются различным санкциям.
В общем плане считается, что сайты с дублями, с точки зрения поисковых систем, являются менее информационно ценными и полезными для людей. Соответственно, снижаются перспективы успешного продвижения в ТОП10 и привлечения хорошего трафика.
Кроме того, поисковые алгоритмы все еще не абсолютно совершенны. Зачастую в результате канонической (основной) посадочной страницы поисковые роботы выбирают дубль, случайно оказавшийся первым в поле внимания.
В результате ошибочного назначения канонической страницы ресурс требует ссылочную массу, ухудшается поисковое продвижение. Потенциальные клиенты попадают из поиска не на сервисную или продающую страницу, а на дубль и это приводит к снижению качества продаж.
Большое число одинаковых страниц увеличивает потребление программно-аппаратного ресурса на сервере хостинг-провайдера, из-за чего нормальная работа сайта оказывается затруднена. В этом случае дубли могут привести к необходимости переходить на более дорогой тариф хостинговых услуг.
Неопрятности, возникающие из-за появления дублей на сайте, можно еще долго перечислять. Важно разобраться с вопросом – как найти и удалить дубли страниц практически?
Причины возникновения дублей веб-страниц
Приводит к появлению одинаковых или очень похожих веб-страниц могут как ошибки человеческого фактора, так и технические проблемы.
Больше всего нареканий со стороны веб-мастеров в отношении дублирования к самой популярной в мире CMS WordPress. В частности, при использовании функции пагинации на сайтах, движок Вордпресс оформляет страниц так, что с точки зрения поисковых алгоритмов они выглядят как дубли.
Опытные блогеры и веб-разработчики время от времени публикуют статьи, в которых рассказывается, как устранить проблему создания дублирующих страниц и контента в том или ином плагине.
Однако решить проблему дублирования для абсолютно всех плагинов Вордпресс нереально – слишком много и часто создаются расширения и дополнения для этой самой распространенной системы управления сайтами. Зачастую плагины разрабатываются независимыми программистами, а исходный код дополнения не публикуется в открытом доступе.
В итоге, задачу найти и удалить дубли на сайте приходится решать вручную либо при помощи различных SEO-приложений и онлайн-сервисов.
Способы обнаружения дублей и удаления на сайта
Для масштабных интернет-ресурсов с тысячами страниц основная задача – максимально автоматизировать процесс и избавиться от ручного просмотра всех разделов ресурса в поисках повторений.
Следует учитывать и то, что для поисковых роботов-индексаторов дублями будут являться не полные клоны (реплики) веб-страниц, но повторяющиеся мета-теги Title, Description, совпадающие фрагменты текста (низкая уникальность), похожие URL-адреса. Как вы понимаете, если все эти параметры проверять вручную – на это уйдет слишком много времени, которого веб-мастерам и администраторам сайтов и так всегда не хватает.
Поэтому чтобы найти дублированные элементы используется специальное программное обеспечение.
Здесь можно упомянуть качественный софт от авторитетного американского SEO-блогера и цифрового антрепренера Нила Пателя (Neil Patel) приложение для анализа сайтов «Screaming Frog SEO Spider».
Сторонние SEO-сервисы и приложения могут только находить дублирования на сайте, но не имеют возможностей их удалять, поскольку для редактирования сайта требуются права администратора. После составления списка адресов дублей администратору предстоит вручную заняться редактированием сайта и удалением дублированный.
В этом смысле более удобны в работе устанавливаемые в CMS плагины и SEO-модули в составе инструментов конструкторов сайтов. В этих случаях поиск и уничтожение дублей может происходить «одним кликом».
Чтобы наглядно разобраться, как осуществляется проверка сайта на наличие дублей, можно рассмотреть некоторые из упомянутых в списке инструментов отдельно.
Онлайн-сервис поиска дублей, битых ссылок и прочего
Результаты исследования оформлены в виде таблицы.
В таблице указано количество сходных страниц, процент сходства, URL-адреса дублей. Полученные данные можно импортировать в различные форматы документов и скачать на компьютер для дальнейшего подробного рассмотрения.
Дается вывод относительно текущего состояния ресурса:
Состояние неплохое – если в среднем по всемирной сети сайты имеют около 14% дублирования, то наш испытуемый ресурс – всего 5%.
Кликнув по ссылке на станицу можно изучить подробности, что именно и где повторяется.
Дополнительно сервис находит битые (неработающие, ведущие на несуществующие страницы) гиперссылки. Веб-страницы и контент, запрещенные к индексации при помощи тега Noindex и указанные в файле Robots.txt при сканировании пропускаются.
Trash Duplicate and 301 Redirect для WordPress
SEO-дополнение для движка WordPress, с помощью которого можно автоматизировать следующие задачи:
Для установки этого плагина требуется подписка на Бизнес-тариф сервисов Вордпресс. В реальности, пресловутая «бесплатность» здесь очень ограничена и создаваемые за 5 минут сайты на WordPress годятся разве что для персонального блога с нулевой посещаемостью.
Если вы хотите по-настоящему заниматься цифровым бизнесом на сайте Powered by WordPress, в любом случае придется инвестировать в профессиональные темы [/mask_link], плагины, и прочие возможности.
Чтобы установить плагин Trash Duplicate нужно перейти в раздел «Plagins Manage».
Ввести в строку поиска название расширения и кликнуть по значку для запуска процесса инсталляции.
После установки запускается сканирование и по результатам формируется список.
Теперь можно отметить галочками нежелательные или ошибочные публикации и сразу все удалить.
Поиск и удаление дублей в Яндекс.Вебмастере
В раздел «Статистика индексации» можно посмотреть отчет о страницах, которые были по каким-то причинам исключены из поиска. В одном из столбцов таблицы указана причина отказа от включения веб-страницы в базу поисковой системы.
Часть страниц обозначена как «неканонические», а часть прямо отмечена как «дубли».
Теперь дублированные посты можно либо удалить, либо установить на них редиректы. В разделе «Инструменты» имеется возможность указать URL нежелательных публикаций и пакетом их удалить из поиска. Следует понимать, что на сайте эти страницы останутся, просто перестанут индексироваться и участвовать в поиске по запросам.
Альтернативно можно указать для поисковых роботов канонические страницы при помощи атрибута rel=»canonical». Вот как эта процедура описана в Помощи к Яндекс.Вебмастеру:
Исследуемый сайт у нас как раз на WordPress и выше мы рассмотрели, как найти и удалить дубли страниц онлайн при помощи инструментов, предоставленных поисковой системой.
Заключение
Как видите, возможностей и способов найти и удалить дубли страниц онлайн на сайте в WordPress существует много. Конкретный выбор инструментов зависит от особенностей интернет-ресурса и предпочтений веб-мастера.
А на этом я буду закруглятся. А вы как ищите и удаляете дубли страниц у себя на сайте? Напишите своё решение проблемы в комментариях. И конечно, если хотите быть профессиональным веб-мастером, обязательно подпишитесь на обновление моего блога. До встречи, друзья.
Бала ли вам статья полезной?
Как убрать дубли страниц на wordpress
Приветствую всех читателей блога!
Сегодня я расскажу, как за дубли страниц на wordpress блоге, часто попадают по АГС или БАН, начинающие владельцы сайтов, выбравшие эту sms для своего блога. В этом посте, Вы узнаете, как убрать дубли страниц с помощью файла robots.txt из индекса Яндекс и Google.
Но сначала я кратко расскажу о том, почему появляются дубли страниц на сайте, а затем, как решить эту проблему. Если предисловие читать не хотите, то можете сразу перейти ко второй части статьи.
Что такое дубли страниц на сайте
Самый распространённый движок wordpress, выбирают большинство пользователей для своих сайтов за его простоту, надёжность и богатый внутренний функционал. Но вместе с этой простотой, на wordpress, есть несколько недостатков, которые «недостатками» являются только для начинающих пользователей, до конца не изучивших все возможности и недостатки этой платформы.
Поэтому для всех, кто не знает, поясняю, что wordpress имеет технические свойства генерировать много дубликатов одних и тех же статей, каждая из которых, находится в категориях, метках, архивах по месяцам и по авторам. Дублируются ещё и странички из поисковой формы блога и пагинации, новостной ленты новостей RSS и дубли страниц комментариев.
Ничего не подозревающие пользователи, создавали сайт на этом движке, начинали наполнять его контентом и через некоторое, время обнаруживали, что их интернет ресурс, наказан и в поиске, осталось от 1 до 9 страниц.
Появление дубликатов страниц, поисковые алгоритмы расценили, как сайт, создающийся для торговли ссылками. Хотя, при этом, он ни в каких ссылочных биржах участвовал, то есть не продавал и не покупал ссылки с сайта и на сайт.
Как убрать дубли страниц
На самом деле ответ на вопрос, как убрать дубли страниц, простой. Для этого в файле robots.txt, нужно запретить индексацию того, чего не нужно «скармливать» в индекс ПС (смотрите список ниже). Вот и всё!
Как составить файл robots.txt я рассказывал в статье, ссылку на которую только что указал. Там же, Вы узнаете, что обозначает каждая строчка, и что мы запрещаем к индексации.
Типы дублей страниц:
Из всего этого количества, можно не закрывать для индексации категории.
Обязательно нужно настроить редирект с www.nuzhnaya-infa.ru на nuzhnaya-infa.ru и наоборот. Прямо сейчас, можете это проверить следующим образом. В строке браузера, наберите адрес сайта с www перед названием домена, то есть www.nuzhnaya-infa.ru (только используйте Ваш домен).
Если всё нормально, то домен будет без www. Если у сайта доменов много, то с них делайте редирект на главное зеркало сайта.
Если установлен плагин All in One Seo Pack, а он должен быть обязательно установлен, то в настройках, обязательно поставьте галочки в чекбоксе «Канонические URL’ы».
Если заметили, что в индексе Google у Вас проиндексировано больше страниц, чем есть на самом деле, то нужно сделать следующее. Заходите в админ панели на вкладку «Параметры», «Обсуждение» и здесь обязательно (настоятельно рекомендую) снимите галочку напротив пункта «Разбивать комментарии верхнего уровня на страницы».
Если этого не сделать, то у каждого комментария, будет отдельная страница дубль со своим url адресом (replytocom), которая появляется, при нажатии на кнопку формы комментирования «Ответить», когда включены древовидные комментарии, которые нужно так же отключить. Иначе, сколько будет комментариев у отдельно взятой статьи, столько же и её дублей.
Проверить в Google дубли страниц с комментариями, можно введя url адрес своего блога, с приставкой site: перед доменом и replytocom после него. На скриншоте ниже, Вы можете видеть результат проверки моего блога. Как видите, всё в порядке.
Это нужно сделать даже в том случае, если стоит запрет в файле robots.txt. Дело в том, что ПС Google, всё равно проиндексирует то, что запрещено к индексации. Из за этого, многие блоги, попадают под всем известный фильтр Панда (об этом, читайте в фильтры ПС Google).
Надеюсь, что после прочтения этой статьи, Вы знаете, как удалить дубли страниц. А после того, как примените все полученные знания на своём блоге, то если сделали всё так как нужно, то после индексации, кол-во страниц в индексе Google, должно уменьшится.
И ещё раз напоминаю, что в wordpress дубли страниц, появляются из за технических особенностей этого движка и появляются только в Google, решить которые я рассказал в Способах 2, 3 и 4.