Как убрать дубли страниц joomla 3
Перейти к содержимому

Как убрать дубли страниц joomla 3

  • автор:

Дублирование страниц в Joomla: причины, частые ошибки и их решение

Каждый, кто создает сайт на Joomla рано или поздно сталкивается с проблемой дубликатов страниц сайта. Давайте посмотрим на эту проблему изнутри, разберемся, что это за дублирующиеся страницы, как поисковые системы реагируют на такие страницы и как не запутаться в дубликатах страниц.

Дубликаты страниц – что это.

Дубликаты страницы – идентичные страницы, доступные по разным URL на вашем сайте. Вообще, дублирующиеся страниц – уязвимое место во многих системах управления контентом, не только в Joomla. Подобные страницы совершенно безвредны пока дело не касается их индексирования поисковыми роботами. Если вы следите за индексированием страниц своего сайта и хотите свести до минимума появление дубликатов страниц в результатах поиска, то следует хорошо продумать структуру сайта.

Ведь главная причина появления дублирующихся страниц – неправильная структура сайта. Первое, что надо продумать – иерархию категорий и пунктов меню. Если вы заранее создадите категории (которые, возможно понадобятся в будущем), то вы сможете избежать появления дубликатов страниц.

Рассмотрим эту ошибку на примере. Предположим, у вас на сайте есть категория «Новости» с подкатегориями «Политика», «Экономика» и т.д. Все публикуемые материалы вы размещаете в подкатегориях. Если вы создадите пункты меню только для дочерних категории, то материал будет иметь такой адрес:

Вариантов образования таких URL масса, и все это будут URL одной и той же страницы. Это пример того, как делать не надо. Еще одна проблема дубликатов страниц – это то, что поисковые системы индексируют технические копии документов по ссылкам «Печать», «PDF», «Поделиться с друзьями».

Когда вы только начинаете планировать свой сайт, не пожалейте времени и хорошенько продумайте его структуру, определите основные категории и подкатегории. Тогда с развитием сайта не нужно будет менять структуру, вы просто добавите дополнительные секции, если это будет необходимо. Реструктурирование уже существующего (активно развивающегося) сайта – вещь неблагодарная: займет уйму времени, да и к тому же сайт гарантированно потеряет имеющиеся позиции в списке результатов поиска (потому что многие страницы, если не все, поменяют свой адрес), что приведет к падению посещаемости.

Как поисковые системы находят дубликаты страниц?

Виновниками здесь выступают сторонние расширения и компоненты, которые разработчики активно устанавливают на свои Joomla-сайты. К примеру, модуль новостей на главной странице может выдавать различные адреса одного и того же материала. Дублирующиеся страницы можно посмотреть по карте сайта, если установлен компонент Xmap. Если ваш сайт уже проиндексирован, то найти дубликаты страниц не так уж и сложно – достаточно скопировать пару уникальных предложений со страницы и вставить этот материал в кавычках в поисковом запросе Google. Если ваш сайт еще не проиндексирован, то помочь вам может XENU (при условии, что сайт ваш не велик). XENU найдет всевозможные ссылки сайта.

Почему следует избегать дубликатов страниц?

Поисковые системы не любят и стараются не индексировать сайты с большим количеством дублирующихся страниц. Необходимость в выводе таких страниц в результатах поиска весьма сомнительна. При оптимизации страниц по ключевым словам выбираются наиболее подходящие страницы сайта и их содержимое оптимизируется. Если эти страницы имеют дупликаты, то при очередном обновлении поисковые системы могут спутать дублирующуюся страницу с основной, что приведет к резкому падению позиций и оседанию трафика.

6 способов избежать дублирующихся страниц

Каждый сайт по-своему уникален и не хотелось бы оставлять какой-то за бортом. Рассмотрим наиболее популярные методы, которые помогут в 99,9% случаях. Можете использовать любой понравившийся вариант или скомбирировать сразу несколько из них. Эти методы подойдут и для других систем управления контентом.

Все эти методы сработают, если у вас включены стандартные SEF и перенаправление URL в глобальных настройках Joomla.

1. Плагин StyleWare Content Canonical.

Этот плагин решает проблему нескольких URL одной и той же страницы. Так что если у вас есть, к примеру, страница с двумя URL component/content/article/32-something.html и something.html, оба URL будут индексироваться с одного URL (something.html).

2. Файл Robots.txt.

Этот файл входит в стандартный пакет Joomla, находится в корневой директории по адресу yourwebsite.com/robots.txt. В robots.txt прописана инструкция для поисковой системы о том, как индексировать сайт. С помощью этого файла можно отключить части сайта. Сделать это можно с помощью строки:

Disallow: /*? #каждая ссылка, содержащая символ ? не будет индексироваться *

Лишь одна строка избавит вас от большого количества проблемных ссылок, таких как:

  • материалы для печати;
  • ссылка на rss-ленту;
  • результаты поиска на странице сайта;
  • нумерация страниц;
  • а также от других проблем, в зависимости от установленных расширений;

Использовать такую строку или нет — решать вам. Помните, что слишком большой файл robots.txt считается полностью разрешающим. Следите за тем, чтобы случайно не закрыть важные страницы сайта.

3. Перенаправление 301.

Действует тогда, когда у существующих страниц поменялись URL. Подобное перенаправление прописывается в файле .htaccess. Поисковые системы будут тогда знать, что документ перемещен на другой адрес. Этот метод позволяет сохранить индексируемость и посещаемость, а также PageRank.

Перенаправление 301 также используется и для склеивания дублирующихся страниц. Например, хорошо всем известные дубликаты главной страницы Joomla-сайтов: /home или /homepage. Откройте файл .htaccess и введите там строку:

Redirect 301 /index.phphttp://site.com/

Также перенаправление 301 можно прописать в файле index.php следующим образом:

Ниже приведен классический пример URL сайта с и без www:

RewriteCond % ^www.example.com$ [NC]

RewriteRule ^(.*)$ http://example.com/$1 [R=301,L]

* example.com замените на URL своего сайта.

4. Мета-тег «robots».

Еще один способ борьбы с появлением дубликатов страниц – использование мета-тега «robots»:

Этот метод работает в Google теперь намного лучше, чем блокирующие команды в файле robots.txt.

Для того чтобы скрыть результаты поиска при использовании стандартного компонента com_search, нужно добавить в файл index.php вашего шаблона:

5. Удаление URL с помощью панели вебмастера.

Для сокращения дубликатов страниц, можно удалить URL этих страниц вручную в панели веб-мастера от Google.

6. Заголовки X-Robots-Tag.

Google рекомендует использовать X-Robots-Tag как альтернативу 4-му методу:

Date: Tue, 25 May 2010 21:42:43 GMT

Из вышеперечисленного становится ясно, что методов борьбы с дупликатами страниц много, надо просто понимать, как каждый из них работает, чтобы выбрать наиболее подходящий вариант.

Удаление дублей страниц на сайтах Joomla

Дубли – это одинаковые веб-страницы, доступные по разным URL-адресам. Виды дублей страниц:

  • дубли с www и без
  • дубли с https:// и без
  • дубли с символом «/» на конце
  • дубли с суффиксом .html
  • дубли с символом вопроса
  • дубли с index.php
  • дубли в формате RSS, PDF и для печати
  • дубли материалов компонента контента

Тип: услуга

Состав работ

  • Создание полной резервной копии текущего сайта (файлы + база данных)
  • Указание поисковым системам на актуальные страницы
  • Редиректы с помощью функционала Joomla
  • Редиректы через файл .htaccess
  • Настройка исключений в файле robots.txt
  • Указания на канонические URL-адреса
  • Настройки материалов контента – отключение генерации страниц RSS, PDF
  • Установка и настройка плагина JL No Doubles
  • Отчёт

Убираем дублирование страниц в CMS Joomla

Убираем дублирование страниц в CMS Joomla

Информация о материале Категория: Ресурсы

  • joomla
  • сайт

Дублирование страниц является одним из проблемных мест на работающих сайтах. По умолчанию проблема дублей страниц актуальна для всех CMS. Эта проблема не обошла CMS Joomla, где одно из слабых мест — дублирование страниц. Увидеть дубли можно, если на сайте одна и таже страница имеет разные ссылки. В большинстве случаев новичок, создавший сайт на Joomla не подозревает, что с появлением нового сайта, появились дубли созданных страниц. Осознание приходит со временем и опытом. К сожалению, нельзя создав сайт, не получить дубли страниц, но можно с этим поработать.

Прежде всего надо понимать, что дубли страниц мешают оптимизации сайта, а значит и его продвижению. Робот, проходящий по сайту, обнаруживает страницу и инексирует ее c определенной ссылкой. Затем снова встречает страницу с тем же содержанием, но имеющую уже другую ссылку. Возникает путаница. Какую ссылку выдавать по одному и тому же запросу. Поэтому поисковые системы стараются игнорировать дублированные страницы. Возможно будет происходить следующая ситуация, когда ссылка на страницу будет временами меняться, что сразу же повлечет за собой потерю трафика.

При создании сайта важно определиться с его структурой, с именами, которые вы даете меню, категориям, подкатегориям и именам статей. Это нужно для того, чтобы впоследствии не менялись соответственно имена ссылок на сайте. Нужно определиться, в каком виде должна быть конечная ссылка на статью. Далее нужно определиться с сайтом, будет это www, просто http или https.

Соответственно боремся с дублями страниц в CMS Joomla:

1. Прежде всего используем файл .htaccess, благодаря которому можно производить дополнительную конфигурацию веб-сервера (меняем название site.ru на свое имя).

RewriteEngine On

# перенаправление с www на https (если сайт доступен по https)
RewriteCond % ^www\.(.*) [NC]
RewriteRule ^(.*)$ https://%1/$1 [R=301,L]

# перенаправление с http на https:
RewriteCond % ^ site \ . ru [NC]
RewriteCond % ^http$
RewriteCond % off
RewriteRule (.*) https://%% [R=301,L]

# убираем полный дубль по адресу site.ru/index.php
RewriteCond % ^[A-Z]\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http:// site.ru / [R=301,L]

# 301 редирект на окончание .html
REDIRECTMATCH 301 (.*/[^/.]+)($|\?)$ http:// site.ru $1.html

# 301 редирект с .html на без .html
REDIRECTMATCH 301 (.*)\.html$ http://site.ru$1

2. Используем файл robot.txt, благодаря которому можно ограничить доступ роботу к содержимому сайта.

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /log/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /*tag
Disallow: /*print=1
Disallow: /*sovety-k/
Disallow: /*sovety/

User-agent: Yandex
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /log/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /*tag
Disallow: /*print=1
Disallow: /*sovety-k/
Disallow: /*sovety/

Host: site.ru
Sitemap: https:// site.ru /sitemap.xml

Можно использовать различные плагины для Joomla.

Дубли страниц в Joomla

Из данного руководства вы узнаете о том, что такое дубли страниц, как они мешают SEO-оптимизации сайта, какие виды дублей актуальны для Joomla и как с ними бороться.

Что такое дубли страниц?

Полезная информация!
Дублями считаются веб-страницы с одинаковым содержанием, доступные по разным URL-адресам.

Наличие дублей страниц на сайте может затруднить его продвижение в поисковой выдаче, поэтому устранение этой проблемы является одной из первостепенных задач в SEO-оптимизации.

Дублирование страниц присуще любой CMS , независимо от того, платная она или нет, и Joomla не исключение.

Пример дубля страницы на Joomla:

  • http://domen.ru/blog.html
  • http://domen.ru/blog
  • http://domen.ru/blog/
  • http://domen.ru/blog.html/

По всем четырем ссылкам будет открываться одна и та же страница. Представим ситуацию:

Пункт меню ведёт на открытие страницы A (http://site.ru/blog.html), и вы начинаете продвигать данную страницу (делаете перелинковку, продвигаете в социальных сетях, заказываете посты и прочее) с ссылкой на данную страницу. Но поисковая система не предсказуема, и есть вероятность, что будет проиндексирована страница B (http://site.ru/blog), на которую практически нет никаких усиливающих значимость страницы ссылок и сигналов, что сделает все усилия по продвижению страницы А тщетными.

И если у вас ёмкий многостраничный сайт, то управлять его индексированием будет весьма проблематично, учитывая, что поисковый алгоритм может индексировать множество непродвигаемых дублей.

Еще один факт: наличие дублей актуально не только для сайтов, работающих на CMS, и если вы считаете, что на вашем сайте их нет, то читайте дальше.

Какие виды дублей свойственны Joomla?

Существуют следующие виды дублей страниц:

  1. с www и без
  2. с https:// и без
  3. со слешем в конце
  4. с суффиксом расширения
  5. со символом вопроса
  6. с index.php
  7. в формате RSS, PDF и для печати
  8. свойственные компоненту контента
  9. из-за смены алиаса

Рассмотрим каждый из перечисленных видов подробнее.

Дубли с www и без

При создании сайта важно решить как ваш сайт будет фигурировать в поиске и как его будут набирать пользователи с www или без этой приставки. Т. е. http://www.site.ru или http://site.ru.

По умолчанию, если вы ничего не предпримите, то сможете открыть сайт по URL-адресу как с www, так и без его указания. В результате у вас есть дубли всех страниц сайта. Чем чревато: при продвижении домена с www поисковая система может индексировать страницы без www.

Для новых сайтов рекомендуется использовать вариант без www. Но вы должны сами решить и решение может зависеть от того, как поисковые системы проиндексировали ваш сайт на текущий момент, если он уже есть в поисковой выдаче.

Как убрать такие дубли?

Добавить в .htaccess после строки RewriteEngine On следующие строки кода:

# если сайт доступен по https RewriteCond % ^www\.(.*) [NC] RewriteRule ^(.*)$ https://%1/$1 [R=301,L]
# если сайт доступен по http RewriteCond % ^www\.(.*) [NC] RewriteRule ^(.*)$ http://%1/$1 [R=301,L]

Это обеспечит страниц с www на без.

Зеркальные дубли с https:// и без

Эти дубли становятся актуальны после установки SSL-сертификата на сайт.

Пример: https://site.ru/blog и http://site.ru/blog/.

Убрать эти дубли на Joomla 3 и выше можно с помощь правильной установки и настройки SSL-сертификата, в результате чего обеспечивается правильная работа сайта и всех его страниц по защищенному протоколу https. О установке SSL и переводе Joomla на https читайте здесь.

Дубли с символом «/» на конце

Дубли со слешем в конце — это так называемые структурные дубли.

Пример: http://site.ru/blog и http://site.ru/blog/.

Как убрать такие дубли?

Добавить в .htaccess после строки RewriteEngine On следующий код:

RewriteCond % !-d RewriteCond % ^(.+)/$ RewriteRule ^(.+)/$ https://site.ru/$1 [R=301,L]

В последней строке указываем протокол (http или https) и доменное имя.

Кром того, в Joomla генерируются дубли страниц с множеством слешей, независимо от того, в какой части URL они находятся:

  • http://site.ru/blog//
  • http://site.ru//blog/
  • http://site.ru///blog///

Для устранения таких дублей добавьте после указанного выше еще и этот код:

RewriteCond % ^(.*)/(.*)$ RewriteRule . %1/%2 [R=301,L]

Дубли с суффиксом .html

Эти дубли образуются в Joomla при активной опции Добавлять суффикс к URL в Общих настройках. В результате все внутренние ссылки будут иметь .html в конце URL, что приведёт к образованию дублей без этого суффикса.

Пример: http://site.ru/blog.html и http://site.ru/blog.

Чтобы предотвратить проблемы с таким дублированием страниц, рекомендуем не активировать функцию Добавлять суффикс к URL: .html в конце URL не даёт ничего, только усложняет адрес, делая его более длинным.

Как убрать такие дубли?

Если вы хотите перенаправить все страницы на без .html, то сперва отключите указанную выше опцию Добавлять суффикс к URL, после чего добавьте в .htaccess после строки RewriteEngine On следующий код:

RewriteRule (.+)\.html?$ http://site.ru/$1 [R=301,L]

Обратите внимание, что необходимо указывать протокол (http или https) и доменное имя.

Дубли с символом вопроса

Такие дубли образуются от GET-запросов в URL-адресах.

Пример: http://site.ru/page?itemid=120 будет дублировать страницу http://site.ru/page.

Дубли с GET-запросами в Джумле могут быть, но в основном в виде исключений от некорректно написанных роутеров сторонних компонентов. А вот переход на ваш сайт по UTM-меткам может обеспечить индексирование страницы с данной меткой, а основная страница (без метки) будет исключена из индекса.

Как избавиться от таких дублей?

Настраивать редиректы не рекомендуется, т. к. они могу нарушить исполнение скриптов, для которых и создаются параметры после символа «?» в URL. Поэтому лучше просто отгородить такие адреса от индексирования поисковыми роботами, добавив в файл robots.txt следующую строку кода:

Disallow: /*?

Дубли с index.php

Подразумевается наличие index.php в структуре URL-адресов сразу после названия домена (например: https://site.ru/index.php).

Такие дубли свойственны для CMS Joomla в частности, и все страницы сайта по умолчанию будут доступны по URL-адресам с index.php, идущим сразу после названия домена, например:

  • site.ru/index.php
  • site.ru/index.php/page
  • site.ru/index.php/category/page

Устранить index.php из внутренних ссылок сайта можно активировав опцию Перенаправление URL в Общих настройках, но при этом все страницы также будут доступны и по адресу с index.php.

Решать эту проблему с помощью редиректов в .htaccess не рекомендуется. Вместо этого следует добавить правило исключения всех таких дублей от индексирования в файле robots.txt, добавив в него следующую строку кода:

Disallow: /*index.php

Дубли в формате RSS, PDF и для печати

Подразумеваются страницы RSS-ленты, страницы печати и PDF-версии страниц.

Вы наверняка переходили по таким страницам из поисковой выдачи. Заходите на сайт, а там версия сайта для PDA-устройства или для печати. Как следствие: больше одной страницы посмотреть не получится.

Эти дубли убрать проще всего: достаточно отключить генерацию данных страниц в настройках материала.

Дубли материалов компонента контента

В Джумле есть и свои особенности в структуре. Например, в стандартном компоненте контента одна страница может открываться по следующим адресам:

  • http://site.ru/category/256-article.html
  • http://site.ru/category/256
  • http://site.ru/256-article.html

Избавиться от таких дублей очень сложно и практически невозможно без танцев с бубном, но они не так страшны: поисковые системы принимают во внимание те URL-адреса, которые встречаются в ссылках. Поэтому во избежание попадания таких дублей в индекс поисковой системы побеспокойтесь о том, чтобы все внутренние ссылки сайта формировали нужные адреса.

Дубли из-за смены алиаса

Рассмотрим на примере:

Вы написали материал, сохранили его. Но вам не понравился URL-адрес, который получился, и вы решили изменить алиас в материале или даже поменять категорию.

В результате материал переехал на новый адрес, точнее начал открываться по новому адресу. Но старый URL-адрес никуда при этом не девается, и страница открывается в том числе и по нему. Если материал уже проиндексирован поисковой системой по старому URL, то это может стать проблемой.

Как убрать дубли в Joomla?

Для разных дублей существуют различные варианты их устранения, среди которых есть способы, актуальные для Joomla в частности:

  1. указание поисковым системам на актуальные страницы
  2. редиректы с помощью функционала Joomla
  3. редиректы через файл .htaccess

Подробно рассмотрим каждый из способов.

Указание поисковым системам на актуальные страницы

Этот способ не предполагает удаление дублей (они останутся и будут доступны по запросу в адресной строке), но поисковики не станут придавать им значения.

Для этого требуются действия, являющиеся непременной частью SEO-оптимизации любого сайта:

  1. обеспечение правильности всех внутренних ссылок URL-адреса внутренних ссылок должны быть такими, какими вы хотите их видеть в поисковой выдаче: если задумано, что индексироваться должны URL’ы без www в начале и без слеша в конце, значит, так они должны выглядеть и внутри сайта. Это же правило касается ссылок, которые содержат файлы Sitemap.
  2. настройка исключений в файле robots.txt Файл robots.txt предназначен именно для того, чтобы исключить от индексации ненужные страницы сайта, в том числе и дубли актуальных страниц. Подробнее о настройке robots.txt для Joomlaздесь.
  3. указания на канонические URL-адреса Случается, что один материал доступен для нескольких категорий преднамеренно. И мы можем посодействовать тому, чтобы поисковики определили актуальный для индексирования URL-адрес, указав на всех дублях тег link с атрибутом rel=canonical и со ссылкой на один актуальный адрес. Например, страница доступна по адресам:
    • http://site.ru/category-1/page
    • http://site.ru/category-2/page
    • http://site.ru/category-3/page

Если мы хотим видеть в поисковой выдаче страницу по http://site.ru/category-1/page, то все перечисленные страницы в теге head должны содержать тег link в следующем виде:

Как правило, в Joomla это реализуется автоматически на уровне компонентов, которые предусматривают добавление материалов в различные категории. Также это можно сделать с помощью отдельных SEO-расширений, но не рекомендуется во избежание лишней нагрузки на сервер, возникающей при генерации страниц.

Редиректы с помощью функционала Joomla

Редиректом называется перенаправление пользователя с запрашиваемого URL-адреса на другой. Идеальным вариантом убрать дубли как для сайта на Joomla, так и для сайта на любой другой CMS, является их склейка с помощью редиректов: когда при запросе URL’а будет осуществляться перенаправление на адрес актуальной для индексирования страницы.

пользователь запрашивает адрес www.site.ru, а попадает на https://site.ru

Базовый функционал Joomla не позволяет реализовать это через панель управления: компонент Перенаправление может обеспечить только редиректы с несуществующих URL-адресов, но не с дублей. В помощь приходят сторонние компоненты (RSSEO) и файл .htaccess, о чем далее.

Редиректы через .htaccess

Файл .htaccess позволяет осуществить множество шагов в SEO-оптимизации сайта на Joomla, в числе которых и реализация редиректов на нужные URL-адреса (склейка дублей). Большинство способов редиректов для конкретных типов дублей через .htaccess упоминается выше, в описаниях данных типов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *