Правильный robots.txt для самых популярных CMS.
Вот появилось немного свободного времени и как обещал многим пишу подробный мануал по созданию robots.txt для самых популярных CMS. Надеюсь мануал будет полезный как новичкам так и послужит хорошей шпаргалкой для опытных вебмастеров и лично для меня. Для начала начнем с самих глубин и разберемся что такое robots.txt и для чего он нам так необходим.
Что такое robots.txt — или Robots Exclusion Protocol это текстовый файл который расположен в корневой директории сайта и в котором записаны команды для поисковых роботов. Эти команды предназначены для запрета индексации категорий и отдельных страниц сайта, зеркалирования домена а также содержат рекомендации по временному сканирования сайта. Ну для нас основное его предназначение заключается в том что он дает возможность закрыть от поисковых роботов ненужные нам для индексации категории и странички сайт что очень хорошо помогает избежать дублированию страниц.
Команды robots.txt — Robots.txt начинается с команды User-agent с помощью которой вы можете написать каждому поисковому роботу отдельно что ему индексировать а что нет. Просто после User-agent введите название нужного вам поискового робота, например «User-agent: Yandex» или просто можете поставить звездочку «User-agent: *» что будет означать «для всех поисковых роботов».
А также немаловажной командой есть команда «Host» в которой мы прописываем основное зеркало сайта. В host можно прописать основным зеркалом домен как с www так и без них а также сделать основным зеркалом сторонний домен. И все оно выглядеть так:
Host: site.ru — Основное зеркало без www.
Host: www.site.ru — Основное зеркало с www.
Host: site2.ru — Основное зеркало сторонний домен.
Основные команды в robots.txt это Disallow и Allow. Команда Disallow запрещает индексирование и соответственно Allow разрешает индексирование. Сейчас мы подробно разберемся как использовать эти команды. Команда Allow разрешает поисковому боту индексацию то есть если вы в начале robots.txt поставите «Allow: /*» это будет воспринято поисковым ботом что можно индексировать все на данном домене. Если вы поставите «Disallow: /» это будет воспринято как запрет на индексацию даного домена. С Disallow немного сложнее с его помощью можно закрыть как отдельную страничку так и всю категорию сайта. Сейчас мы это рассмотрим на примерах.
Disallow: /categori — Закрывает от индексации как саму категорию так и все что в ней есть.
Disallow: /categori/ — Закрывает от индексации все что есть в категории.
Disallow: /categori/news.html — Закрывает от индексации только страничку news.html.
Правильный robots.txt для WordPress:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
User-agent: Yandex
Host: site.ru
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Это не только правильный ну и стандартный robots.txt под WordPress в котором закрыты все необходимые разделы и странички сайта, если вам надо закрыть еще какие то разделы вы с легкостью можете это сделать сами, просто добавив нужную вам строчку. Как вы сами видите здесь мы отдельно прописываем команды для поискового робота Яндекса.
Правильный robots.txt для DLE
User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /favorites/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /catalog/
Disallow: /language/
Disallow: /tags/
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=pm
Disallow: /*do=search
Disallow: /*group=*
Disallow: /addnews.html
Disallow: /search.html
Disallow: /rules.html
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
В DLE приходится закрывать намного больше страничек и разделов от индексации это в основном делается для того чтобы избежать индексации стандартных страниц DLE и для избежания попадания страниц дублей в индекс. С своей стороны я бы посоветовал еще добавить эти строчки в robots.txt
Disallow: /*.php*
Disallow: /*/page/
Disallow: /tags/*/page/
чтобы избежать ненужных дублей страничек.
Правильный robots.txt для Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Лично от себя я бы еще добавил отдельные строчки для Яндекса он это очень любит.
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Думаю каждый кто хоть немножко работал с Joomla поймет какие разделы и зачем закрыты. А если вы хотите добавить еще что то можете сделать это сами без проблем.
P.S
Кажется все доступно написал и объяснил. Если что то забыл или пропустил пишите в комментариях все поправлю и добавлю.
29 января 2013 @ 21:35
Перечитала вашу статью сделала все как надо и закрыла от индексации один раздел сайта. С Яндексом кажется все нормально а вот Гугл сегодня проиндексировал страничку на которую стоит запрет. Может я неправильно создала robots ? Проверила robots пару раз, ошибок нет в чем может быть проблема?
30 января 2013 @ 10:10
Да такое с Гуглом иногда бывает он индексит все до чего может добраться хотя и странички могут быть скрыты от индексации. Но особо не переживайте эти странички не попадут в выдачу а просто будут в соплях.
5 августа 2014 @ 18:28
А сопли это не есть хорошо, га данный момент ситуация с гуглом такая — в роботсе закрыли ему доступ, а он наоборот сделает все наоборот, нужно открывать доступ, а уже на открытых страницах указывать что не надо индексировать.
30 января 2013 @ 13:19
Спасибо большое за полезную статью!)
9 апреля 2013 @ 22:02
Зачем картинки запрещать индексировать для Joomla?
(Disallow: /images/)
17 февраля 2016 @ 11:18
У меня блог на WP. Сделал как у вас написано. Теперь, в гуглбот, ругается на то, что нет доступа к некоторым файлам в папках «Disallow: /wp-includes»
и «Disallow: /wp-content/plugins».
Подскажите пожалуйста, нужно открывать, или это не страшно?
17 февраля 2016 @ 12:17
Открывать конечно не надо, это технические папки WP и они должны быть закрыты от индексации. В них нет полезной информации для бота гугла и соответственно они должны быть закрыты. То что ругается это нормально и так должно быть.