Правильный robots.txt для самых популярных CMS.

Вот появилось немного свободного времени и как обещал многим пишу подробный мануал по созданию robots.txt для самых популярных CMS. Надеюсь мануал будет полезный как новичкам так и послужит хорошей шпаргалкой для опытных вебмастеров и лично для меня. Для начала начнем с самих глубин и разберемся что такое robots.txt и для чего он нам так необходим.

Что такое robots.txt — или Robots Exclusion Protocol это текстовый файл который расположен в корневой директории сайта и в котором записаны команды для поисковых роботов. Эти команды предназначены для запрета индексации категорий и отдельных страниц сайта, зеркалирования домена а также содержат рекомендации по временному сканирования сайта. Ну для нас основное его предназначение заключается в том что он дает возможность закрыть от поисковых роботов ненужные нам для индексации категории и странички сайт что очень хорошо помогает избежать дублированию страниц.

Команды robots.txt — Robots.txt начинается с команды User-agent с помощью которой вы можете написать каждому поисковому роботу отдельно что ему индексировать а что нет. Просто после User-agent введите название нужного вам поискового робота, например «User-agent: Yandex» или просто можете поставить звездочку «User-agent: *» что будет означать «для всех поисковых роботов».

А также немаловажной командой есть команда «Host» в которой мы прописываем основное зеркало сайта. В host можно прописать основным зеркалом домен как с www так и без них а также сделать основным зеркалом сторонний домен. И все оно выглядеть так:
Host: site.ru — Основное зеркало без www.
Host: www.site.ru — Основное зеркало с www.
Host: site2.ru — Основное зеркало сторонний домен.

Основные команды в robots.txt это Disallow и Allow. Команда Disallow запрещает индексирование и соответственно Allow разрешает индексирование. Сейчас мы подробно разберемся как использовать эти команды. Команда Allow разрешает поисковому боту индексацию то есть если вы в начале robots.txt поставите «Allow: /*» это будет воспринято поисковым ботом что можно индексировать все на данном домене. Если вы поставите «Disallow: /» это будет воспринято как запрет на индексацию даного домена. С Disallow немного сложнее с его помощью можно закрыть как отдельную страничку так и всю категорию сайта. Сейчас мы это рассмотрим на примерах.

Disallow: /categori — Закрывает от индексации как саму категорию так и все что в ней есть.
Disallow: /categori/ — Закрывает от индексации все что есть в категории.
Disallow: /categori/news.html — Закрывает от индексации только страничку news.html.

Правильный robots.txt для WordPress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

User-agent: Yandex
Host: site.ru
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Это не только правильный ну и стандартный robots.txt под WordPress в котором закрыты все необходимые разделы и странички сайта, если вам надо закрыть еще какие то разделы вы с легкостью можете это сделать сами, просто добавив нужную вам строчку. Как вы сами видите здесь мы отдельно прописываем команды для поискового робота Яндекса.

Правильный robots.txt для DLE

User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /favorites/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /catalog/
Disallow: /language/
Disallow: /tags/
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=pm
Disallow: /*do=search
Disallow: /*group=*
Disallow: /addnews.html
Disallow: /search.html
Disallow: /rules.html
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/

В DLE приходится закрывать намного больше страничек и разделов от индексации это в основном делается для того чтобы избежать индексации стандартных страниц DLE и для избежания попадания страниц дублей в индекс. С своей стороны я бы посоветовал еще добавить эти строчки в robots.txt

Disallow: /*.php*
Disallow: /*/page/
Disallow: /tags/*/page/

чтобы избежать ненужных дублей страничек.

Правильный robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Лично от себя я бы еще добавил отдельные строчки для Яндекса он это очень любит.

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Думаю каждый кто хоть немножко работал с Joomla поймет какие разделы и зачем закрыты. А если вы хотите добавить еще что то можете сделать это сами без проблем.

P.S
Кажется все доступно написал и объяснил. Если что то забыл или пропустил пишите в комментариях все поправлю и добавлю.