23 Ноябрь 2011 11343 202

Главная / Ведение блога / Правильный robots.txt для WordPress

Правильный robots.txt для WordPress

Финансовая грамотность и инвестиции в криптовалюту

Здравствуйте, дорогие читатели моего блога!

Сегодня я Вам расскажу о том, как составить правильный robots.txt для WordPress.

Многие новички в блоггинге совершают одну очень важную ошибку: они забывают составлять, или составляют неправильно очень важный файл, который называется robots.txt.

Зачем нужен robots.txt?

Платформа WordPress является очень удобной платформой, однако у нее имеется ряд недостатков. Самым главным из которых является дублирование контента.

Вот смотрите, если вы опубликовали статью, то она появляется сразу на нескольких страницах и может иметь разные адреса (урлы).

Статья появляется на главной странице, в архиве, в рубрике, в ленте RSS, в поиске и т.д.

Так вот, если на блоге появляется несколько статей с одинаковым содержанием и различными адресами, то это называется дублирование контента.

Это все равно, что скопировать контент с чужого блога и вставить на свой. Эти статьи будут неуникальными.

За такие действия поисковые системы однозначно наложат на блог санкции в виде всеми любимого фильтра АГС.

Чтобы избежать дублирования контента на платформе wordpress, необходимо использовать некоторые обязательные мероприятия. Одним из которых является запрет индексации поисковыми системами тех разделов блога, на которых дубли создаются ввиду особенностей самой платформы.

Как раз robots.txt позволяет нам исключить из индекса поисковиков подобные страницы.

Кроме этого в корне блога содержатся различные служебные каталоги (например, для хранения файлов), которые тоже желательно исключать из индекса.

Как составить правильный robots.txt для WordPress?

Перед тем как приступить к составлению этого файла, нам необходимо знать основные правила его написания – директивы.

1. Директива User-agent

Эта директива определяет, какому именно поисковому роботу следует выполнять команды, которые будут указаны далее.

Например, если Вы хотите запретить индексацию чего-либо поисковому роботу Яндекса, то следует для этой директивы задать следующий параметр:

User-agent: Yandex

Если Вы хотите дать указание всем без исключения поисковым системам, то директива будет выглядеть следующим образом:

User-agent: *

В случае с рунетом, особые указания необходимо задать для Яндекса, а для роботов остальных поисковых систем подойдут общие, которые мы зададим так:

User-agent: *

2. Следующими директивами являются «Allow» и «Disallow».

Allow – разрешает индексацию указанных в ней элементов.

Disallow – соответственно запрещает индексацию.

Правильный robots.txt должен обязательно содержать директиву «Disallow».

Если написать так:

User-agent: Yandex

Disallow:

То мы разрешим индексацию поисковому роботу Яндекса всего блога полностью.

Если написать так:

User-agent: Yandex

Disallow: /

То запретим Яндексу индексировать весь ресурс.

Таким образом, мы можем разрешать или запрещать индексацию своего блога отдельным или всем роботам.

Например:

User-agent: *

Disallow:

User-agent: Yandex

Disallow: /

Здесь мы разрешили индексирование всем поисковикам, а Яндексу запретили. Надеюсь, это понятно.

Теперь нам необходимо знать, что именно следует запретить для индексации в WordPress, то есть какие разделы могут содержать дубли страниц и другой мусор.

1. все системные и служебные файлы:

— wp-login.php

— wp-register.php

— wp-content/

— wp-admin/

— wp-includes/

Отдельно хочу сказать про каталог wp-content. В принципе, все содержимое в нем необходимо закрыть, за исключением папки «uploads» в которой располагаются изображения. Потому что, в случае запрета индексирования «uploads», ваши картинки на блоге индексироваться не будут.

Поэтому будем закрывать каталоги, размещенные внутри папки «wp-content» отдельно:

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Если в каталоге «wp-content» Вашего блога есть еще какие-либо папки, то можно (и даже нужно) их закрыть (за исключением «uploads»).

2. Дубли страниц в категориях:

— category/*/*

3. RSS ленту:

— feed

4. Дубли страниц в результатах поиска:

— *?*

— *?

5. Комментарии:

— comments

6. Трэкбэки:

— trackback

Я не буду описывать структуру WordPress, а выкладываю Вам свой файл robots.txt, который установлен на моем блоге. Я считаю, что он наиболее правильный. Если Вы найдете в нем какие-либо недочеты, то просьба написать об этом в комментариях.

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

Здесь же нужно задать отдельные указания Яндексу:

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml
Sitemap: http:// mysite.ru/sitemap.xml.gz

Если Вы не составляли файл robots.txt или сомневаетесь в правильности его составления, советую Вам использовать этот.

Для этого необходимо создать обычный текстовый документ, скопировать весь текст, представленный выше, вставить его в свой файл. Затем сохранить его под именем: robots.txt (первая буква не должна быть заглавной).

Не забудьте поменять mysite.ru на свой.

После создания файл robots.txt необходимо разместить в корне блога, затем добавить его в панель вебмастера Яндекса.

Рекомендую Вам посмотреть видео, посвященное дублированию контента:

Еще пару слов о дублировании контента. Тэг «More»

Дело в том, что у нас на главной странице блога (mysite.ru) тоже выводятся статьи.

При нажатии на заголовок поста, мы переходим на его страницу (mysite.ru/…./….html). Таким образом, часть поста (та, что на главной) является дублем такой же части текста основной статьи.

Закрыть от индексации здесь ничего нельзя. Поэтому рекомендую Вам выводить на главную страницу как можно меньше текста основной статьи.

А именно приветствие и небольшой анонс.

Пример Вы можете посмотреть у меня на главной странице (анонс к этой статье).

Для этого используется тэг more.

Проще говоря: набрали небольшой фрагмент (приветствие и анонс), который будет выведен на главную, перешли в редактор HTML и вставили следующий код:

<!- -more- ->

И продолжаете дальше писать статью.

Вся часть текста, расположенная перед тэгом more, будет выведена на главную страницу.

Рекомендую посмотреть видео: «Что такое Robots.txt?»:

На этом у меня все. Обязательно создайте правильный robots.txt для WordPress!

С уважением, Александр Бобрин

Поделись с друзьями:

Метки: Блог на WordPress

Обратите внимание:

Похожие статьи

Обсуждение: 202 комментария

Вячеслав:

23.11.2011 в 12:36

У меня немного другой, ты сам его составлял?

Ответить
1. Анатолий:
  
  01.02.2014 в 21:11
  
  У меня такой же примерно.
  
  Ответить
2. Dzmitry Roshchyn:
  
  06.05.2015 в 14:54
  
  Многие блоггеры на текущий момент используют просто Disallow: /wp- вместо перечисления папок, конечно структуру надо внимательно просматривать. Изменения в данный файле иногда приводят к существенный результатам.
  
  Ответить
Kuzmich:

23.11.2011 в 12:45

У меня в папке «wp-content» есть ещё такие папки- «backup-4613b»,
«backup-db»,
«tmp»,
«upgrade».
Их тоже надо закрывать? Не большой ли от этого получится файл robots.txt или его размер не имеет значения? А может проще поставить на папку «uploads» директорию «Allow» а всю папку «wp-content» закрыть «Disallow» , или так нельзя?

Ответить
1. Анатолий:
  
  01.02.2014 в 21:13
  
  Лучше закрыть. Насчет размера файла не переживайте.
  
  Ответить
Александр Бобрин:

23.11.2011 в 12:45

Вячеслав.
У меня был нормальный, но я его немного изменил чтоб картинки индексировались. У тебя нормальный robots :good:

Ответить
1. Art-n1:
  
  24.12.2012 в 02:42
  
  Disallow: /*?* Разве это не запрет на индексацию всего САЙТА???
  
  Ответить
  1. Александр Бобрин:
    
    24.12.2012 в 06:53
    
    Нет, это запрет на индексацию результатов поиска.
    
    Ответить
2. Александр:
  
  30.06.2014 в 22:34
  
  Попробую поставить себе на блог ваш файл Роботса, у меня с ним вечные проблемы. Наковырял что то не то и не пойму что к чему
  
  Ответить
Kuzmich:

23.11.2011 в 12:48

И ещё один вопрос, Александр, как закрыть от индексации отдельные страницы на блоге?

Ответить
1. Dzmitry Roshchyn:
  
  06.05.2015 в 14:55
  
  Kuzmich их можно закрыть как файлом robots.txt так и директивами в произвольных полях если используете плагин Platinum SEO или аналог.
  
  Ответить
Александр Бобрин:

23.11.2011 в 12:50

Re: Юрий
Да, их тоже лучше закрыть, только upload оставь.
Еще могут быть служебные папки в корне блога (которые сам создавал, например, с музыкой, видео и т.п.), их тоже закрывай.

Ответить
Виктор Боченков:

23.11.2011 в 17:45

Так-с поставим и мы эксперимент по файлу robots.txt :mail:

Ответить
1. Анатолий:
  
  01.02.2014 в 21:14
  
  А зачем экспериментировать-то? Его один раз составляешь и всё.
  
  Ответить
kuzmich:

23.11.2011 в 19:46

Александр, ответь на второй вопрос про страницы.

Ответить
Александр Бобрин:

23.11.2011 в 19:54

Юрий, зачем в robots.txt закрывать?! Можно ведь прямо на странице запретить индексацию.
Ну если уж хочется возиться с этим, то пропиши:
Disallow: /name.html
name.html — имя страницы (без указания рубрики). Для этой статьи name.html будет:
robots-txt-dlya-wordpress.html

Ответить
Александр Борисов:

23.11.2011 в 23:52

Саша молодец! Обьемные посты пишешь, хорошие, понятные! Такими темпами будешь и дальше развивать блог, посещалка будет расти мощно, особенно после того как блог настоится в сети 7-8 месяцев!
Желаю удачи!

Ответить
1. Александр Бобрин:
  
  23.11.2011 в 23:56
  
  Спасибо, Саша за поддержку. Стараюсь! 🙂
  
  Ответить
2. Анатолий:
  
  01.02.2014 в 21:16
  
  Александр как в воду глядел.
  
  Ответить
Галина:

24.11.2011 в 12:45

Спасибо, Александр,за такие понятные и обучающии статьи! Сделаем всё правильно с вашей помощью и будем развивать свои ресурсы и дальше.

Ответить
Елена:

24.11.2011 в 14:55

Александр! Спасибо за статью. Понимаю не все, поэтому полностью Вам доверяю , ставлю себе такой robots.txt , как Вы показали. 🙂

Ответить
Антон:

09.12.2011 в 00:17

У меня к Александру вопрос. :wacko:
Помогает ли реально закрытие рубрик на Вордпрессе. Они могут прекрасно попадать в индексы сами по себе вместе со страницами тэгов. Про них Вы в роботсе не писали вроде.
Еще удивило закрытие комментариев. Я считал, что в блоггинге пост с большим количеством комментариев лучше индексируется. Или речь идет про какие-то отдельные страницы, на которых есть только комментарии.

Ответить
1. Александр Бобрин:
  
  09.12.2011 в 00:25
  
  Антон.
  Желательно дубли постов скрывать, то есть рубрики тоже. По поводу комментариев согласен, но в коде страницы они у меня есть, и в поиске Яндекса иногда замечаю в сниппете фразы именно из комментариев 🙂
  
  Ответить
  1. Анатолий:
    
    01.02.2014 в 21:17
    
    У меня тоже комментарии попадают в сниппет. Иногда это очень кстати: сайт выше в результатах.
    
    Ответить
  2. Екатерина:
    
    04.03.2014 в 19:55
    
    Александр, я где-то читала информацию о том, что индексация рубрик даже важнее, чем статей. Действительно ли стоит их закрывать?
    
    Ответить
    1. Александр Бобрин:
      
      05.03.2014 в 09:44
      
      Екатерина, я закрываю.
      
      Ответить
Станислав:

18.12.2011 в 08:46

Здравствуйте,Александр! Большое спасибо за Ваши труды!!! :good: Единственное хотел бы добавить директива "Crawl-delay: 4 "-она указывает тайм-аут при сканировании, помогает когда сервер загружен и не успевает отдавать контент роботу, из за чего может выпасть из индекса поисковика. Устанавливается в секундах. В данном примере значит что робот не будет сканировать страницы сайта чаще чем раз в 4 секунды 🙂 .

Ответить
Антон:

18.12.2011 в 11:19

Спасибо за советы, Александр. :good:
Комментарии скрыл, они впринципе у всех есть в постоах, поэтому и скрывать действительно нужно всем «Disallow: */comments».

Ответить
Валерий:

27.12.2011 в 20:33

Александр, как у вас шаблон называется?

Ответить
1. Александр Бобрин:
  
  27.12.2011 в 21:02
  
  У меня он сверстан из макета psd: asbseo.ru/novosti/novyj-dizajn-na-bloge.html
  
  Ответить
Простой:

31.01.2012 в 03:11

Да хороший пост. Можно пользоваться роботсам как в примере)

Ответить
Простой:

08.02.2012 в 15:17

Вопрос:
А можно ли сделать sitemap.xml без установки плагина??

Ответить
1. Александр Бобрин:
  
  08.02.2012 в 18:34
  
  Да, можно. Только там не будет рубрик, получится сплошной список постов, что не очень удобно.
  
  Ответить
Простой:

08.02.2012 в 18:49

Просто ещё один плагин держать включённым не очень хочется. Он же должен быть всегда активированным да?

Ответить
1. Александр Бобрин:
  
  08.02.2012 в 19:04
  
  Да, конечно. Я тоже хотел его убрать, но карта получается прямо скажем — не для людей 🙂
  
  Ответить
Простой:

08.02.2012 в 19:27

Мне карта только для поисковиков нужна, для индексации более быстрой 🙂 Поэтому меня интересует только как создать sitemap.xml? Как у вас: asbseo.ru/sitemap.xml
Я почитал другой пост и создал просто sitemap карту сайта без плагина. (мой сайт.com/sitemap)
Да там не постранично всё выводится сверху вниз все посты. Но мне это не важно. А важно как создать чтобы был xml или я фигнёй какой-то страдаю? :mail:

Ответить
1. Александр Бобрин:
  
  08.02.2012 в 19:30
  
  Это Ваше дело. Карта поисковикам нужна.
  
  Ответить
Простой:

08.02.2012 в 19:36

То есть без плагина такое не сделать: asbseo.ru/sitemap.xml

Ответить
1. Александр Бобрин:
  
  08.02.2012 в 19:44
  
  Ту карту (xml) делаете с плагином, а потом его можно отключать!
  
  Ответить
Юрий:

08.02.2012 в 19:52

Александр, спасибо за пост. Намного понятней чем видел до этого в других блогах. :yes: Попробую поставить Ваш робот.тхт, посмотрим, что получится.

Ответить
1. Вадим:
  
  30.11.2013 в 19:06
  
  Юрий, ставьте, опыту Александра можно доверять.
  
  Ответить
Александр (AKart):

03.03.2012 в 00:12

По поводу тегов — есть еще такой тег как
Он запрещает выводить в полной новости анонс. Применяя его, можно избавиться от дублирования анонса в полной новости

Ответить
1. Анатолий:
  
  01.02.2014 в 21:27
  
  А можете подробнее рассказать о нем?
  
  Ответить
Николай:

14.03.2012 в 00:24

А такой вопрос.
А вот как запретить индексацию яндексом Поля Сайт в комментариях.
Disallow: */comments в роботсе прописан.

Ответить
1. Анатолий:
  
  01.02.2014 в 21:28
  
  А зачем вам это поле закрывать?
  
  Ответить
Елена:

26.03.2012 в 04:17

Я тоже думала, что «в случае запрета индексирования «uploads», ваши картинки на блоге индексироваться не буду» Но у меня все индексируется. Потому что я хитрая и храню картинки чаще всего на сторонних сервисах 😆
Иначе бы никакого места в блоге не хватило. Хотя согласна, такой метод лишает мой блог поиска по картинкам, который тоже пользуется популярностью. Ну, когда у меня будет выделенный сервер, тогда уже все у себя хранить буду.

Ответить
1. Сергей Куприянов:
  
  29.05.2012 в 20:15
  
  А если картинки размещать на блоге кодами Picasa, то и размер страницы не будет зависеть от размера графики, сохранится индексация картинок и даже улучшится и продвижению это будет способствовать ❗
  И разгрузится хостинг от графики... 😉
  
  Ответить
2. Вадим:
  
  30.11.2013 в 19:05
  
  Елена, на откладывайте надолго этот вопрос. Не советую вам хранить картинки на других ресурсах. Неправильно это.
  
  Ответить
3. Анатолий:
  
  01.02.2014 в 21:33
  
  Перенесите их куда-нибудь к себе, пока не поздно.
  
  Ответить
Mikhail:

05.04.2012 в 20:56

Ещё вопрос.
Я написал в Google письмо, в котором спросил о дубликатах в CMS WordPress, нужно ли составлять файл robots.txt с особыми указаниями, чтобы не попасть под какие-либо фильтры у них.
В двух словах мне сообщили, что их система не настолько тупа, чтобы у меня была необходимость редактировать robots.txt для избежания попадания под фильтр.
Вопрос:
Может быть не стоит запрещать индексацию?
Может мы только лишаем себя дополнительного трафика запрещая индексировать дубликаты и те же комментарии?

Ответить
1. Александр Бобрин:
  
  05.04.2012 в 21:04
  
  Mikhail, я так не думаю. Но эксперименты дело интересное 🙂
  
  Ответить
Mikhail:

05.04.2012 в 22:27

Вообще, спасибо больше за блог — интересный, информативный материал. Написан очень доступным языком, узнал много нового.

Ответить
Mikhail:

05.04.2012 в 23:04

Кстати, покопал, вот топ3 блог за 2011 год, файл robots.txt:
www.businessinsider.com/robots.txt
У них встречается материал-дубликат, однако в файле не стоит ни одного запрета на индексацию, а блог очень успешный, один из самых-самых. Возможно редактирование этого файла не так важно.
А вот сайтмап-файлов у них много, всё красивенько упорядочено.

Ответить
MaksEnter:

12.05.2012 в 22:49

1. Почему у вас не скрыты годовые и месячные архивы архивы? Disallow: /2012 и т.п.
2. Стоит ли скрывать от индексации рубрики??? Ведь на рубрики ссылаются многие страницы и если их закрыть, то пропадет ссылочный вес. Или надо прятать такие ссылки от поисковиков или держать рубрики открытыми.
3. Обратил внимание, что у вас не используются метки. Их нету ни в постах, ни в сайдбаре в виде облака и разумеется в файле robots.txt тоже нет соответствующей строки.
Я тоже недавно решил не использовать метки на некоторых сайтах, но хочу спросить: почему вы приняли такое решение?
4. Что если стоит ограничение на количество комментариев на одной странице? Можете подсказать, как избежать дубликатов контента и чтобы 5 страниц с комментариями были при этом проиндексированы? Речь идет об этой странице http://hlebsgovnom.com/vyiboryi-prezidenta-v-rossii-2012-internet-opros/

Ответить
1. Александр Бобрин:
  
  13.05.2012 в 07:49
  
  Привет, MaksEnter
  1. Никогда не слышал о том, что нужно закрывать такие архивы
  2. У меня рубрики скрыты только от Яндекса в плагине All in One Seo Pack, Гугл их индексирует и у них есть PR. Точного ответа на этот вопрос я не знаю.
  3. Метки сегодня не играют такой роли, как раньше. Можно использовать, а можно убрать. Если Вы имеете ввиду вывод похожих записей в конце постов, то я писал здесь: asbseo.ru/optimizaciya-i- ...kak-uluchit.html
  4. Вопрос понял, но как исправить не знаю. Обратитесь на форум по WordPress, я думаю что они помогут решить эту проблему.
  
  Ответить
  1. MaksEnter:
    
    13.05.2012 в 13:33
    
    Привет, Александр.
    1. В статье речь шла о том, как скрыть дубликаты страниц в файле роботс и еще вы просили писать о найденных недочетах в вашем файле.
    Так вот, страница http://asbseo.ru/2012/05 почти полностью дублирует главную страницу вашего сайта, а страница http://asbseo.ru/2012/04 дублирует http://asbseo.ru/page/2
    Можно скрыть эти дубли, если добавить в файл роботс следующую строчку:
    Disallow: /20*
    И еще в примере нету пробела над строчкой
    Sitemap: mysite.ru/sitemap.xml
    В самом файле у вас есть этот пробел, а вот в примере поста нету.
    2. У вас рубрики имеют два вида URL. Например:
    asbseo.ru/category/blog-n...zhke-wordpress
    asbseo.ru/blog-na-dvizhke-wordpress
    Похоже какая-то нестандартная настройка WP для постоянных ссылок.
    В файле robots.txt скрыт лишь первый вариант URL - Disallow: /category/*/*
    Второй вариант также не индексируется Яндексом - похоже плагин All in One Seo Pack хорошо справляется со своими задачами.
    P.S.
    Можете подробнее рассказать о настройках URL?
    У вас посты заканчиваются .html - какая от этого польза?
    P.P.S.
    Еще хочу попросить вас, раскрыть тему индексации WP более широко, собрав вместе такие моменты как:
    — настройка постоянных ссылок ЧПУ
    — настройка плагина Google XML Sitemaps (или альтернативный вариант)
    — настройка файла robots.txt
    - настройка плагина All in One Seo Pack (или альтернативный вариант)
    — дополнительные материалы
    Наверное это будет удобнее сделать не в комментариях, а на отдельной странице. Если сделаете — будет здорово! Я часто встречал посты про каждый из этих моментов в отдельности, но еще нигде не встречал полноценного обобщающего материала.
    
    Ответить
    1. Александр Бобрин:
      
      13.05.2012 в 14:25
      
      Спасибо, MaksEnter! Хорошо, я подумаю над этим.
      
      Ответить
  2. Сергей Куприянов:
    
    27.05.2012 в 08:48
    
    Архивы записей создают дубли доступа страниц 😉
    
    Ответить
    1. Анатолий:
      
      01.02.2014 в 21:35
      
      Вот по этой причине я их всегда закрываю.
      
      Ответить
MaksEnter:

13.05.2012 в 17:19

Александр, вы проверяли подписку на обновление комментариев? Каждый раз ставлю галочку напротив фразы «Буду следить за комментариями к этой статье», но уведомление на почту ни разу еще не пришло (в папке спам тоже нету).
P.S.
Sorry, что коммент не по теме поста, но охота разобраться как тут следить за комментариями. Блог у вас интересный — есть за чем последить!

Ответить
1. Александр Бобрин:
  
  13.05.2012 в 17:34
  
  MaksEnter, да, я знаю. Они не приходят на многие ящики gmail.com. Я пытался это исправить, но тщетно. Ну да ладно, не все же используют почту от Гугла. Если у Вас есть альтернатива, просто вписывайте в строку другой ящик, все будет приходить.
  
  Ответить
  1. Роман:
    
    18.08.2013 в 11:25
    
    Странно, у меня никогда проблем с этим не было — на мйо gmail ящик все приходит 🙂
    
    Ответить
Сергей Куприянов:

27.05.2012 в 08:50

Александр, привет!
Давно не заходил на ваш блог…
Пришёл сюда по ссылке из комментариев, которую оставил мой посетитель с предложением ознакомиться с вашей статьёй о составлении директив для правильного файла robots.txt.
Ссылку на свою статью об актуальном файле robots.txt дам ниже, а с вашим вариантом я не согласен по причине наличия дублирующих директив.
1. Вот некоторые мои замечания по robots.txt:
— в вашем варианте файла robots.txt предложены одинаковые директивы для «всех роботов» и «для Яндекса» (в этом случае группу директив для Яндекса можно не прописывать и робот Яндекса исполнит директивы из группы «User-agent: *», такие правила составления директив);
— по вашему пункту №1: директивы «Disallow: wp-login.php» и «Disallow: wp-register.php» закрывают от индексации страницы входа в админку там, где вводим логин и пароль. Зачем эти страницы закрывать от индексации? Это на грани абсурда…
— по вашему пункту №4: директивы «Disallow: /*s*» и «Disallow: /*s» — это одна и та же директива, записанная дважды ( символ «*» по правилам составления директив в конце параметров директив прописывается по-умолчанию);
— директива «Host:» является межзоновой и её можно прописать отдельно и тогда убрать группу директив «для Яндекса».
2. Что касается дублированного на сайте контента могу смело сказать:
— дубли закрываем от индексации однозначно;
— если размещён уникальный и оригинальный контент, то не закрытые дубли не мешают попаданию такого контента в ТОП поисковой выдачи и разговоры о фильтрах в этой ситуации смысла не имеют;
— на самом деле все поисковые системы прекрасно знают какие движки и как создают дубли контента, когда админ закрывает дубли, то это всего лишь условная разгрузка ресурса поисковой машины при индексации…
3. Тег «More» — полезный тег, но об этом теге нужно сказать более подробно.
Тег «More» следует использовать не просто по-умолчанию, а обязательно прописывать уникальный анкор, это очень полезно и для статьи и для её индексации. Уникальность анкоров на сайте только приветствуется всеми ПС. Единственный минус тега «More» — этот тег работает автоматически только для главной страницы.
========
Если есть интерес прочитать мою статью об актуальном 2012 файле robots.txt — найти публикацию можно в свежих записях на блоге «Бери Максимум» 😉

Ответить
Александр:

08.06.2012 в 16:17

😯 как хорошо, что я попал на ваш сайт, блин все же делал не правильно!

Ответить
Елена Олейникова:

24.07.2012 в 06:18

Добрый день! Обнаружила, что у меня проиндексировалась страница с окончанием ?preview=true
Я так понимаю, что это страница предосмотра. И как ее запретить в файле robots.txt?

Ответить
1. Анатолий:
  
  01.02.2014 в 21:42
  
  Disallow: /*?*
  
  Ответить
Виктор Боченков:

09.08.2012 в 21:17

Посмотрел тут на индексацию картинок своего блога — все работает. 🙂

Ответить
Ростислав:

18.08.2012 в 21:16

Спасибо за пост, значит у меня был правильный робот.txt. УРА=)

Ответить
Наталья:

20.08.2012 в 12:27

Здравствуйте.
Александр, подскажите пожалуйста. Я скопировала тот роботс тхт, который у Вас. В вебмастере мне при проверке правильности робтс тхт выдает такое:
«Используемые секции:
строка:
22-44
User-agent: Yandex
Disallow: /wp-login.php
...
Sitemap: www.мой сайт.ru/sitemap.xml.gz»
О чем это говорит? Я так понимаю что ошибок нет. Но, что он мне пытается сказать относительно вот этих строк? Их нужно как-то корректировать?
И почему тут указывается карта с .gz ?
Благодарю за ответ.

Ответить
1. Александр Бобрин:
  
  20.08.2012 в 13:04
  
  Наталья, это говорит о том, какие строки использует именно Яндекс. Ничего менять не нужно. Такой формат карты используется Яндексом.
  
  Ответить
Николай:

03.09.2012 в 22:24

Хитрый способ с анонсами, мне понравилось >__>

Ответить
0B0:

04.09.2012 в 00:38

Хорошо, оставляю как есть. Спасибо за ответ.

Ответить
Простой:

15.09.2012 в 01:35

Впросик. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08?? А то у меня в яндекс вебмастере после проверки сайта на индексацию такое почему-то индексируется как сайт.ру/2012/08

Ответить
1. Анатолий:
  
  01.02.2014 в 21:43
  
  Я скрываю их, потому что они не несут никакой информации для поисковиков.
  
  Ответить
Тамара:

07.10.2012 в 12:03

Здравствуйте Алексадр!
Мой сайт еще совсем молодой, так как первый сайт был забанен яндексом, я решила учитывая все ошибки начать делать другой. И сразу у меня посещаемость стала 150 человек в сутки. Но вот буквально на днях, резко упала , стало заходить на сайт по 8-10 человек. Не пойму в чем дело6 внешних ссылок пока всего одна, роботс прописан. Может ыбыть гляните пожалуйста, может быть что-то неправильно?
И еще один вопрос, у меня на сайте уже есть карта сайта, но поставленная плагином PS Auto Sitemap, это нормально для Sitemap: , или какой то файл отдельно нужно создавать?
«Чайник», он и в Африке «чайник».
С нетерпением жду ответ.
Спасибо.

Ответить
1. Александр Бобрин:
  
  07.10.2012 в 18:21
  
  Тамара, не вижу я Вашей карты! И статьи коротенькие не стоит писать.
  
  Ответить
Нина:

11.10.2012 в 16:32

Александр помогите мне правильно вписать в робот txt такой пункт — мне нужно закрыть форум от индексации. Как правильно этот код будет выглядеть и после какого пункта вставлять если смотреть по вашему шаблону?

Ответить
1. Александр Бобрин:
  
  11.10.2012 в 16:36
  
  Нина, просто закройте папку:
  Disallow: /forum/
  Поставьте в конце, после Disallow: /comments
  
  Ответить
  1. Нина:
    
    11.10.2012 в 16:50
    
    Спасибо большое Александр!
    
    Ответить
Нина:

17.10.2012 в 11:45

Александр! Пожалуйста поясните что значит: mysite.ru? Вместо этого адреса что писать? Адрес своего сайта или адрес своего хостинга?

Ответить
1. Александр Бобрин:
  
  17.10.2012 в 13:15
  
  Нина, это домен Ваш.
  
  Ответить
Светлана:

24.10.2012 в 08:20

У меня есть технический домен, который дублирует содержимое сайта. Я закрыла его от индексации для яндекса и других поисковиков в robots
Disallow: /mir-lanaw.ru.xsph.ru/
Несмотря на это, яндекс упорно индексирует мой технический домен. Не подскажите , как с этим бороться?

Ответить
1. Сергей:
  
  05.01.2013 в 21:28
  
  Есть такая страница
  sprinthost.ru/support/how...ry-name-redirect
  Как сделать так, чтобы сайт всегда открывался по основному имени?
  Если у вашего сайта несколько имен, но вы хотите, чтобы пользователи всегда видели в адресной строке основное имя сайта, добавьте в файл .htaccess в корне вашего сайта следующие строки:
  RewriteEngine on
  RewriteCond %{HTTP_HOST} !^example.com$
  RewriteRule ^(.*) [R=301,L]
  Замените example.com на основное имя вашего сайта. Теперь при обращении к сайту пользователи будут автоматически перенаправлены на его основное имя.
  
  Ответить
Томский школьник:

08.11.2012 в 14:09

У меня так же robots.txt настроен, вроде все нормально. Вот только дубли комментариев в гугле проскальзывают:( как их запретить?

Ответить
1. Анатолий:
  
  01.02.2014 в 21:45
  
  В статье же вроде было указано, как закрыть комменты...
  
  Ответить
Айрат:

11.11.2012 в 00:03

подбор robots для своего блога это целая каторга, приходилось несколько раз переделывать, не знаю сказалось ли это на блоге

Ответить
Андрей:

11.11.2012 в 23:58

А обязательно для яндекса отдельно прописывать или достаточно общего?

Ответить
1. Александр Бобрин:
  
  12.11.2012 в 07:50
  
  Лучше отдельно для Яндекса сделать!
  
  Ответить
2. Анатолий:
  
  01.02.2014 в 21:46
  
  Кстати, я не понимаю, зачем для Яндекса прописывать отдельно, но всегда сколько себя помню на автомате прописывал.
  
  Ответить
Татьяна:

28.11.2012 в 20:50

Здравствуйте. Очень интересный блог. Особенно для новичков. Недавно занялась созданием сайта и теперь интересует просто все. Подскажите,пожалуйста, а robots.txt необходимо настраивать отдельно для Google и отдельно для Yandex?

Ответить
1. Александр Бобрин:
  
  29.11.2012 в 07:02
  
  Татьяна, рекомендуется отдельно.
  
  Ответить
  1. Анатолий:
    
    01.02.2014 в 21:48
    
    А есть официальная инфа, зачем делать отдельно?
    
    Ответить
Виктор Георгиевич:

09.12.2012 в 19:45

Александр, отличная вразумительная статья. Я долго искал подобный материал. Будет время, приглашаю на свой сайт. Может, что увидишь сразу противное... Удачи!

Ответить
1. Вадим:
  
  30.11.2013 в 19:03
  
  Виктор, я могу вам посоветовать убрать одну проблему.
  У вас текст в статьях идет сплошняток, разбивайте его на абзвацы. Пять предложений — абзац, пять предложений — абзац!
  Многие такой текст даже читать не будут, развернутся и уйдут. Даже, если статья интересная.
  
  Ответить
2. Анатолий:
  
  01.02.2014 в 21:49
  
  Виктор, а куда ваш блог пропал-то?
  
  Ответить
Валентин:

25.01.2013 в 10:16

А вот на Слона-то я и не обратил внимания. Пошёл роботса настраивать.

Ответить
Валентина:

25.01.2013 в 20:03

Яндекс вебмастер пишет: Внимание! Главная страница сайта исключена из индекса:Документ содержит мета-тег noindex. Это нормально? Или нужно исправлять ошибку?

Ответить
1. Александр Бобрин:
  
  25.01.2013 в 20:56
  
  Валентин, конечно! Главная должна быть в индексе!!!
  
  Ответить
2. Вадим:
  
  30.11.2013 в 19:04
  
  Обязательно, Валентина! Потому что главная страница — это лицо вашего сайта, на которое в-первую очередь попадают посетители!
  В данном случае, у вас мощная ошибка!
  
  Ответить
Елена:

28.01.2013 в 11:48

Александр, спасибо за статью. Вы не посмотрите мой robots.txt — мне кажется у меня запрещены к индексации страницы, которые идут после тега More — или я ошибаюсь?
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: korzhemeliki.ru
Sitemap:
Sitemap:
Яндекс пишет: 21-40 User-agent: Yandex
Disallow: /wp-login.php
...
Host: korzhemeliki.ru
42-43 Sitemap:

Ответить
1. Александр Бобрин:
  
  28.01.2013 в 12:04
  
  Елена, у Вас вообще все страницы кроме главной закрыты от индексации, потому что они имеют неправильные урлы (...?p...). Настройте ЧПУ блога и будет все нормально. В курсе по созданию блога я об этом говорил.
  
  Ответить
Елена:

05.02.2013 в 08:22

А можно вопрос немного не по теме — Можно ли при написании статей добавлять статью сразу в несколько рубрик? Или это приведет к дублированию информации с точки зрения поискового робота?

Ответить
1. Александр Бобрин:
  
  05.02.2013 в 22:03
  
  Можно если дубли закрыты от индексации.
  
  Ответить
2. Анатолий:
  
  01.02.2014 в 21:50
  
  Конечно, можно. Я на некоторых сайтах так и делаю.
  
  Ответить
Елена:

06.02.2013 в 08:57

А у меня закрыты?:)) Мой robots.txt выше.

Ответить
1. Александр Бобрин:
  
  06.02.2013 в 08:58
  
  Да, закрыты.
  
  Ответить
Людмила:

10.02.2013 в 12:43

Теперь и для меня стало понятно, до этого просто у кого-то брала, не особо задумываюсь, что это обозначает. Теперь знаю более менее прилично, попробую свой файл еще раз проанализировать. Может еще что-то закрою, по моему, видео у меня не закрыто. Александр, большое спасибо за подробное разъяснение, до этого читала много про robots.txt, но так подробно и понятно не встречала.

Ответить
Людмила Винокурова:

12.02.2013 в 18:06

Спасибо, Александр, за пост.
Очень подробно всё объяснено, а то кое-какие моменты были не понятны.
Остался только один вопрос — а что такое Disallow: /webstat/
У кого-то есть это в файле ,у кого-то нет.
Что это обозначает?

Ответить
1. Анатолий:
  
  01.02.2014 в 21:52
  
  Людмила, это запрет индексации статистики сайта.
  
  Ответить
Настя:

27.02.2013 в 10:15

Александр, смотрела ваш бесплатный видеокурс по раскрутке блога, там в robots.txt вы звкрывали страницы содержащие значение
/page/, сейчас в вашем robots.txt такие страницы не закрыты. Скажите, почему вы разрешили поисковику их индексировать, ведь они тоже эвляются копией?

Ответить
1. Александр Бобрин:
  
  27.02.2013 в 11:40
  
  Настя, это лишь эксперимент. Эти страницы в любом случае динамические и не влияют на трафик. Я рекомендую их закрывать и сам так всегда делал, хотя это не так принципиально.
  
  Ответить
  1. Анатолий:
    
    01.02.2014 в 21:54
    
    Вот и я закрываю. Раньше не делал этого, поэтому в выдаче много мусора бесполезного было. Спасибо таким блогам, как этот, за то, что помогают разбираться.
    
    Ответить
Елена Голоштенко:

13.03.2013 в 18:23

Александр. А у меня вот какой вопрос по поводу робота (может, не совсем адекватный, но все же): надо ли в нем закрывать от индексации продающие страницы? Они у меня находятся в отдельной папке в корне сайта. Это как поддомен, что ли.

Ответить
1. Александр Бобрин:
  
  14.03.2013 в 10:07
  
  Елена, если там ваш текст, то не нужно.
  
  Ответить
  1. Елена Голоштенко:
    
    14.03.2013 в 22:33
    
    Текст то мой, но вот часть картинок, да и сам шаблон одностраничников не уникальные.
    
    Ответить
    1. SEO-PSIX:
      
      17.03.2013 в 17:42
      
      Шаблон и картинки это не страшно, главное что бы текст был уник.
      
      Ответить
Елена:

18.03.2013 в 20:45

Александр! У меня вопрос такой «от чайника» (заранее предупредила 🙂 )
Файл robots.txt у меня составлен именно так , но есть некоторые моменты, заставившие меня задуматься
В Гугле проиндексировано 1220 стр
В Яндексе всего 156
ЯндексВебмастер сказал мне, что загружено у меня 358о страниц, но 3411 запрещено в robots.txt
Я волнуюсь, правильно ли это? Буду очень благодарна за ответ!
P/S/ На всякий случай, прочитав предыдущие комменты, говорю, что ЧПУ настроены у меня вот так Месяц И Название ( Знаю, что это неидиальная настройка ЧПУ, но менять боюсь, вдруг вообще все вылетит из поиска)

Ответить
1. Александр Бобрин:
  
  18.03.2013 в 23:17
  
  Елена, Гугл иногда игнорирует эти директивы, кроме того, у него есть основная выдача и дополнительная. Посмотрите на другие блоги и сайты, картина такая же 🙂
  
  Ответить
  1. Елена:
    
    19.03.2013 в 00:13
    
    Александр! Спасибо большое!
    А я уже скачала Ваш курс и посмотрела в нем все по этой теме. Успокоилась по поводу Яндекса практически. Кажется все верно!
    Начала, правда, волноваться по поводу Гугла, 🙂 а тут вовремя Ваш ответ!
    Ваш курс очень понравился, хотя я его пока только полистала. Буду изучать.
    
    Ответить
Николай:

20.03.2013 в 12:03

Александр, спасибо за статью. У меня несколько вопросов к Вам:
1. В Вашем robots.txt и в том, что Вы опубликовали есть различия. Про собственноручно созданные папки я не говорю. Вот эта директива, что запрещает у Вас на сайте: Disallow: /xmlrpc.php
2. В Вашей статье ответа не нашел. В чем отличие, например в Disallow: /webstat от Disallow: /webstat/ Я правильно понимаю, что во втором варианте мы строго запрещаем индексацию ВСЕЙ папки webstat? Тогда что запрещает первый вариант?
3. Стоит ли закрывать теги Disallow: /tag/ при их использовании или достаточно убрать их в плагине All in One SEOPack через noindex в облаке меток?
4. У меня нет файла wp-register.php в корне сайта. Что это за файл?
5. Объясните, пожалуйста, разницу между Disallow: */comments и Disallow: /comments. И почему у Вас оба запрета комментарием идут не подряд, а разнобой? Должна ли быть какая-то последовательность прописания в robots.txt?

Ответить
1. Александр Бобрин:
  
  22.03.2013 в 07:40
  
  Здравствуйте, Николай!
  1. xmlrpc.php - это служебный файл для удаленной публикации, в индексе он не нужен.
  2. Да, мы запрещаем индексацию папки
  3. В плагине закрыть достаточно, там приоритет больше чем у robots, особенно для Google.
  Есть специальный сайт, вот он - http://robotstxt.org.ru/
  Там Вы можете найти ответы на свои вопросы.
  
  Ответить
Николай:

21.03.2013 в 15:58

Александр, ответьте, пожалуйста, на вопросы.

Ответить
Эрика:

09.04.2013 в 20:39

Здравствуйте, Александр! А комментарии обязательно запрещать к индексации? Мне в свое время советовали разрешить их индексировать, мол поисковики любят когда много комментариев. А как правильно, подскажите пожалуйста!

Ответить
1. Александр Бобрин:
  
  09.04.2013 в 22:15
  
  Здравствуйте, Эрика, все написано в статье. Мы закрываем отдельные страницы с комментариями, в статьях комменты индексируются.
  
  Ответить
Эрика:

10.04.2013 в 06:07

А все понятно! Я не правильно поняла, извиняюсь! 🙂
Я когда то удалила из robots строку Disallow: */comments, а сейчас поставила на место.

Ответить
http://saitkyrort.ru:

29.04.2013 в 20:13

статья поучительная и хорошая, но хотелось бы узнать,как тег далее установить в сайт баре?

Ответить
1. Анатолий:
  
  01.02.2014 в 22:00
  
  А зачем вам тег «Далее» в сайдбаре сайта, если не секрет?
  
  Ответить
Вячеслав:

05.05.2013 в 12:23

Александр, большое вам спасибо! Я неделю если не больше искал, как этот файл составить! Но теперь, наконецто, ура!

Ответить
name nika:

12.05.2013 в 23:30

Несколько раз меняла роботс на блоге. Спасибо за понятную статью . Попробую поэкспериментировать с вашим.

Ответить
name nika:

12.05.2013 в 23:36

У меня еще возник вопрос у вас в роботсе есть строки:
Disallow: /y/
Disallow: /pro/
Disallow: /code/
Disallow: /files/
Disallow: /audio/
Disallow: /musik/
Disallow: /eautopay/
Disallow: /Robo/
Их не надо добавлять?

Ответить
1. Александр Бобрин:
  
  12.05.2013 в 23:44
  
  Эти папки я создавал сам и решил их закрыть. Если у Вас есть какие-либо собственные папки, то можете закрывать.
  
  Ответить
2. Василий:
  
  29.07.2013 в 20:12
  
  Можно и не закрывать, если вы хотите чтобы , например, продающие страницы индексировались! Или картинки оттуда индексировались!
  
  Ответить
  1. Анатолий:
    
    01.02.2014 в 22:01
    
    А причем тут продающие страницы?
    
    Ответить
Наталья:

13.05.2013 в 09:33

Да, блог Александра максимально раскрыл тему роботс. У меня тоже много вопросов по нему было. Спасибо за объяснения, Александр! Полезная информация.

Ответить
Руслан:

13.05.2013 в 19:57

Надо как-нибудь тоже сесть помотреть и подправить свой роботс, а то как у старт апа взял так и все а кто знает что они там написали.

Ответить
леонид:

28.05.2013 в 15:15

Здраствуйте, Александр! Только созздал сайт теперь вот пытаюсь его настроить.
Очень интресует вопрос (весь интернет перерыл)
Для чего из URL поста убирают /category/?
Нужно ли это делать?
И как это сделать оптимально чтобы не навредить блогу?

Ответить
1. Александр Бобрин:
  
  28.05.2013 в 21:17
  
  Здравствуйте, Леонид! Тут на любителя, конкретных экспериментов нет. Я на втором блоге убрал, мне так больше нравится когда урлы не слишком длинные.
  
  Ответить
  1. леонид:
    
    28.05.2013 в 22:12
    
    Александр, а как сделать именно как у вас. Например у вас это пост имеет урл asbseo.ru/blog-na-dvizhke...a-wordpress.html
    где нет /category/, но если нажать на категории например у вас
    asbseo.ru/category/blog-na-dvizhke-wordpress то она присутсвует.
    как сделать так же у вас?
    
    Ответить
    1. Александр Бобрин:
      
      28.05.2013 в 22:15
      
      Это делается при помощи плагина All in one SEO Pack, о нем я писал здесь — asbseo.ru/optimizaciya-i- ...i-wordpress.html
      
      Ответить
2. Вадим:
  
  30.11.2013 в 18:58
  
  Леонид, я в этом плане тоже Сашу поддерживаю, потому что мне самому нравится, когда все скромно и аккуратненько!
  Я на своем блоге убрал такую штуку.
  
  Ответить
Максим:

05.06.2013 в 20:02

Спасибо за статью.Этот файл помог закрыть от индексации несколько дублей страниц.Спасибо, Александр!

Ответить
Дима Актив:

22.06.2013 в 23:31

У меня robots практически такой, же кстати важный момент ты подметил про дубль страницы на главной, я как-то раньше об этом сильно не задумывался, но как то видимо интуитивно вывожу всегда минимум текста анонса статьи.

Ответить
1. Анатолий:
  
  01.02.2014 в 22:03
  
  Не всегда получается минимум анонсов выводить к сожалению.
  
  Ответить
Марио:

30.06.2013 в 10:47

Александр посмотри те пожалуйста мой блог,могу ли я скопировать Ваш Роботс и поставить на свой блог.Сам ничего не буду писать,пока не понимаю в этом ничего,боюсь испортить

Ответить
1. Вадим:
  
  30.11.2013 в 18:53
  
  Кстати, Марио, ваш сайт не открывается! Посмотрите, может быть, вы не в курсе!
  
  Ответить
Марио:

30.06.2013 в 10:49

Александр у меня еще один вопрос,к какой тематике можно отнести мой блог?

Ответить
Лена:

05.07.2013 в 15:38

привет, Саша. Подскажите, что закрывает:
Disallow: /wp-register.php
Disallow: /xmlrpc.php
спасибо!

Ответить
1. Александр Бобрин:
  
  05.07.2013 в 16:31
  
  Лена, 1 — страница с регистрацией на сайте
  2 — какой-то файл, который отвечает за вызов удаленных процедур в WP
  
  Ответить
Ольга:

09.07.2013 в 19:25

Здравствуйте! Спасибо за статью. Правда еле разобралась как и куда именно его грузить, получилось. Теперь редактирую, хочу кое-что добавить/убрать, а он не изменяется. Т.е. сам изменился, сохранен а на сайте остается такой же, почему не пойму.

Ответить
1. Вадим:
  
  30.11.2013 в 18:50
  
  Ольга, если у вас WordPress, приходите на мой сайт. В определенных вопросах я могу вам помочь!
  
  Ответить
2. Анатолий:
  
  01.02.2014 в 22:04
  
  Попробуйте обновить его через Ctrl+F5.
  
  Ответить
Василий:

28.07.2013 в 12:12

Александр, а не правильней ли было бы открыть картинки для индексирования?

Ответить
Новикова Марина:

04.08.2013 в 21:21

Я запуталась-как же поступать с индексацией pages?
и если запрещать,то куда вставлять ?

Ответить
1. Роман:
  
  18.08.2013 в 11:23
  
  у меня то же был вопрос с этим. Александр помог: просто необходимо добавить «Disallow: /page/» в ротобтс для яндекса и вообще.
  
  Ответить
Роман:

18.08.2013 в 11:24

А вообще самый простой способ составить robots.txt — зайти к опытному блоггеру и взять его роботс — ведь все же открыто и доступно 🙂
Ну а потом немного подкорректировать под себя, если нужно, конечно.

Ответить
1. Вадим:
  
  30.11.2013 в 18:49
  
  Роман, можно и так, никто не запрещает.
  Но есть еще получше вариант. Проконсультироваться с опытном вебмастером, перед тем, как поставить этот файл на свой сайт!
  
  Ответить
  1. Анатолий:
    
    01.02.2014 в 22:07
    
    А можно опять же подсмотреть у опытного вебмастера 🙂
    
    Ответить
Евгений:

25.08.2013 в 17:12

Если на сайте присутствуют неопубликованные статьи, они могут проиндексироваться ПС? Такой robots.txt как у вас не скрывает такие статьи? Если нет, то тогда как скрыть такие статьи, или даже лучше определённую рубрику, поскольку таких статей может быть несколько и их можно поместить скажем в рубрику «черновик».

Ответить
1. Александр Бобрин:
  
  26.08.2013 в 12:12
  
  Евгений, они вроде индексируются только после публикации. Точно сказать не могу.
  
  Ответить
2. Анатолий:
  
  01.02.2014 в 22:07
  
  Неопубликованные статьи не индексируются, что вы.
  
  Ответить
Наталья:

27.08.2013 в 08:17

Сейчас попробовала найти эту статью через поиск на сайте — выдает рекламную страницу вместо результатов поиска. А раньше было очень удобно!
Если мы закрываем категории в роботс от индексации, то страница категория/2 будет закрыта полностью, а как же анонсы?
Сейчас купила один шаблон. В нем закрыто от индексации все: анонсы на главной, рубрики, все сквозные ссылки. Сайт вылетел из индекса. Тех.поддержка пока вот уже неделю игнорирует мой вопрос. Как думаете, может ли ноуфоллоу на анонсах на главной, категориях повлиять на вылет из индекса? Ведь разработчики хотели избежать дублей.

Ответить
1. Александр Бобрин:
  
  27.08.2013 в 09:37
  
  Наталья, так происходит почему-то только когда вводишь robots.txt, остальное ищет, даже если «роботс» ввести, я не знаю почему так.
  Не думаю что закрытие ссылок и текста на главной может повлиять. Ищите проблему в другом. Например, настройки блога и плагинов, настроек индексации, возможно фильтр ПС.
  
  Ответить
Наталья:

28.08.2013 в 10:26

Александр, спасибо за ответ. Все уже наладилось. Вчера все вошло в индекс! Так что с шаблоном получается все ок. И слава Богу!)) А то я уже распереживалась. Все в индексе! Продолжаю работу над сайтом.

Ответить
1. Вадим:
  
  30.11.2013 в 18:45
  
  Приятно видеть комменты людей на блоге Александра, у которых что-то получается.
  Самое главное, не опускать руки и двигаться вперед!
  
  Ответить
Юрий:

29.09.2013 в 23:10

Где то robots из двух частей состоит, а где то из одной. Например отдельно для всех и отдельно для Яндекса. А как лучше, один блок или два делать?
Чем Яндекс отличается от других поисковиков?

Ответить
1. Вадим:
  
  30.11.2013 в 18:48
  
  Яндекс от Гугла отличаете более предвзятым отношением, если так можно сказать.
  Яндекс — упрямый очень, если сравнивать с Гуглом. Гугл индексирует активнее, намного реже, чем яндекс накладывает фильтры и бан.
  
  Ответить
Виталий:

06.10.2013 в 12:36

Я как-то особо не заморачивался с robots.txt так просто скопировал с официального сайта для вордпресс этот файл и все дела. Но сейчас понял, что хотябы поверхносно разобраться в нем нужно, чтобы в будущем не было никаких проблем с индексацией сайта.

Ответить
1. Вадим:
  
  30.11.2013 в 18:46
  
  Виталий, вы правы. Лучше сделать один раз, как положено, чтобы потом, в будущем, проблем избежать.
  
  Ответить
Дима:

11.11.2013 в 19:13

Александр, я вставил ваш роботс. Моему блогу уже скоро месяц и Яндекс его до сих пор не проиндексировал. хелп ми если сможете 🙂

Ответить
1. Александр Бобрин:
  
  11.11.2013 в 19:29
  
  Проблема точно не в нем!
  
  Ответить
2. Вадим:
  
  30.11.2013 в 18:44
  
  Дима, не переживай! Ни в коем случае.
  Мой блог тоже долго яндексом не индексировался. Яндекс — очень упрямый робот, он может прийти через даже через 1.5 месяца после создания сайта.
  Самое главное исправляй ошибки на своем сайте и не допускай новых.
  
  Ответить
  1. Дима:
    
    02.12.2013 в 21:03
    
    Спасибо за ответы! Оказывается мне домен нужно менять. Просто бесплатный от хостинга стоит. 🙂
    
    Ответить
    1. Анатолий:
      
      01.02.2014 в 22:13
      
      А Гугл тем не менее прекрасно индексирует бесплатные домены.
      
      Ответить
Анатолий:

29.12.2013 в 14:52

А я закрываю страницу тегов и категорий.

Ответить
1. Радмир:
  
  21.04.2014 в 00:30
  
  Яндекс от Гугла отличаете более предвзятым отношением, если так можно сказать.
  Яндекс — упрямый очень, если сравнивать с Гуглом. Гугл индексирует активнее, намного реже, чем яндекс накладывает фильтры и бан.
  
  Ответить
Юрий:

04.01.2014 в 23:22

Александр, а «page» вы не закрываете от индексации?

Ответить
Юрий:

05.01.2014 в 00:07

Александр, у вас в примере написано
Disallow: /category/*/*
при таком раскладе страница asbseo.ru/category/gostevye-posty индексируется,
а если написать
Disallow: /category
то не индексируется. По крайней мере, у меня так.
А у вас по другому?
У вас только со звездочками написано?

Ответить
Мария:

29.01.2014 в 16:23

Спасибо огромное за статью! Я очень дотошная и хотела понимать каждую строчку кода на своем сайте, провозилась с изучением полгода. И файл роботс тоже искала везде объяснения, но именно ваша статья дала мне ПОНИМАНИЕ файла, теперь я могу настроить его под свои нужды.

Ответить
1. Анатолий:
  
  01.02.2014 в 22:14
  
  Есть такое дело, Александр объясняет понятнее многих других 🙂
  
  Ответить
Елена:

15.02.2014 в 14:39

Установила, хорошо, что у вас хоть красным выделено, что поменять нужно на свой сайт, а то бывает у некоторых ищешь различия. Спасибо за вашу работу!

Ответить
Екатерина:

07.03.2014 в 12:15

Пообщалась на тему правильного роботса со службой поддержки хостинга. Вот что они мне посоветовали:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: maminykrilya.ru
Sitemap: maminykrilya.ru/sitemap.xml.gz
Sitemap: maminykrilya.ru/sitemap.xml
Причём в строке Host строго обязательно прописывать правильно название домена, то есть если он с www, то должно было бы быть Host: www.mysite.ru
Я этого не знала и исправила роботс для другого своего сайта, а этот сделала таким.

Ответить
1. Наталья:
  
  10.03.2014 в 11:00
  
  Екатерина, это базовый роботс и он правильный. Все остальное нужно закрывать самой в роботс. Например сейчас у вас открыты рубрики в роботс (хотя их можно закрыть в олл-сео-пак) и пагинация как страниц всего сайта так и рубрик. Если это нужно, тогда все ок. Если нет — нужно закрывать дополнительно.
  Кстати, Александр, как думаете, нужно ли закрывать пагинацию (страницы главная стр.2, стр.3, стр4 и т.д.) или нет? И почему так думаете. Если напишите про дубли, то было бы хорошо понять в чем именно заключчаются дубли на таких страницах и дубли ли это вообще. Я у себя всю пагинацию закрыла. Но вижу на других успешных сайтах (не на вп) что у них открыта и этот не мешает их продвижению т.к. сайты эти имеют по несколько тысяч посетителей в день.
  А может это будет внутренней перелинковкой, а не дублями, если сделать анонсы уникальными?
  Интересно было бы узнать Ваше мнение.
  
  Ответить
Ольга:

09.04.2014 в 00:16

А мне для интернет магазина на вордпрессе нужен интернет магазин на плагине вп шоп, свой стандартный проверяла, который во все сайты ложу, не подходит. Тот который у Вас, тоже все подряд разрешает индексировать, может подскажите как он в моём случае должен выглядеть?

Ответить
Александр:

30.05.2014 в 17:13

У меня появился такой вопрос! На блогах как правило в рубриках очень много содержится материалов. Следовательно вес рубрик вполне себе нормальный? Значит с помощью рубрик можно продвигать вполне успешно СЧ запросы? Может стоит попробовать не закрывать рубрики от индексации а продвинуть сч запросы, а чтобы не было дублей подправить это все в коде. Закрыть дубли с помощью когда, вывести ключики только на главной страницы рубрики? Или это вообще не вариант? Я почему то подумал что многие блогеры теряют хороший трафик закрыв рубрики от индексации.

Ответить
Жук Юрий:

20.06.2014 в 14:29

В свое время были большие проблемы с роботс.txt.Теперь об этом даже не думаю. Порой кажется, что вообще могло быть здесь тяжелого.

Ответить
Алексей:

11.07.2014 в 19:06

Я так понимаю статья уже неактуальная, так как роботс у Вас уже другой.

Ответить
1. Юрий:
  
  21.09.2014 в 19:11
  
  В принципе роботс нормик. Алексей, можно и этот использовать, но раз есть что-то новенькое, позволяющее с лучшей стороны индексировать статьи вашего блога, значит надо это внедрять.
  Роботс, который предоставил Саша Борисов мне кажется очень даже неплохой. Только вот в чем проблема, у многих старый роботс и немало тех, кто его продолжает использовать. В особенности новички в блогосфере, которые пришли, открыли поисковик, нашли там старую статью по этой теме и скопировали давнишнее тело файла.
  Впрочем, начинать не обязательно с идеального чистого листа, лучше хоть немного, но быть в курсе дела, то есть понимать., какой роботс должен быть, учитывать нюансы и все это должно познаваться на протяжении времени.
  
  Ответить
Игорь:

28.07.2014 в 17:01

автор ещё контролирует тему?

Ответить
1. Александр Бобрин:
  
  31.07.2014 в 19:13
  
  Игорь, я сейчас экспериментирую с индексацией, когда закончатся проверки, то напишу пост на эту тему!
  
  Ответить
Юлий:

31.07.2014 в 16:38

Значит,
User-agent: *
Disallow:
и
User-agent: *
Allow: /
это одно и то же получается: разрешить для индексации всё?

Ответить
Юлий:

31.07.2014 в 16:46

Посмотрел Ваш robot.txt, не понял, зачем для Яндекса отдельно прописывать запрет на те же файлы, что и для всех поисковиков? Дубль получается.
Что запрещают директивы Disallow: /*?* и Disallow: /*?. Что это за папки или файлы?

Ответить
Denis:

29.08.2014 в 08:24

Приветствую Александр полностью с вами согласен robots.txt очень важен для сайта. Только вродебы в последнее время очень сильно внеслись изминения в этот файл или нет?

Ответить
1. Александр Бобрин:
  
  29.08.2014 в 12:04
  
  Изменения в неслись вследствие того, что Гугл иногда игнорирует запреты в Robots и все равно индексирует страницы. Поэтому, пришлось использовать иные методы запрета для Гугла. А так, этот роботс является правильным если на блоге нет ничего лишнего.
  
  Ответить
Игорь:

29.10.2014 в 19:36

А у меня другой robot.txt.
Попробую вашим воспользоваться.

Ответить
Руслан:

24.12.2014 в 22:13

Здравствуйте. Скорее всего я не первый кто задает этот вопрос, но все же. Я никак не могу определится, нужно ли закрывать рубрики ( т.е. cаtegory) от индексации или же нет, в том случае, если и в рубриках и на главной выводятся только анонсы?

Ответить
1. Александр Бобрин:
  
  24.12.2014 в 22:55
  
  Руслан, на усмотрение. Я сейчас открыл.
  
  Ответить
Николай Вилков:

08.01.2015 в 01:33

Одни всё закрывают в файле robots.txt, другие сейчас рекомендуют полностью открыть всё для поисковых роботов/
Вот сейчас у вас, Александр странные строки в конце, открывающие папки с картинками:
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
Такого я еще не встречал ранее, новый подход, ведь и без Allow картинки открыты для индексации...

Ответить
Андрей Назыров:

19.01.2015 в 06:24

Александр, а такой вопрос. Ведь комментарии закрыты в файле robots.txt, почему тогда поисковые системы все же индексируют их? Знаю один блог, где фраза из комментария к статье не просто проиндесировлась, но и попала в сниппет поисковой выдачи. Получается поисковые системы не обращают внимание на запрет в роботсе?

Ответить
1. Александр Бобрин:
  
  19.01.2015 в 16:08
  
  Андрей, закрыты страницы, которые генерируются при комментариях. Тексты комментариев на страницах постов, как и ссылки на комментаторов, не закрыты от индексации!
  
  Ответить
  1. Андрей Назыров:
    
    20.01.2015 в 04:51
    
    Понятно, спасибо!
    
    Ответить
Александр Белый:

20.01.2015 в 10:10

Данный файл robots.txt уже не актуален так как будут дубли страниц в гугл. Закрывать лучше через 301 редирект.

Ответить
Сергей:

17.12.2016 в 10:03

Здравствуйте! А почему у вас на данный момент другой файл robots.txt? Какой более удобный который у вас на данный момент стоит?

Ответить

Правильный robots.txt для WordPress

Зачем нужен robots.txt?

Как составить правильный robots.txt для WordPress?

Еще пару слов о дублировании контента. Тэг «More»

Поделись с друзьями:

Обратите внимание:

Похожие статьи

Ваш комментарий Отменить ответ