Здравствуйте, дорогие читатели моего блога!
Сегодня я Вам расскажу о том, как составить правильный robots.txt для WordPress.
Многие новички в блоггинге совершают одну очень важную ошибку: они забывают составлять, или составляют неправильно очень важный файл, который называется robots.txt.
Платформа WordPress является очень удобной платформой, однако у нее имеется ряд недостатков. Самым главным из которых является дублирование контента.
Вот смотрите, если вы опубликовали статью, то она появляется сразу на нескольких страницах и может иметь разные адреса (урлы).
Статья появляется на главной странице, в архиве, в рубрике, в ленте RSS, в поиске и т.д.
Так вот, если на блоге появляется несколько статей с одинаковым содержанием и различными адресами, то это называется дублирование контента.
Это все равно, что скопировать контент с чужого блога и вставить на свой. Эти статьи будут неуникальными.
За такие действия поисковые системы однозначно наложат на блог санкции в виде всеми любимого фильтра АГС.
Чтобы избежать дублирования контента на платформе wordpress, необходимо использовать некоторые обязательные мероприятия. Одним из которых является запрет индексации поисковыми системами тех разделов блога, на которых дубли создаются ввиду особенностей самой платформы.
Как раз robots.txt позволяет нам исключить из индекса поисковиков подобные страницы.
Кроме этого в корне блога содержатся различные служебные каталоги (например, для хранения файлов), которые тоже желательно исключать из индекса.
Перед тем как приступить к составлению этого файла, нам необходимо знать основные правила его написания – директивы.
1. Директива User-agent
Эта директива определяет, какому именно поисковому роботу следует выполнять команды, которые будут указаны далее.
Например, если Вы хотите запретить индексацию чего-либо поисковому роботу Яндекса, то следует для этой директивы задать следующий параметр:
User-agent: Yandex
Если Вы хотите дать указание всем без исключения поисковым системам, то директива будет выглядеть следующим образом:
User-agent: *
В случае с рунетом, особые указания необходимо задать для Яндекса, а для роботов остальных поисковых систем подойдут общие, которые мы зададим так:
User-agent: *
2. Следующими директивами являются «Allow» и «Disallow».
Allow – разрешает индексацию указанных в ней элементов.
Disallow – соответственно запрещает индексацию.
Правильный robots.txt должен обязательно содержать директиву «Disallow».
Если написать так:
User-agent: Yandex
Disallow:
То мы разрешим индексацию поисковому роботу Яндекса всего блога полностью.
Если написать так:
User-agent: Yandex
Disallow: /
То запретим Яндексу индексировать весь ресурс.
Таким образом, мы можем разрешать или запрещать индексацию своего блога отдельным или всем роботам.
Например:
User-agent: *
Disallow:
User-agent: Yandex
Disallow: /
Здесь мы разрешили индексирование всем поисковикам, а Яндексу запретили. Надеюсь, это понятно.
Теперь нам необходимо знать, что именно следует запретить для индексации в WordPress, то есть какие разделы могут содержать дубли страниц и другой мусор.
1. все системные и служебные файлы:
— wp-login.php
— wp-register.php
— wp-content/
— wp-admin/
— wp-includes/
Отдельно хочу сказать про каталог wp-content. В принципе, все содержимое в нем необходимо закрыть, за исключением папки «uploads» в которой располагаются изображения. Потому что, в случае запрета индексирования «uploads», ваши картинки на блоге индексироваться не будут.
Поэтому будем закрывать каталоги, размещенные внутри папки «wp-content» отдельно:
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Если в каталоге «wp-content» Вашего блога есть еще какие-либо папки, то можно (и даже нужно) их закрыть (за исключением «uploads»).
2. Дубли страниц в категориях:
— category/*/*
3. RSS ленту:
— feed
4. Дубли страниц в результатах поиска:
— *?*
— *?
5. Комментарии:
— comments
6. Трэкбэки:
— trackback
Я не буду описывать структуру WordPress, а выкладываю Вам свой файл robots.txt, который установлен на моем блоге. Я считаю, что он наиболее правильный. Если Вы найдете в нем какие-либо недочеты, то просьба написать об этом в комментариях.
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Здесь же нужно задать отдельные указания Яндексу:
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml
Sitemap: http:// mysite.ru/sitemap.xml.gz
Если Вы не составляли файл robots.txt или сомневаетесь в правильности его составления, советую Вам использовать этот.
Для этого необходимо создать обычный текстовый документ, скопировать весь текст, представленный выше, вставить его в свой файл. Затем сохранить его под именем: robots.txt (первая буква не должна быть заглавной).
Не забудьте поменять mysite.ru на свой.
После создания файл robots.txt необходимо разместить в корне блога, затем добавить его в панель вебмастера Яндекса.
Рекомендую Вам посмотреть видео, посвященное дублированию контента:
Дело в том, что у нас на главной странице блога (mysite.ru) тоже выводятся статьи.
При нажатии на заголовок поста, мы переходим на его страницу (mysite.ru/…./….html). Таким образом, часть поста (та, что на главной) является дублем такой же части текста основной статьи.
Закрыть от индексации здесь ничего нельзя. Поэтому рекомендую Вам выводить на главную страницу как можно меньше текста основной статьи.
А именно приветствие и небольшой анонс.
Пример Вы можете посмотреть у меня на главной странице (анонс к этой статье).
Для этого используется тэг more.
Проще говоря: набрали небольшой фрагмент (приветствие и анонс), который будет выведен на главную, перешли в редактор HTML и вставили следующий код:
<!- -more- ->
И продолжаете дальше писать статью.
Вся часть текста, расположенная перед тэгом more, будет выведена на главную страницу.
Рекомендую посмотреть видео: «Что такое Robots.txt?»:
На этом у меня все. Обязательно создайте правильный robots.txt для WordPress!
С уважением, Александр Бобрин
© 2024 Блог Александра Бобрина. Создание сайта и заработок в интернете · Копирование материалов сайта без разрешения запрещено
Политика конфиденциальности | Пользовательское соглашение
У меня немного другой, ты сам его составлял?
У меня такой же примерно.
Многие блоггеры на текущий момент используют просто Disallow: /wp- вместо перечисления папок, конечно структуру надо внимательно просматривать. Изменения в данный файле иногда приводят к существенный результатам.
У меня в папке «wp-content» есть ещё такие папки- «backup-4613b»,
«backup-db»,
«tmp»,
«upgrade».
Их тоже надо закрывать? Не большой ли от этого получится файл robots.txt или его размер не имеет значения? А может проще поставить на папку «uploads» директорию «Allow» а всю папку «wp-content» закрыть «Disallow» , или так нельзя?
Лучше закрыть. Насчет размера файла не переживайте.
Вячеслав.
У меня был нормальный, но я его немного изменил чтоб картинки индексировались. У тебя нормальный robots :good:
Disallow: /*?* Разве это не запрет на индексацию всего САЙТА???
Нет, это запрет на индексацию результатов поиска.
Попробую поставить себе на блог ваш файл Роботса, у меня с ним вечные проблемы. Наковырял что то не то и не пойму что к чему
И ещё один вопрос, Александр, как закрыть от индексации отдельные страницы на блоге?
Kuzmich их можно закрыть как файлом robots.txt так и директивами в произвольных полях если используете плагин Platinum SEO или аналог.
Re: Юрий
Да, их тоже лучше закрыть, только upload оставь.
Еще могут быть служебные папки в корне блога (которые сам создавал, например, с музыкой, видео и т.п.), их тоже закрывай.
Так-с поставим и мы эксперимент по файлу robots.txt :mail:
А зачем экспериментировать-то? Его один раз составляешь и всё.
Александр, ответь на второй вопрос про страницы.
Юрий, зачем в robots.txt закрывать?! Можно ведь прямо на странице запретить индексацию.
Ну если уж хочется возиться с этим, то пропиши:
Disallow: /name.html
name.html — имя страницы (без указания рубрики). Для этой статьи name.html будет:
robots-txt-dlya-wordpress.html
Саша молодец! Обьемные посты пишешь, хорошие, понятные! Такими темпами будешь и дальше развивать блог, посещалка будет расти мощно, особенно после того как блог настоится в сети 7-8 месяцев!
Желаю удачи!
Спасибо, Саша за поддержку. Стараюсь! 🙂
Александр как в воду глядел.
Спасибо, Александр,за такие понятные и обучающии статьи! Сделаем всё правильно с вашей помощью и будем развивать свои ресурсы и дальше.
Александр! Спасибо за статью. Понимаю не все, поэтому полностью Вам доверяю , ставлю себе такой robots.txt , как Вы показали. 🙂
У меня к Александру вопрос. :wacko:
Помогает ли реально закрытие рубрик на Вордпрессе. Они могут прекрасно попадать в индексы сами по себе вместе со страницами тэгов. Про них Вы в роботсе не писали вроде.
Еще удивило закрытие комментариев. Я считал, что в блоггинге пост с большим количеством комментариев лучше индексируется. Или речь идет про какие-то отдельные страницы, на которых есть только комментарии.
Антон.
Желательно дубли постов скрывать, то есть рубрики тоже. По поводу комментариев согласен, но в коде страницы они у меня есть, и в поиске Яндекса иногда замечаю в сниппете фразы именно из комментариев 🙂
У меня тоже комментарии попадают в сниппет. Иногда это очень кстати: сайт выше в результатах.
Александр, я где-то читала информацию о том, что индексация рубрик даже важнее, чем статей. Действительно ли стоит их закрывать?
Екатерина, я закрываю.
Здравствуйте,Александр! Большое спасибо за Ваши труды!!! :good: Единственное хотел бы добавить директива "Crawl-delay: 4 "-она указывает тайм-аут при сканировании, помогает когда сервер загружен и не успевает отдавать контент роботу, из за чего может выпасть из индекса поисковика. Устанавливается в секундах. В данном примере значит что робот не будет сканировать страницы сайта чаще чем раз в 4 секунды 🙂 .
Спасибо за советы, Александр. :good:
Комментарии скрыл, они впринципе у всех есть в постоах, поэтому и скрывать действительно нужно всем «Disallow: */comments».
Александр, как у вас шаблон называется?
У меня он сверстан из макета psd: asbseo.ru/novosti/novyj-dizajn-na-bloge.html
Да хороший пост. Можно пользоваться роботсам как в примере)
Вопрос:
А можно ли сделать sitemap.xml без установки плагина??
Да, можно. Только там не будет рубрик, получится сплошной список постов, что не очень удобно.
Просто ещё один плагин держать включённым не очень хочется. Он же должен быть всегда активированным да?
Да, конечно. Я тоже хотел его убрать, но карта получается прямо скажем — не для людей 🙂
Мне карта только для поисковиков нужна, для индексации более быстрой 🙂 Поэтому меня интересует только как создать sitemap.xml? Как у вас: asbseo.ru/sitemap.xml
Я почитал другой пост и создал просто sitemap карту сайта без плагина. (мой сайт.com/sitemap)
Да там не постранично всё выводится сверху вниз все посты. Но мне это не важно. А важно как создать чтобы был xml или я фигнёй какой-то страдаю? :mail:
Это Ваше дело. Карта поисковикам нужна.
То есть без плагина такое не сделать: asbseo.ru/sitemap.xml
Ту карту (xml) делаете с плагином, а потом его можно отключать!
Александр, спасибо за пост. Намного понятней чем видел до этого в других блогах. :yes: Попробую поставить Ваш робот.тхт, посмотрим, что получится.
Юрий, ставьте, опыту Александра можно доверять.
По поводу тегов — есть еще такой тег как
Он запрещает выводить в полной новости анонс. Применяя его, можно избавиться от дублирования анонса в полной новости
А можете подробнее рассказать о нем?
А такой вопрос.
А вот как запретить индексацию яндексом Поля Сайт в комментариях.
Disallow: */comments в роботсе прописан.
А зачем вам это поле закрывать?
Я тоже думала, что «в случае запрета индексирования «uploads», ваши картинки на блоге индексироваться не буду» Но у меня все индексируется. Потому что я хитрая и храню картинки чаще всего на сторонних сервисах 😆
Иначе бы никакого места в блоге не хватило. Хотя согласна, такой метод лишает мой блог поиска по картинкам, который тоже пользуется популярностью. Ну, когда у меня будет выделенный сервер, тогда уже все у себя хранить буду.
А если картинки размещать на блоге кодами Picasa, то и размер страницы не будет зависеть от размера графики, сохранится индексация картинок и даже улучшится и продвижению это будет способствовать ❗
И разгрузится хостинг от графики... 😉
Елена, на откладывайте надолго этот вопрос. Не советую вам хранить картинки на других ресурсах. Неправильно это.
Перенесите их куда-нибудь к себе, пока не поздно.
Ещё вопрос.
Я написал в Google письмо, в котором спросил о дубликатах в CMS WordPress, нужно ли составлять файл robots.txt с особыми указаниями, чтобы не попасть под какие-либо фильтры у них.
В двух словах мне сообщили, что их система не настолько тупа, чтобы у меня была необходимость редактировать robots.txt для избежания попадания под фильтр.
Вопрос:
Может быть не стоит запрещать индексацию?
Может мы только лишаем себя дополнительного трафика запрещая индексировать дубликаты и те же комментарии?
Mikhail, я так не думаю. Но эксперименты дело интересное 🙂
Вообще, спасибо больше за блог — интересный, информативный материал. Написан очень доступным языком, узнал много нового.
Кстати, покопал, вот топ3 блог за 2011 год, файл robots.txt:
www.businessinsider.com/robots.txt
У них встречается материал-дубликат, однако в файле не стоит ни одного запрета на индексацию, а блог очень успешный, один из самых-самых. Возможно редактирование этого файла не так важно.
А вот сайтмап-файлов у них много, всё красивенько упорядочено.
1. Почему у вас не скрыты годовые и месячные архивы архивы? Disallow: /2012 и т.п.
2. Стоит ли скрывать от индексации рубрики??? Ведь на рубрики ссылаются многие страницы и если их закрыть, то пропадет ссылочный вес. Или надо прятать такие ссылки от поисковиков или держать рубрики открытыми.
3. Обратил внимание, что у вас не используются метки. Их нету ни в постах, ни в сайдбаре в виде облака и разумеется в файле robots.txt тоже нет соответствующей строки.
Я тоже недавно решил не использовать метки на некоторых сайтах, но хочу спросить: почему вы приняли такое решение?
4. Что если стоит ограничение на количество комментариев на одной странице? Можете подсказать, как избежать дубликатов контента и чтобы 5 страниц с комментариями были при этом проиндексированы? Речь идет об этой странице http://hlebsgovnom.com/vyiboryi-prezidenta-v-rossii-2012-internet-opros/
Привет, MaksEnter
1. Никогда не слышал о том, что нужно закрывать такие архивы
2. У меня рубрики скрыты только от Яндекса в плагине All in One Seo Pack, Гугл их индексирует и у них есть PR. Точного ответа на этот вопрос я не знаю.
3. Метки сегодня не играют такой роли, как раньше. Можно использовать, а можно убрать. Если Вы имеете ввиду вывод похожих записей в конце постов, то я писал здесь: asbseo.ru/optimizaciya-i- ...kak-uluchit.html
4. Вопрос понял, но как исправить не знаю. Обратитесь на форум по WordPress, я думаю что они помогут решить эту проблему.
Привет, Александр.
1. В статье речь шла о том, как скрыть дубликаты страниц в файле роботс и еще вы просили писать о найденных недочетах в вашем файле.
Так вот, страница http://asbseo.ru/2012/05 почти полностью дублирует главную страницу вашего сайта, а страница http://asbseo.ru/2012/04 дублирует http://asbseo.ru/page/2
Можно скрыть эти дубли, если добавить в файл роботс следующую строчку:
Disallow: /20*
И еще в примере нету пробела над строчкой
Sitemap: mysite.ru/sitemap.xml
В самом файле у вас есть этот пробел, а вот в примере поста нету.
2. У вас рубрики имеют два вида URL. Например:
asbseo.ru/category/blog-n...zhke-wordpress
asbseo.ru/blog-na-dvizhke-wordpress
Похоже какая-то нестандартная настройка WP для постоянных ссылок.
В файле robots.txt скрыт лишь первый вариант URL - Disallow: /category/*/*
Второй вариант также не индексируется Яндексом - похоже плагин All in One Seo Pack хорошо справляется со своими задачами.
P.S.
Можете подробнее рассказать о настройках URL?
У вас посты заканчиваются .html - какая от этого польза?
P.P.S.
Еще хочу попросить вас, раскрыть тему индексации WP более широко, собрав вместе такие моменты как:
— настройка постоянных ссылок ЧПУ
— настройка плагина Google XML Sitemaps (или альтернативный вариант)
— настройка файла robots.txt
- настройка плагина All in One Seo Pack (или альтернативный вариант)
— дополнительные материалы
Наверное это будет удобнее сделать не в комментариях, а на отдельной странице. Если сделаете — будет здорово! Я часто встречал посты про каждый из этих моментов в отдельности, но еще нигде не встречал полноценного обобщающего материала.
Спасибо, MaksEnter! Хорошо, я подумаю над этим.
Архивы записей создают дубли доступа страниц 😉
Вот по этой причине я их всегда закрываю.
Александр, вы проверяли подписку на обновление комментариев? Каждый раз ставлю галочку напротив фразы «Буду следить за комментариями к этой статье», но уведомление на почту ни разу еще не пришло (в папке спам тоже нету).
P.S.
Sorry, что коммент не по теме поста, но охота разобраться как тут следить за комментариями. Блог у вас интересный — есть за чем последить!
MaksEnter, да, я знаю. Они не приходят на многие ящики gmail.com. Я пытался это исправить, но тщетно. Ну да ладно, не все же используют почту от Гугла. Если у Вас есть альтернатива, просто вписывайте в строку другой ящик, все будет приходить.
Странно, у меня никогда проблем с этим не было — на мйо gmail ящик все приходит 🙂
Александр, привет!
Давно не заходил на ваш блог…
Пришёл сюда по ссылке из комментариев, которую оставил мой посетитель с предложением ознакомиться с вашей статьёй о составлении директив для правильного файла robots.txt.
Ссылку на свою статью об актуальном файле robots.txt дам ниже, а с вашим вариантом я не согласен по причине наличия дублирующих директив.
1. Вот некоторые мои замечания по robots.txt:
— в вашем варианте файла robots.txt предложены одинаковые директивы для «всех роботов» и «для Яндекса» (в этом случае группу директив для Яндекса можно не прописывать и робот Яндекса исполнит директивы из группы «User-agent: *», такие правила составления директив);
— по вашему пункту №1: директивы «Disallow: wp-login.php» и «Disallow: wp-register.php» закрывают от индексации страницы входа в админку там, где вводим логин и пароль. Зачем эти страницы закрывать от индексации? Это на грани абсурда…
— по вашему пункту №4: директивы «Disallow: /*s*» и «Disallow: /*s» — это одна и та же директива, записанная дважды ( символ «*» по правилам составления директив в конце параметров директив прописывается по-умолчанию);
— директива «Host:» является межзоновой и её можно прописать отдельно и тогда убрать группу директив «для Яндекса».
2. Что касается дублированного на сайте контента могу смело сказать:
— дубли закрываем от индексации однозначно;
— если размещён уникальный и оригинальный контент, то не закрытые дубли не мешают попаданию такого контента в ТОП поисковой выдачи и разговоры о фильтрах в этой ситуации смысла не имеют;
— на самом деле все поисковые системы прекрасно знают какие движки и как создают дубли контента, когда админ закрывает дубли, то это всего лишь условная разгрузка ресурса поисковой машины при индексации…
3. Тег «More» — полезный тег, но об этом теге нужно сказать более подробно.
Тег «More» следует использовать не просто по-умолчанию, а обязательно прописывать уникальный анкор, это очень полезно и для статьи и для её индексации. Уникальность анкоров на сайте только приветствуется всеми ПС. Единственный минус тега «More» — этот тег работает автоматически только для главной страницы.
========
Если есть интерес прочитать мою статью об актуальном 2012 файле robots.txt — найти публикацию можно в свежих записях на блоге «Бери Максимум» 😉
😯 как хорошо, что я попал на ваш сайт, блин все же делал не правильно!
Добрый день! Обнаружила, что у меня проиндексировалась страница с окончанием ?preview=true
Я так понимаю, что это страница предосмотра. И как ее запретить в файле robots.txt?
Disallow: /*?*
Посмотрел тут на индексацию картинок своего блога — все работает. 🙂
Спасибо за пост, значит у меня был правильный робот.txt. УРА=)
Здравствуйте.
Александр, подскажите пожалуйста. Я скопировала тот роботс тхт, который у Вас. В вебмастере мне при проверке правильности робтс тхт выдает такое:
«Используемые секции:
строка:
22-44
User-agent: Yandex
Disallow: /wp-login.php
...
Sitemap: www.мой сайт.ru/sitemap.xml.gz»
О чем это говорит? Я так понимаю что ошибок нет. Но, что он мне пытается сказать относительно вот этих строк? Их нужно как-то корректировать?
И почему тут указывается карта с .gz ?
Благодарю за ответ.
Наталья, это говорит о том, какие строки использует именно Яндекс. Ничего менять не нужно. Такой формат карты используется Яндексом.
Хитрый способ с анонсами, мне понравилось >__>
Хорошо, оставляю как есть. Спасибо за ответ.
Впросик. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08?? А то у меня в яндекс вебмастере после проверки сайта на индексацию такое почему-то индексируется как сайт.ру/2012/08
Я скрываю их, потому что они не несут никакой информации для поисковиков.
Здравствуйте Алексадр!
Мой сайт еще совсем молодой, так как первый сайт был забанен яндексом, я решила учитывая все ошибки начать делать другой. И сразу у меня посещаемость стала 150 человек в сутки. Но вот буквально на днях, резко упала , стало заходить на сайт по 8-10 человек. Не пойму в чем дело6 внешних ссылок пока всего одна, роботс прописан. Может ыбыть гляните пожалуйста, может быть что-то неправильно?
И еще один вопрос, у меня на сайте уже есть карта сайта, но поставленная плагином PS Auto Sitemap, это нормально для Sitemap: , или какой то файл отдельно нужно создавать?
«Чайник», он и в Африке «чайник».
С нетерпением жду ответ.
Спасибо.
Тамара, не вижу я Вашей карты! И статьи коротенькие не стоит писать.
Александр помогите мне правильно вписать в робот txt такой пункт — мне нужно закрыть форум от индексации. Как правильно этот код будет выглядеть и после какого пункта вставлять если смотреть по вашему шаблону?
Нина, просто закройте папку:
Disallow: /forum/
Поставьте в конце, после Disallow: /comments
Спасибо большое Александр!
Александр! Пожалуйста поясните что значит: mysite.ru? Вместо этого адреса что писать? Адрес своего сайта или адрес своего хостинга?
Нина, это домен Ваш.
У меня есть технический домен, который дублирует содержимое сайта. Я закрыла его от индексации для яндекса и других поисковиков в robots
Disallow: /mir-lanaw.ru.xsph.ru/
Несмотря на это, яндекс упорно индексирует мой технический домен. Не подскажите , как с этим бороться?
Есть такая страница
sprinthost.ru/support/how...ry-name-redirect
Как сделать так, чтобы сайт всегда открывался по основному имени?
Если у вашего сайта несколько имен, но вы хотите, чтобы пользователи всегда видели в адресной строке основное имя сайта, добавьте в файл .htaccess в корне вашего сайта следующие строки:
RewriteEngine on
RewriteCond %{HTTP_HOST} !^example.com$
RewriteRule ^(.*) [R=301,L]
Замените example.com на основное имя вашего сайта. Теперь при обращении к сайту пользователи будут автоматически перенаправлены на его основное имя.
У меня так же robots.txt настроен, вроде все нормально. Вот только дубли комментариев в гугле проскальзывают:( как их запретить?
В статье же вроде было указано, как закрыть комменты...
подбор robots для своего блога это целая каторга, приходилось несколько раз переделывать, не знаю сказалось ли это на блоге
А обязательно для яндекса отдельно прописывать или достаточно общего?
Лучше отдельно для Яндекса сделать!
Кстати, я не понимаю, зачем для Яндекса прописывать отдельно, но всегда сколько себя помню на автомате прописывал.
Здравствуйте. Очень интересный блог. Особенно для новичков. Недавно занялась созданием сайта и теперь интересует просто все. Подскажите,пожалуйста, а robots.txt необходимо настраивать отдельно для Google и отдельно для Yandex?
Татьяна, рекомендуется отдельно.
А есть официальная инфа, зачем делать отдельно?
Александр, отличная вразумительная статья. Я долго искал подобный материал. Будет время, приглашаю на свой сайт. Может, что увидишь сразу противное... Удачи!
Виктор, я могу вам посоветовать убрать одну проблему.
У вас текст в статьях идет сплошняток, разбивайте его на абзвацы. Пять предложений — абзац, пять предложений — абзац!
Многие такой текст даже читать не будут, развернутся и уйдут. Даже, если статья интересная.
Виктор, а куда ваш блог пропал-то?
А вот на Слона-то я и не обратил внимания. Пошёл роботса настраивать.
Яндекс вебмастер пишет: Внимание! Главная страница сайта исключена из индекса:Документ содержит мета-тег noindex. Это нормально? Или нужно исправлять ошибку?
Валентин, конечно! Главная должна быть в индексе!!!
Обязательно, Валентина! Потому что главная страница — это лицо вашего сайта, на которое в-первую очередь попадают посетители!
В данном случае, у вас мощная ошибка!
Александр, спасибо за статью. Вы не посмотрите мой robots.txt — мне кажется у меня запрещены к индексации страницы, которые идут после тега More — или я ошибаюсь?
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: korzhemeliki.ru
Sitemap:
Sitemap:
Яндекс пишет: 21-40 User-agent: Yandex
Disallow: /wp-login.php
...
Host: korzhemeliki.ru
42-43 Sitemap:
Елена, у Вас вообще все страницы кроме главной закрыты от индексации, потому что они имеют неправильные урлы (...?p...). Настройте ЧПУ блога и будет все нормально. В курсе по созданию блога я об этом говорил.
А можно вопрос немного не по теме — Можно ли при написании статей добавлять статью сразу в несколько рубрик? Или это приведет к дублированию информации с точки зрения поискового робота?
Можно если дубли закрыты от индексации.
Конечно, можно. Я на некоторых сайтах так и делаю.
А у меня закрыты?:)) Мой robots.txt выше.
Да, закрыты.
Теперь и для меня стало понятно, до этого просто у кого-то брала, не особо задумываюсь, что это обозначает. Теперь знаю более менее прилично, попробую свой файл еще раз проанализировать. Может еще что-то закрою, по моему, видео у меня не закрыто. Александр, большое спасибо за подробное разъяснение, до этого читала много про robots.txt, но так подробно и понятно не встречала.
Спасибо, Александр, за пост.
Очень подробно всё объяснено, а то кое-какие моменты были не понятны.
Остался только один вопрос — а что такое Disallow: /webstat/
У кого-то есть это в файле ,у кого-то нет.
Что это обозначает?
Людмила, это запрет индексации статистики сайта.
Александр, смотрела ваш бесплатный видеокурс по раскрутке блога, там в robots.txt вы звкрывали страницы содержащие значение
/page/, сейчас в вашем robots.txt такие страницы не закрыты. Скажите, почему вы разрешили поисковику их индексировать, ведь они тоже эвляются копией?
Настя, это лишь эксперимент. Эти страницы в любом случае динамические и не влияют на трафик. Я рекомендую их закрывать и сам так всегда делал, хотя это не так принципиально.
Вот и я закрываю. Раньше не делал этого, поэтому в выдаче много мусора бесполезного было. Спасибо таким блогам, как этот, за то, что помогают разбираться.
Александр. А у меня вот какой вопрос по поводу робота (может, не совсем адекватный, но все же): надо ли в нем закрывать от индексации продающие страницы? Они у меня находятся в отдельной папке в корне сайта. Это как поддомен, что ли.
Елена, если там ваш текст, то не нужно.
Текст то мой, но вот часть картинок, да и сам шаблон одностраничников не уникальные.
Шаблон и картинки это не страшно, главное что бы текст был уник.
Александр! У меня вопрос такой «от чайника» (заранее предупредила 🙂 )
Файл robots.txt у меня составлен именно так , но есть некоторые моменты, заставившие меня задуматься
В Гугле проиндексировано 1220 стр
В Яндексе всего 156
ЯндексВебмастер сказал мне, что загружено у меня 358о страниц, но 3411 запрещено в robots.txt
Я волнуюсь, правильно ли это? Буду очень благодарна за ответ!
P/S/ На всякий случай, прочитав предыдущие комменты, говорю, что ЧПУ настроены у меня вот так Месяц И Название ( Знаю, что это неидиальная настройка ЧПУ, но менять боюсь, вдруг вообще все вылетит из поиска)
Елена, Гугл иногда игнорирует эти директивы, кроме того, у него есть основная выдача и дополнительная. Посмотрите на другие блоги и сайты, картина такая же 🙂
Александр! Спасибо большое!
А я уже скачала Ваш курс и посмотрела в нем все по этой теме. Успокоилась по поводу Яндекса практически. Кажется все верно!
Начала, правда, волноваться по поводу Гугла, 🙂 а тут вовремя Ваш ответ!
Ваш курс очень понравился, хотя я его пока только полистала. Буду изучать.
Александр, спасибо за статью. У меня несколько вопросов к Вам:
1. В Вашем robots.txt и в том, что Вы опубликовали есть различия. Про собственноручно созданные папки я не говорю. Вот эта директива, что запрещает у Вас на сайте: Disallow: /xmlrpc.php
2. В Вашей статье ответа не нашел. В чем отличие, например в Disallow: /webstat от Disallow: /webstat/ Я правильно понимаю, что во втором варианте мы строго запрещаем индексацию ВСЕЙ папки webstat? Тогда что запрещает первый вариант?
3. Стоит ли закрывать теги Disallow: /tag/ при их использовании или достаточно убрать их в плагине All in One SEOPack через noindex в облаке меток?
4. У меня нет файла wp-register.php в корне сайта. Что это за файл?
5. Объясните, пожалуйста, разницу между Disallow: */comments и Disallow: /comments. И почему у Вас оба запрета комментарием идут не подряд, а разнобой? Должна ли быть какая-то последовательность прописания в robots.txt?
Здравствуйте, Николай!
1. xmlrpc.php - это служебный файл для удаленной публикации, в индексе он не нужен.
2. Да, мы запрещаем индексацию папки
3. В плагине закрыть достаточно, там приоритет больше чем у robots, особенно для Google.
Есть специальный сайт, вот он - http://robotstxt.org.ru/
Там Вы можете найти ответы на свои вопросы.
Александр, ответьте, пожалуйста, на вопросы.
Здравствуйте, Александр! А комментарии обязательно запрещать к индексации? Мне в свое время советовали разрешить их индексировать, мол поисковики любят когда много комментариев. А как правильно, подскажите пожалуйста!
Здравствуйте, Эрика, все написано в статье. Мы закрываем отдельные страницы с комментариями, в статьях комменты индексируются.
А все понятно! Я не правильно поняла, извиняюсь! 🙂
Я когда то удалила из robots строку Disallow: */comments, а сейчас поставила на место.
статья поучительная и хорошая, но хотелось бы узнать,как тег далее установить в сайт баре?
А зачем вам тег «Далее» в сайдбаре сайта, если не секрет?
Александр, большое вам спасибо! Я неделю если не больше искал, как этот файл составить! Но теперь, наконецто, ура!
Несколько раз меняла роботс на блоге. Спасибо за понятную статью . Попробую поэкспериментировать с вашим.
У меня еще возник вопрос у вас в роботсе есть строки:
Disallow: /y/
Disallow: /pro/
Disallow: /code/
Disallow: /files/
Disallow: /audio/
Disallow: /musik/
Disallow: /eautopay/
Disallow: /Robo/
Их не надо добавлять?
Эти папки я создавал сам и решил их закрыть. Если у Вас есть какие-либо собственные папки, то можете закрывать.
Можно и не закрывать, если вы хотите чтобы , например, продающие страницы индексировались! Или картинки оттуда индексировались!
А причем тут продающие страницы?
Да, блог Александра максимально раскрыл тему роботс. У меня тоже много вопросов по нему было. Спасибо за объяснения, Александр! Полезная информация.
Надо как-нибудь тоже сесть помотреть и подправить свой роботс, а то как у старт апа взял так и все а кто знает что они там написали.
Здраствуйте, Александр! Только созздал сайт теперь вот пытаюсь его настроить.
Очень интресует вопрос (весь интернет перерыл)
Для чего из URL поста убирают /category/?
Нужно ли это делать?
И как это сделать оптимально чтобы не навредить блогу?
Здравствуйте, Леонид! Тут на любителя, конкретных экспериментов нет. Я на втором блоге убрал, мне так больше нравится когда урлы не слишком длинные.
Александр, а как сделать именно как у вас. Например у вас это пост имеет урл asbseo.ru/blog-na-dvizhke...a-wordpress.html
где нет /category/, но если нажать на категории например у вас
asbseo.ru/category/blog-na-dvizhke-wordpress то она присутсвует.
как сделать так же у вас?
Это делается при помощи плагина All in one SEO Pack, о нем я писал здесь — asbseo.ru/optimizaciya-i- ...i-wordpress.html
Леонид, я в этом плане тоже Сашу поддерживаю, потому что мне самому нравится, когда все скромно и аккуратненько!
Я на своем блоге убрал такую штуку.
Спасибо за статью.Этот файл помог закрыть от индексации несколько дублей страниц.Спасибо, Александр!
У меня robots практически такой, же кстати важный момент ты подметил про дубль страницы на главной, я как-то раньше об этом сильно не задумывался, но как то видимо интуитивно вывожу всегда минимум текста анонса статьи.
Не всегда получается минимум анонсов выводить к сожалению.
Александр посмотри те пожалуйста мой блог,могу ли я скопировать Ваш Роботс и поставить на свой блог.Сам ничего не буду писать,пока не понимаю в этом ничего,боюсь испортить
Кстати, Марио, ваш сайт не открывается! Посмотрите, может быть, вы не в курсе!
Александр у меня еще один вопрос,к какой тематике можно отнести мой блог?
привет, Саша. Подскажите, что закрывает:
Disallow: /wp-register.php
Disallow: /xmlrpc.php
спасибо!
Лена, 1 — страница с регистрацией на сайте
2 — какой-то файл, который отвечает за вызов удаленных процедур в WP
Здравствуйте! Спасибо за статью. Правда еле разобралась как и куда именно его грузить, получилось. Теперь редактирую, хочу кое-что добавить/убрать, а он не изменяется. Т.е. сам изменился, сохранен а на сайте остается такой же, почему не пойму.
Ольга, если у вас WordPress, приходите на мой сайт. В определенных вопросах я могу вам помочь!
Попробуйте обновить его через Ctrl+F5.
Александр, а не правильней ли было бы открыть картинки для индексирования?
Я запуталась-как же поступать с индексацией pages?
и если запрещать,то куда вставлять ?
у меня то же был вопрос с этим. Александр помог: просто необходимо добавить «Disallow: /page/» в ротобтс для яндекса и вообще.
А вообще самый простой способ составить robots.txt — зайти к опытному блоггеру и взять его роботс — ведь все же открыто и доступно 🙂
Ну а потом немного подкорректировать под себя, если нужно, конечно.
Роман, можно и так, никто не запрещает.
Но есть еще получше вариант. Проконсультироваться с опытном вебмастером, перед тем, как поставить этот файл на свой сайт!
А можно опять же подсмотреть у опытного вебмастера 🙂
Если на сайте присутствуют неопубликованные статьи, они могут проиндексироваться ПС? Такой robots.txt как у вас не скрывает такие статьи? Если нет, то тогда как скрыть такие статьи, или даже лучше определённую рубрику, поскольку таких статей может быть несколько и их можно поместить скажем в рубрику «черновик».
Евгений, они вроде индексируются только после публикации. Точно сказать не могу.
Неопубликованные статьи не индексируются, что вы.
Сейчас попробовала найти эту статью через поиск на сайте — выдает рекламную страницу вместо результатов поиска. А раньше было очень удобно!
Если мы закрываем категории в роботс от индексации, то страница категория/2 будет закрыта полностью, а как же анонсы?
Сейчас купила один шаблон. В нем закрыто от индексации все: анонсы на главной, рубрики, все сквозные ссылки. Сайт вылетел из индекса. Тех.поддержка пока вот уже неделю игнорирует мой вопрос. Как думаете, может ли ноуфоллоу на анонсах на главной, категориях повлиять на вылет из индекса? Ведь разработчики хотели избежать дублей.
Наталья, так происходит почему-то только когда вводишь robots.txt, остальное ищет, даже если «роботс» ввести, я не знаю почему так.
Не думаю что закрытие ссылок и текста на главной может повлиять. Ищите проблему в другом. Например, настройки блога и плагинов, настроек индексации, возможно фильтр ПС.
Александр, спасибо за ответ. Все уже наладилось. Вчера все вошло в индекс! Так что с шаблоном получается все ок. И слава Богу!)) А то я уже распереживалась. Все в индексе! Продолжаю работу над сайтом.
Приятно видеть комменты людей на блоге Александра, у которых что-то получается.
Самое главное, не опускать руки и двигаться вперед!
Где то robots из двух частей состоит, а где то из одной. Например отдельно для всех и отдельно для Яндекса. А как лучше, один блок или два делать?
Чем Яндекс отличается от других поисковиков?
Яндекс от Гугла отличаете более предвзятым отношением, если так можно сказать.
Яндекс — упрямый очень, если сравнивать с Гуглом. Гугл индексирует активнее, намного реже, чем яндекс накладывает фильтры и бан.
Я как-то особо не заморачивался с robots.txt так просто скопировал с официального сайта для вордпресс этот файл и все дела. Но сейчас понял, что хотябы поверхносно разобраться в нем нужно, чтобы в будущем не было никаких проблем с индексацией сайта.
Виталий, вы правы. Лучше сделать один раз, как положено, чтобы потом, в будущем, проблем избежать.
Александр, я вставил ваш роботс. Моему блогу уже скоро месяц и Яндекс его до сих пор не проиндексировал. хелп ми если сможете 🙂
Проблема точно не в нем!
Дима, не переживай! Ни в коем случае.
Мой блог тоже долго яндексом не индексировался. Яндекс — очень упрямый робот, он может прийти через даже через 1.5 месяца после создания сайта.
Самое главное исправляй ошибки на своем сайте и не допускай новых.
Спасибо за ответы! Оказывается мне домен нужно менять. Просто бесплатный от хостинга стоит. 🙂
А Гугл тем не менее прекрасно индексирует бесплатные домены.
А я закрываю страницу тегов и категорий.
Яндекс от Гугла отличаете более предвзятым отношением, если так можно сказать.
Яндекс — упрямый очень, если сравнивать с Гуглом. Гугл индексирует активнее, намного реже, чем яндекс накладывает фильтры и бан.
Александр, а «page» вы не закрываете от индексации?
Александр, у вас в примере написано
Disallow: /category/*/*
при таком раскладе страница asbseo.ru/category/gostevye-posty индексируется,
а если написать
Disallow: /category
то не индексируется. По крайней мере, у меня так.
А у вас по другому?
У вас только со звездочками написано?
Спасибо огромное за статью! Я очень дотошная и хотела понимать каждую строчку кода на своем сайте, провозилась с изучением полгода. И файл роботс тоже искала везде объяснения, но именно ваша статья дала мне ПОНИМАНИЕ файла, теперь я могу настроить его под свои нужды.
Есть такое дело, Александр объясняет понятнее многих других 🙂
Установила, хорошо, что у вас хоть красным выделено, что поменять нужно на свой сайт, а то бывает у некоторых ищешь различия. Спасибо за вашу работу!
Пообщалась на тему правильного роботса со службой поддержки хостинга. Вот что они мне посоветовали:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: maminykrilya.ru
Sitemap: maminykrilya.ru/sitemap.xml.gz
Sitemap: maminykrilya.ru/sitemap.xml
Причём в строке Host строго обязательно прописывать правильно название домена, то есть если он с www, то должно было бы быть Host: www.mysite.ru
Я этого не знала и исправила роботс для другого своего сайта, а этот сделала таким.
Екатерина, это базовый роботс и он правильный. Все остальное нужно закрывать самой в роботс. Например сейчас у вас открыты рубрики в роботс (хотя их можно закрыть в олл-сео-пак) и пагинация как страниц всего сайта так и рубрик. Если это нужно, тогда все ок. Если нет — нужно закрывать дополнительно.
Кстати, Александр, как думаете, нужно ли закрывать пагинацию (страницы главная стр.2, стр.3, стр4 и т.д.) или нет? И почему так думаете. Если напишите про дубли, то было бы хорошо понять в чем именно заключчаются дубли на таких страницах и дубли ли это вообще. Я у себя всю пагинацию закрыла. Но вижу на других успешных сайтах (не на вп) что у них открыта и этот не мешает их продвижению т.к. сайты эти имеют по несколько тысяч посетителей в день.
А может это будет внутренней перелинковкой, а не дублями, если сделать анонсы уникальными?
Интересно было бы узнать Ваше мнение.
А мне для интернет магазина на вордпрессе нужен интернет магазин на плагине вп шоп, свой стандартный проверяла, который во все сайты ложу, не подходит. Тот который у Вас, тоже все подряд разрешает индексировать, может подскажите как он в моём случае должен выглядеть?
У меня появился такой вопрос! На блогах как правило в рубриках очень много содержится материалов. Следовательно вес рубрик вполне себе нормальный? Значит с помощью рубрик можно продвигать вполне успешно СЧ запросы? Может стоит попробовать не закрывать рубрики от индексации а продвинуть сч запросы, а чтобы не было дублей подправить это все в коде. Закрыть дубли с помощью когда, вывести ключики только на главной страницы рубрики? Или это вообще не вариант? Я почему то подумал что многие блогеры теряют хороший трафик закрыв рубрики от индексации.
В свое время были большие проблемы с роботс.txt.Теперь об этом даже не думаю. Порой кажется, что вообще могло быть здесь тяжелого.
Я так понимаю статья уже неактуальная, так как роботс у Вас уже другой.
В принципе роботс нормик. Алексей, можно и этот использовать, но раз есть что-то новенькое, позволяющее с лучшей стороны индексировать статьи вашего блога, значит надо это внедрять.
Роботс, который предоставил Саша Борисов мне кажется очень даже неплохой. Только вот в чем проблема, у многих старый роботс и немало тех, кто его продолжает использовать. В особенности новички в блогосфере, которые пришли, открыли поисковик, нашли там старую статью по этой теме и скопировали давнишнее тело файла.
Впрочем, начинать не обязательно с идеального чистого листа, лучше хоть немного, но быть в курсе дела, то есть понимать., какой роботс должен быть, учитывать нюансы и все это должно познаваться на протяжении времени.
автор ещё контролирует тему?
Игорь, я сейчас экспериментирую с индексацией, когда закончатся проверки, то напишу пост на эту тему!
Значит,
User-agent: *
Disallow:
и
User-agent: *
Allow: /
это одно и то же получается: разрешить для индексации всё?
Посмотрел Ваш robot.txt, не понял, зачем для Яндекса отдельно прописывать запрет на те же файлы, что и для всех поисковиков? Дубль получается.
Что запрещают директивы Disallow: /*?* и Disallow: /*?. Что это за папки или файлы?
Приветствую Александр полностью с вами согласен robots.txt очень важен для сайта. Только вродебы в последнее время очень сильно внеслись изминения в этот файл или нет?
Изменения в неслись вследствие того, что Гугл иногда игнорирует запреты в Robots и все равно индексирует страницы. Поэтому, пришлось использовать иные методы запрета для Гугла. А так, этот роботс является правильным если на блоге нет ничего лишнего.
А у меня другой robot.txt.
Попробую вашим воспользоваться.
Здравствуйте. Скорее всего я не первый кто задает этот вопрос, но все же. Я никак не могу определится, нужно ли закрывать рубрики ( т.е. cаtegory) от индексации или же нет, в том случае, если и в рубриках и на главной выводятся только анонсы?
Руслан, на усмотрение. Я сейчас открыл.
Одни всё закрывают в файле robots.txt, другие сейчас рекомендуют полностью открыть всё для поисковых роботов/
Вот сейчас у вас, Александр странные строки в конце, открывающие папки с картинками:
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
Такого я еще не встречал ранее, новый подход, ведь и без Allow картинки открыты для индексации...
Александр, а такой вопрос. Ведь комментарии закрыты в файле robots.txt, почему тогда поисковые системы все же индексируют их? Знаю один блог, где фраза из комментария к статье не просто проиндесировлась, но и попала в сниппет поисковой выдачи. Получается поисковые системы не обращают внимание на запрет в роботсе?
Андрей, закрыты страницы, которые генерируются при комментариях. Тексты комментариев на страницах постов, как и ссылки на комментаторов, не закрыты от индексации!
Понятно, спасибо!
Данный файл robots.txt уже не актуален так как будут дубли страниц в гугл. Закрывать лучше через 301 редирект.
Здравствуйте! А почему у вас на данный момент другой файл robots.txt? Какой более удобный который у вас на данный момент стоит?