toc

Настройка и индексация robots.txt: как указать Google и Яндексу, что индексировать?

info_outline2 года Назад visibility1 147
Поделиться
Отправить
Линкануть

Однажды, когда я только начинал продвигать сайты, я задался вопросом: как можно скрыть от Google не нужные мне страницы. Тогда еще я не знал, что url можно формировать по средствам php. Моей целью было создать красивую поисковую выдачу с моим сайтов. Однако, позже, я был несколько удивлен возможностями robot-a.txt, о чем собственно и хочу написать.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).

На самом деле все довольно просто:

User-agent: *    #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml      #разрешает доступ к карте сайта
Disallow: /administrator/    #Закрываем доступ к админке
Disallow: /cache/            #Закрываем доступ к кеш
Disallow: /components/        #Закрываем доступ к компонентам
Disallow: /includes/    #    #Не помню
Disallow: /language/    #    #Языки
Disallow: /libraries/    #    #Закрываем библиотеки
Disallow: /logs/    #    #    #Закрываем логи
Disallow: /media/    #    #    #Закрываем медиа
Disallow: /modules/    #    #Закрываем модули
Disallow: /plugins/    #    #Плагины
Disallow: /templates/    #    #Папка с шаблонами
Disallow: /tmp/    #    #    #Не помню
Disallow: /xmlrpc/    #    #    #Не помню
Disallow: /*com_mailto    #Форма отправки писем
Disallow: /*pop=    #    #Всплывающие окна
Disallow: /*lang=ru    #    #Не помню
Disallow: /*format=    #    #Не помню
Disallow: /*print=    #    #Ссылка вывода на печать
Disallow: /*task=vote    #    #Голосования
Disallow: /*=watermark    #Идиотская ссылка на водяные знаки
Disallow: /*=download    #    #Ссылки на скачивание
Disallow: /*user/    #    #Не помню
Disallow: /404    #    #    #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index/
Disallow: /*?    #    #    #все ссылки которые содержат этот знак не индексируются !
Disallow: /*%    #    #    #все ссылки которые содержат этот знак не индексируются !
Disallow: /*&     #    #    #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php     #    #Закрываем дубли
Disallow: /index.php     #    #Закрываем дубли
Disallow: /*tag    #    #    #Закрываем облака тегов
Disallow: /*.pdf    #    #    #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf    #    #    #Закрываем Flash. По вашему усмотрению
Disallow: /*print=1    #    #Закрываем ссылку на печать
Disallow: /*=atom    #    #Закрывает RSS
Disallow: /*=rss    #    #    #Закрывает RSS
Host: site.ru    #    #    #Прописываем ваш сайт

Sitemap: http://сайт/sitemap.xml  ### укажите адрес своей карты сайта

Запомнить нужно 2 вещи:

  • Disallow: — закрывает
  • Allow: — открывает

Дальше, по логике файла можно понять, как его свормировать. Важно понимать, что если вы не хотите закрывать от индексации, что то «Allow» прописывать не нужно, отсутствие «Disallow» позволяет роботам поисковых систем читать этот файл.

Как направить робота и указать время:

User-agent: — тут нужно прописать для кого сформирован файл, на случай если вы хотите указать разные параметры индексации для разных поисковых роботов.

Имена самых популярных поисковых роботов для robot.txt

Google — Googlebot
Yahoo! — Slurp Yahoo! Slurp
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
AltaVista — Scooter
Alexa — ia_archiver
Яндекс — Yandex
Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Aport — Aport

Еще, для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах   между запросами на загрузку страниц (от 1 до 10)

Например: Crawl-delay: 3

для западных ботов можно использовать — Request-rate : 1/10   ( интервал в 10 сек )
На этом, пожалуй, все. Читайте и подписывайтесь на мой блог о SEO.
Полезно знать:

Буду признателен. если вы поделитесь своими идеями и знаниями в этом вопрос. Так же задавать вопросы, можно в комментариях.

Отправить ответ

Оставьте первый комментарий!

Notify of
avatar
wpDiscuz

Бесплатные вебинары и открытые уроки

Онлайн занятия, которые доступны в открытом доступе для простушивания любым желающим. Делиться материалом разрешается с наличием обратной ссылки на сайт xSEO.top/

Первое занятие по курсу для самостоятельного изучения SEO для WordPress расскажет вам о базовых возможностях CMS и о том, как настроить красивые ссылки, и что можно сделать с Title и как поставить Google Analytics и Яндекс Метрику.

Дополнительная информация

2015 - 2017 (c) xSEO.top - Блог об интернет маркетинге, программировании и жизни в Израиле. Копирование материалов блога разрешается, но только с наличием обратной ссылки. Все вопросы можно задать лично автору, на странице обратной связи