Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).
На самом деле все довольно просто:
User-agent: * #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта
Disallow: /administrator/ #Закрываем доступ к админке
Disallow: /cache/ #Закрываем доступ к кеш
Disallow: /components/ #Закрываем доступ к компонентам
Disallow: /includes/ # #Не помню
Disallow: /language/ # #Языки
Disallow: /libraries/ # #Закрываем библиотеки
Disallow: /logs/ # # #Закрываем логи
Disallow: /media/ # # #Закрываем медиа
Disallow: /modules/ # #Закрываем модули
Disallow: /plugins/ # #Плагины
Disallow: /templates/ # #Папка с шаблонами
Disallow: /tmp/ # # #Не помню
Disallow: /xmlrpc/ # # #Не помню
Disallow: /*com_mailto #Форма отправки писем
Disallow: /*pop= # #Всплывающие окна
Disallow: /*lang=ru # #Не помню
Disallow: /*format= # #Не помню
Disallow: /*print= # #Ссылка вывода на печать
Disallow: /*task=vote # #Голосования
Disallow: /*=watermark #Идиотская ссылка на водяные знаки
Disallow: /*=download # #Ссылки на скачивание
Disallow: /*user/ # #Не помню
Disallow: /404 # # #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index/
Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php # #Закрываем дубли
Disallow: /index.php # #Закрываем дубли
Disallow: /*tag # # #Закрываем облака тегов
Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf # # #Закрываем Flash. По вашему усмотрению
Disallow: /*print=1 # #Закрываем ссылку на печать
Disallow: /*=atom # #Закрывает RSS
Disallow: /*=rss # # #Закрывает RSS
Host: site.ru # # #Прописываем ваш сайтSitemap: http://сайт/sitemap.xml ### укажите адрес своей карты сайта
Запомнить нужно 2 вещи:
- Disallow: — закрывает
- Allow: — открывает
Дальше, по логике файла можно понять, как его свормировать. Важно понимать, что если вы не хотите закрывать от индексации, что то «Allow» прописывать не нужно, отсутствие «Disallow» позволяет роботам поисковых систем читать этот файл.
Как направить робота и указать время:
User-agent: — тут нужно прописать для кого сформирован файл, на случай если вы хотите указать разные параметры индексации для разных поисковых роботов.
Имена самых популярных поисковых роботов для robot.txt
Google — Googlebot
Yahoo! — Slurp Yahoo! Slurp
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
AltaVista — Scooter
Alexa — ia_archiver
Яндекс — Yandex
Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Aport — Aport
Еще, для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах между запросами на загрузку страниц (от 1 до 10)
Например: Crawl-delay: 3
для западных ботов можно использовать — Request-rate : 1/10 ( интервал в 10 сек )
На этом, пожалуй, все. Читайте и подписывайтесь на мой блог о SEO.
Полезно знать:
- Как создать файл robots.txt (от Google help)
Яндекс: Использование robots.txt
Все о файле robots.txt по-русски!
Видео о предназначении robots.txt - Анализ robot.txt
Буду признателен. если вы поделитесь своими идеями и знаниями в этом вопрос. Так же задавать вопросы, можно в комментариях.
Последние комментарии