Robots.txt — системный файл сайта, указывающий на путь к разрешенным страницам для индексации поисковому роботу, а также указывающий на запрет к индексации отдельных файлов на сайте.
Знание и умение редактировать robots.txt, пожалуй, базовое знание любого начинающего

Как Robots.txt влияет на индексацию страниц?
Любое seo
Зачем? В противном случает, поисковой робот при обходе сайта, заберет в индекс все файлы, в том числе и системные. А теперь представьте, если в индексе, кроме страниц сайта есть еще и тысячи системных файлов, прикрепленных к вашему доменному имени.
Алгоритмы поисковой системы, хоть и не забанят вас, но в ТОП вы не попадете, так как сразу будет наложен фильтр «не оптимизирован».
Поэтому, если вы стремитесь наладить хорошую индексацию ваших страниц, обратите внимание на техническую оптимизацию сайта, в частности, на robots.txt и файлы sitemap.xml.
Как правильно настроить robots.txt на сайте?
Итак, создать файл robots.txt очень просто — в текстовом редакторе (блокноте, если у вас Windows) создаете пустой файл и сохраняете его в формате .txt — текстовый файл. Вот и все, вы создали robots.txt,
давайте разбираться с функциями:
В файле есть несколько основных команд, которые указывают поисковым роботам направление:
- Disallow — что означаете запрет к индексации,
- Allow — разрешить индексацию,
- Host — указать основное зеркало сайта,
- Sitemap — путь к карте сайта в xml формате.
так же есть агенты:
- User-agent: Googlebot — указывать команды только для робота Google,
- User-agent: Yandex — указывает команды роботу Яндекса.
Как управлять командами в robots.txt?
Все достаточно просто, как вы видите, команд не так и много и потеряться не в чем. Поэтому, следуя данной логике, вы выполняете следующие действия:
- Файл robots.txt должен быть расположен в корне сайта.
- Изучите структуру файлов вашего сайта, чтобы понимать, что закрывать от индексации, а что нет.
- Как правило, закрывают все файлы, которые содержат код, и открывают все, что связано со стилями и контентом — то, что видит пользователь.
Открываете сайт и смотрите на имеющиеся файлы, которые есть в корне сайта, а затем начинаем писать команды:
User-agent: Googlebot Disallow: /
Такая команда будет закрывать все от индексации в Google.
User-agent: Yandex
Disallow: /wp-admin
Такая команда будет означать для робота Яндекса — запрет папки /wp-admin в WordPress, а все остальное можно.
Давайте рассмотрим пример файла robots.txt сайта на WordPress
User-agent: Googlebot
Disallow: /cgi-bin /скрыть папку от индексации
Disallow: /wp-login.php /скрыть папку от индексации
Disallow: /wp-register.php /скрыть папку от индексации
Disallow: /wp-admin /скрыть папку от индексации
Disallow: /wp-content/cache /скрыть папку от индексации
Disallow: /xmlrpc.php /скрыть папку от индексации/* Робот Google просит не закрывать стили для улучшения индексации в мобильной выдачи, но об этом в другой статье/*
User-agent: Yandex
Disallow: /cgi-bin /скрыть папку от индексации
Disallow: /wp-login.php /скрыть папку от индексации
Disallow: /wp-register.php /скрыть папку от индексации
Disallow: /wp-admin /скрыть папку от индексации
Disallow: /wp-includes /скрыть папку от индексации
Disallow: /wp-content/plugins /скрыть папку от индексации
Disallow: /wp-content/cache /скрыть папку от индексации
Disallow: /wp-content/themes /скрыть папку от индексации
Disallow: /xmlrpc.php /скрыть папку от индексации
Host: https://xseo.top/ /основное зеркало сайта
Sitemap: https://site.com/sitemap.xml /указывает путь к карте сайта
Это пример стандартного файла robots.txt для сайта, работающего на WordPress. Конечно же, этим возможности не ограничиваются. Если у вас большой сайт и много страниц, сервисов и контента, файл robots.txt можно направлять чуть иначе.
Но, это уже другая история.
Полезные ссылки: