Правильный robots.txt

Файл robots.txt — это основной файл, описывающий правила обработки страниц поисковым роботов. Данный файл нужен для указания основного имени сайта, карты сайта (sitemap.xml), открытых и закрытых разделов сайта.
Файл robots.txt включает следующие директивы:

  • User-agent — директива указывающая для какого робота нижеследующие правила
    • * - все роботы
    • Yandex — основной робот Яндекс
    • Googlebot — основной робот Google
    • StackRambler — поисковый робот Рамблер
    • Aport — поисковый робот Апорт
    • Slurp — робот Yahoo
    • MSNBot — робот MSN
  • Disallow — директива запрета части сайта
  • Allow — директива разрешения части сайта
  • Host — директива указания основного имени сайта
  • Sitemap— директива указания карты сайта (sitemap.xml)
  • Crawl-delay — директива указывающая сколько секунд робот может ждать ответа от сайта (необходима на сильно загруженных ресурсах, чтобы робот не посчитал сайт недоступным)
  • Clean-param — директива описывающая динамические параметры не влияющие на содержимое сайта

Помимо директив в robots.txt используются спец символы:

  • * - любай (в том числе и пустая) последовательность символов
  • $ — является ограничением правила

Для составления robots.txt используются вышеперечисленные директивы и спет символы по следующему принципу:

  • Указывается имя робота для которого пишется список правил
    (User-agent: * - правило для всех роботов)
  • Пишется перечень запрещенных разделов сайта для указанного робота
    ( Disallow: / - запрет индексации всего сайта)
  • Пишется перечень разрешённых разделов сайта
    (Allow: /home/ — разрешен раздел home)
  • Указывается имя сайта
    (Host: crazysquirrel.ru — основное имя сайта crazysquirrel.ru)
  • Указывается абсолютный путь до файла sitemap.xml
    (Sitemap: http:// crazysquirrel.ru/sitemap.xml)

Если на сайте нет запрещенных разделов, то robots.txt должен состоять минимум из 4 строчек:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: http://crazysquirrel.ru/sitemap.xml

Проверить robots.txt и то, как он влияет на индексацию сайта можно с помощью инструментов Яндекса

Посмотреть и оставить комментарии

Правильный robots.txt