Файл robots.txt

robots-txtRobots.txt — текстовый файл, расположенный в корневой папке сайта, который предназначен для управления поисковыми роботами. В этом файле можно указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждого бота поисковиков по отдельности.

Для создания файла robots.txt воспользуйся любым текстовым редактором (например, Блокнотом или WordPad’ом), создай файл с именем «robots.txt» и наполни его представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог твоего сайта.

Если тебе лень разбираться в тонкостях, просто скопируй и вставь в файл следующий текст:

User-agent: *
Disallow:

Если же ты хочешь разобраться и улучшить индексацию своего сайта, изучи основные несложные правила поведения ботов на сайте. Они состоят из пяти специальных директив:

1. Директива User-agent указывает, для какого робота будет следующее правило. Можно поставить звездочку (правило относится ко всем роботам) или указать название конкретного робота. Имена самых распространенных: Yandex, Googlebot, ia_archiver и другие. Директива обязательна.

2. Директивы Disallow и Allow запрещают/разрешают сканирование сайта или определенной его части. Возможно ты хочешь запретить определённым роботам сканировать твой сайт. Или ты хочешь закрыть от индексирования некоторые его части, например, для избежания дублирования контента. Директива обязательна.

3. Директива Sitemap указывает роботам местонахождение карты сайта «для роботов». Она необязательна, но лучше её использовать.

4. Специальная директива для Яндекса Host. Она указывает, какая версия сайта (с www или без) является главным зеркалом сайта. Без «склеивания» этих версий, Яндекс будет считать внешние ссылки на них отдельно. И это не единственная проблема. Поэтому, настоятельно советую использовать и эту необязательную директиву.

5. Директива Crawl-delay. Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, используй эту директиву. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву «Crawl-delay» необходимо добавлять в группе, начинающейся с записи «User-Agent», непосредственно после директив «Disallow» («Allow»).

В сети представляются разные примеры файла robots.txt. Я же предлагаю тебе рассмотреть следующий:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /

Sitemap: http://www.site.ru/sitemap.xml

User-agent: Yandex
Crawl-delay: 5
Host: site.ru

Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt здесь — http://webmaster.yandex.ru/robots.xml

P.S.
Если ты интересуешься не роботами, а автомобилями, то тебя порадуют новости автомира на сайте газеты объявлений «Из рук в руки».

Оставьте первый комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*