В основном, robots.txt предназначен для регулирования доступа к сайту, его частям или отдельным файлам. Должен находится в корневой папке сайта, принимает стандартные инструкции (директивы): User-Agent и Disallow. Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается (не интерпретируется) сканерами.
В первой части приведённого примера в в качестве User-agent стоит звёздочка -
обращаемся ко всем роботам, которые прислушиваются к инструкциям в файле
robots.txt . Путь к файлу может быть как
абсолютным, так и относительным к корневой папке.
В первых двух случаях запрещаем доступ ко всем файлам в соответствующих
папках, в третьем и четвёртом - к конкретным файлам.
Во второй части роботу Google запрещаем сканировать
весь наш сайт.
Обратите внимание на отсутствие дополнительных пустых
строк между именем робота (User-agent) и указаниями для него.
Дополнительные директивы (могут не поддерживаться поисковыми роботами, так сказать, официально; поддерживаются большинством основных поисковых систем, включая Google, Yahoo, MSN и Ask): Allow - полезна, когда Вы запрещаете посещение и индексацию целой папки (директории), за исключением некоторых файлов; Crawl-delay - задаёт промежуток (в секундах) между последовательными обращениями к серверу; Sitemaps auto-discovery - указывает url карты сайта. В качестве примера:
Если Вы пытаетесь скрыть от посторонних глаз ценную информацию, имейте в виду, что не все сканеры будут прислушиваться к Вашим инструкциям (как сказано на http://www.robotstxt.org/,считайте, что Disallow - это запрещающий знак, а не дверной замок).
Если у Вас возникли вопросы по поводу robots.txt:
the Web Robot Pages -
an information resource dedicated to web robots (да, только на английском);
использование
robots.txt - в помощь веб-мастеру от Яндекса;
Robots Exclusion Standard -
страничка Википедии (en).