Запрет на индексацию вашего сайта с помощью файла robots.txt и мета-тегов

Есть несколько способов полностью или частично запретить поисковым роботам заходить на ваш сайт. Самый простой способ — это запись в файле robots.txt следующего содержания:


User-Agent: *
Disallow: /

Такая запись полностью запрещает всем поисковым роботам индексировать ваш сайт. Вместо звездочки (*) можно указывать название поискового робота и запрещать обход только ему — у каждой поисковой системы есть свои названия поисковых роботов.

Например, следующая запись запрещает поисковому роботу Яндекса индексацию файлов, лежащих в служебной папке cgi-bin:

User-agent: Yandex
Disallow: /cgi-bin

Есть практика, согласно которой запрещают индексацию папок, связанных с работой системы управления сайтом, а также в случае интернет-магазина — служебных файлов. Все эти папки в таком случае прописываются в открытом для просмотра файле robots.txt, что уже само по себе небезопасно — вы сами сообщаете пути к важным для вас файлам, которыми могут воспользоваться злоумышленники.

В случае систем управления добраться до формы ввода логина и пароля, как правило, достаточно легко методом обычного перебора — тут использование файла robots.txt совершенно не нужно. Мы настоятельно рекомендуем владельцам сайтов не оставлять стандартную пару логина admin и пароля admin. Кроме того, важно понимать, что никакие внутренние страницы, которые нельзя увидеть, не пройдя авторизацию, в индекс поисковой системы попасть по определению не могут.

Из практики продвижения сайтов

В ходе работы в веб-студии мы сталкивались с сайтами, где в файле robots.txt для запрета индексирования были указаны не только служебные папки, но и папки с контентом (целыми страницами, их частями или шаблонами) — фактически, таким образом был задан запрет на индексацию сайта.

Были и другие более утонченные и неочевидные способы запрета индексации — например, с помощью директивы Crawl-delay, отвечающей за частоту обхода сайта поисковым роботом. Во всех этих случаях сайты в индексе поисковой системы отсутствовали.

Тем не менее, корректировать выдачу по определенным ключевым запросам или правильно направлять поискового робота с помощью сайта robots.txt можно, для этого нужно разумно и исключительно по необходимости им пользоваться. Самая распространенная причина использования запрета на индексирование — это необходимость запрета индексирования старых страниц при обновлении структуры сайта для скорейшего обновления кэша поисковой системы.

Подробнее о назначении и использовании директив для каждой поисковой системы можно узнать в спецификациях на соответствующих страницах сайтов поисковых систем. Мы рекомендуем вам обращаться за помощью в раскрутке и продвижении сайтов в поисковых системах к специалистам — веб-студию «Аспект-Воронеж».

Отдельно упомянем мета-тег <meta name=»robots» content=»noindex,nofollow»>, увидеть который можно в исходном коде страниц сайта внутри тега <head> — то есть в самом начале кода. Может встречаться и только одно из слов noindex или nofollow: noindex запрещает индексирование страницы, nofollow — переход по ссылкам с нее. С помощью данного мета-тега можно запретить индексирование отдельно взятой страницы, не используя файл robots.txt.