активное фото
60 000+ клиентов уже выбрали Макхост

Как закрыть сайт от индексации в robots.txt

В процессе веб-разработки специалистам нередко приходится ограничивать доступ к сайту для роботов поисковых систем. От индексации необходимо закрывать страницы с конфиденциальными данными (например, профили пользователей), результаты поиска по ресурсу, дубликаты, административную часть проекта и другие служебные страницы. Скрывать информацию от индексирования можно разными способами: в HTML-коде с помощью тега noindex, на уровне сервера в .htaccess, а также через системный файл robots.txt. О последнем методе и пойдет речь в нашей статье. Мы расскажем, как закрыть сайт от индексации в robots.txt: какие директивы прописать для закрытия всего веб-ресурса, отдельных страниц и папок.

Закрытие от индексации через файл robots.txt

Роботс.тхт представляет собой обычный текстовый файл, в котором прописываются указания для краулеров поисковиков. Они воспринимают их не как строгие правила, а как рекомендации, однако закрытие сайта от индексации начинается именно с этого файла.

Robots.txt размещен в корне сайта. Если его там нет, создайте txt-файл с таким именем самостоятельно. Поисковые боты учтут ваши команды, если роботс.тхт будет:

  • весить не больше 500 КБ;
  • находиться в корневом каталоге;
  • содержать в названии только буквы нижнего регистра;
  • доступен, т. е. при запросе к файлу сервер должен отдавать код 200 ОК.

Для проектов, работающих на WordPress, взаимодействие с robots возможно через SEO-плагины. Ниже мы распишем, как создать полный или частичный запрет индексации для «пауков» Яндекса и Google.

Как закрыть сайт от индексации в robots.txt.

Изображение от Freepik.

Запрет индексации всего сайта

Чтобы полностью спрятать веб-сайт от индексирования всеми поисковыми системами, в robots.txt нужно прописать только две строчки:

User-agent: *
Disallow: /

Директива user-agent указывает на робота, для которого действуют правила, описанные в этом файле. Спецсимвол * означает, что команда распространяется на все поисковики. Если вам нужно скрыть сайт только от определенного бота, в значении user-agent нужно вписать его имя: например, Yandex или Googlebot.

Параметр disallow (запретить) — это и есть сама команда. Косая черта обозначает, что закрытыми для индексации являются все страницы ресурса.

Существует также противоположная директива allow (разрешить), при помощи которой можно открыть веб-сайт только для одного робота. В таком случае понадобиться уже больше строк:

User-agent: * 
Disallow: /
User-agent: YandexImages 
Allow: /

Таким образом вы закроете site для всех поисковых ботов, кроме того, который индексирует изображения для Яндекс.Картинок. Аналогичным путем можно скрыть информацию от одного поисковика, но разрешить обход остальным.

Запрет индексации папки

Иногда от индексации необходимо закрыть определенный раздел или папку с файлами. Для этого используются те же директивы, что и при закрытии всего сайта — меняется только значение основной команды. Скрыть от ботов поисковиков отдельный каталог можно путем добавления в robots.txt конструкции следующего вида:

User-agent: * 
Disallow: /catalog/

Вместо /catalog/ вы указываете название папки, которую нужно закрыть от индексирования. По обеим сторонам названия обязательно должен присутствовать знак слэша. В результате краулеры начнут игнорировать все страницы или файлы, содержащиеся внутри заданной директории.

Если же для какого-то конкретного объекта в этой папке сканирование требуется разрешить, дополнительно используйте команду allow:

User-agent:* 
Disallow: /catalog/
Allow: /catalog/file.php

Где file.php — имя нужного файла.

Запрет индексации страницы

Скрывать от внимания поисковых систем отдельные страницы приходится каждому веб-мастеру. Делается это по той же схеме, что описана выше. Открываете robots.txt и вписываете код в формате:

User-agent: * 
Disallow: /page.html

В этом случае значение disallow должно включать относительный адрес веб-страницы, которую нужно закрыть от индексации. Не нужно писать URL полностью, с префиксом и доменом — укажите только часть ссылки после первого слэша.

Если вы хотите запретить обход сразу нескольких веб-страниц, примените директиву disallow для каждой в отдельности. Перечисление их через пробел будет считаться ошибкой.

Как проверить, работает ли запрет от индексации

Мы уже сказали, что поисковые системы не следуют указаниям в robots.txt строго: они могут принять во внимание описанные команды, но все равно включить контент сайта в индекс. После создания и редактирования файла убедитесь, что он заполнен правильно, не содержит технических ошибок и загружен на сервер в корневую папку проекта. Сделать проверку можно с помощью сервисов веб-аналитики Яндекс.Вебмастер и Google Search Console. Они просканируют роботс и выявят все изъяны при их наличии.

После этого нужно проверить, удалось ли закрыть ресурс от индексации. Сделать это можно в вышеупомянутых панелях — в обеих сразу или только в той, от поисковика которой требовалось скрыть информацию.

Яндекс.Вебмастер

В панели от Яндекса есть отдельный инструмент для анализа robots.txt. В нем можно указать адрес сайта, TXT-файл которого нужно проверить, или вручную скопировать его содержимое в соответствующее поле. После этого нажмите «Проверить», и система быстро проанализирует код на наличие ошибок.

Чтобы узнать, закрыл ли Яндекс от индексации конкретную страницу на сайте, вам потребуется зарегистрировать его в сервисе. После авторизации найдите в боковом меню пункт «Индексирование». Перейдите в его подраздел «Проверка страницы», введите полный URL в открывшуюся адресную строку и нажмите «Проверить». Результат отобразится в таблице ниже.

Google Search Console

Для начала вам необходимо пройти регистрацию в консоли Google, добавить сайт и подтвердить права на владение доменом. После этого проверка статуса URL проходит в два шага:

  1. Выберите в сайдбаре раздел «Проверка URL» или сразу вставьте адрес веб-страницы, которую требовалось скрыть от Гуглобота, в адресную строку в верхней части интерфейса.
  2. Нажмите «Enter».

Сервис покажет, сработал ли запрет. В этой панели можно также провести анализ роботс.тхт.

Заключение

Настройка индексации сайта — это сложный процесс, во время которого требуется не только обеспечить сканирование продвигаемых страниц, но и скрыть техническую часть проекта от внимания поисковых роботов. Основным средством для достижения этой цели является файл robots.txt. Мы рассказали, как запретить индексирование всего веб-ресурса и отдельной части контента. Надеемся, статья была для вас полезной.

Автор: Макхост

Оцените статью

Закрытие от индексации через файл robots.txt Запрет индексации всего сайта Запрет индексации папки Запрет индексации страницы Как проверить, работает ли запрет от индексации Яндекс.Вебмастер Google Search Console Заключение

Другие полезные статьи

Макхост — лидер авторитетных рейтингов