Как заблокировать ботов на сайте своими силами и с помощью Cloudflare
Интернет-современность диктует условия. Владельцам веб-ресурсов частенько приходится взаимодействовать с роботами. Это своеобразное явление не встретишь в обыденной, физической жизни. В контексте сегодняшней темы разговор идет об алгоритмах, осуществляющих контроль доступности сайтов, проведение анализа контента, поисковой выдачи, другие операции, не всегда полезные для проектов. Чересчур активная деятельность роботов может привести к ухудшению доступности, работоспособности ресурса. Тогда возникает вопрос: как блокировать ботов на сайте, обеспечить нормальное функционирование веба.
Что такое роботы в контексте веба
Роботы (их еще называют ботами) представляют собой некий комплект программ, алгоритмов, заточенных под определенные цели. Для их достижения боты, посещая онлайн-проекты, собирают различные сведения для последующего анализа.
Армию роботов условно делят на «хороших», «плохих». Все зависит от потребностей владельцев платформ: одни могут приветствовать индексацию на Yandex, другим она мешает. Есть варианты, которые неприемлемы для всех:
- распространение вирусных программ;
- спровоцированный скачок трафика;
- мошенничество посредством кликов.
В этом случае блокировать ботов на сайте необходимо.
Как определить, что сайт посещают боты
Помимо нетипичного поведения пользователей на сайте, необъяснимого скачка посещаемости, трафика из нетипичных для проекта регионов, визиты «гостей» помогут обнаружить несколько способов:
- С помощью Яндекс.Метрики определяют, сколько было посещений проекта, в том числе без учета нежелательных визитеров. Анализируя показатели ежедневно, приходит понимание, в какой конкретно период ресурс пользуется у них спросом.
- Содержащийся в Метрике «Вебвизор» позволит ознакомиться с действиями пользователей на страницах веб-площадки.
- Проведение логического анализа статистических данных. Если на ресурсе наблюдается немотивированный скачок трафика — это повод найти источник, поставляющий нежданных «гостей». Необходимо отследить, проанализировать тип переходов, если основная часть — прямые, возможно, речь идет о нашествии роботов.
Данных визитеров определить несложно: они часто бездействуют, интересуются мало интересным обычным людям контентом, скроллят со скоростью, неприемлемой для чтения. Лучший способ обезопаситься от неприятностей — заблокировать их.
Image by vectorjuice on Freepik.
Какие боты считаются легитимными
Легитимные — «хорошие» боты, действующие во благо сайта. Они заходят на веб-площадку в целях поисковой оптимизации, получения определенных сведений, аналитики.
Не рекомендуется хороших ботов блокировать на сайте, это может уменьшить видимость проекта в поисковиках, других платформах. К блокировке обращаются только для достижения определенных бизнес-целей.
Отличают несколько типов легитимных роботов:
- мониторинговые (типа Pingdom);
- для проверки бэклинков;
- для соцсетей;
- фидфетчеры;
- партнерские;
- сканеры поисковиков.
Как блокировать «вредных» ботов
Если от провайдера пришло уведомление, что превышен выделенный объем процессорного времени — самое время начать блокировать боты на сайте. Это приведет к уменьшению нагрузки на сервер. Не следует банить всех подряд, под «раздачу» могут попасть user-агенты, являющиеся реальными людьми.
Через Apache и .htaccess
Блокировать подобным образом удобно — боты, сканеры часто не обращают внимание на директивы robots.txt. Применение файла сервера Апач .htaccess — универсальный метод защиты от спама. Он должен находиться в корневой папке ресурса на сервере с указанием «универсальный блокировщик спам-ботов».
Существует нюанс при применении данного способа: большой объем записей спровоцирует замедление работы портала.
Через Nginx
Чтобы сделать блокировку через Nginx, используются следующие способы:
- По user agent — происходит бан визитеров, имеющих в заголовке запроса строчку, подпадающую под условия фильтрации.
- По IP. Блокируется определенный или несколько хостов.
- Referer. Метод помогает перекрыть трафик с нежелательного источника.
Через robots.txt
Это несложный текстовый файл, содержащий инструкцию для поисковиков — что разрешается, что запрещается. Таким способом, в целях уменьшения нагрузки может ограничиваться индексирование некоторых страничек сайта. Но существует условие: робот не должен игнорировать правила, содержащиеся в файле.
Необходимо отслеживать, какие страницы закрываются для данных программ. Непродуманное закрытие может спровоцировать ошибки индексации.
Блокировка по IP
Блокировать по IP имеет смысл, когда с него посылается большое количество запросов. Однако, иногда это не решит проблемы — в запасе у «плохих парней» много адресов. При попадании в бан одного программа быстро переключается на следующий адрес.
Защита от ботов с помощью Cloudflare
Эту программу используют в качестве защиты многие проекты. Причиной тому ряд достоинств:
- помогает снизить нагрузку на ресурс, кэшируя у себя изображения;
- дает защиту от DDoS-атак;
- при определенной настройке распространяет защиту на роботов, не поддерживающих HTTP2;
- все вышеназванные пункты включаются в бесплатный тариф.
Минусов два:
- не защищает от накрутки имитации пользовательской деятельности;
- временами может «прилетать» бан IP от РКН.
Программа сравнима с условным барьером, пропускающим реальных пользователей и полезных ресурсу поисковиков, но преграждающим путь остальным роботам, мошенникам.
Для установки Cloudflare необходима учетная запись, после оформления необходимо получить адреса серверов. Их нужно, скопировав, вставить в строки DNS-настроек домена ресурса. Сутки спустя весь поток посетителей будет проходить отбор через эту программу.
Заключение
Излишний интерес к веб-проекту не всегда идет на пользу, отражается на его работоспособности, скорости. Поэтому не рекомендуем стесняться отправлять в бан особых наглецов. В статье мы поделились базовыми сведениями о некоторых способах блокировки, надеемся, что это поможет начать выстраивать взаимодействие с различными типами ботов.
Оцените статью