Как улучшить краулинговый бюджет сайта
На успешном онлайн-проекте могут обновляться тысячи страниц, систематически публиковаться новый контент, иллюстрации, размещаться видео-, аудиоматериалы. Чтобы «новички» попадали в поисковую выдачу, ими должны заняться поисковые боты, которых называют краулерами. Они ежедневно сканируют, индексируют ресурсы, но проблема заключается в том, что за время захода на веб-площадку они могут обработать только определенные объемы. Влияет ли это на сам бизнес-проект?
Насколько полезна работа этих роботов, что значит краулинговый бюджет сайта – вопросы, которые мы будем рассматривать в нашей статье.
Что такое краулинговый бюджет и как он работает
Краулинговый бюджет – разрешение на обработку определенного числа веб-страниц, которое может быть сделано в течение суток специальными поисковыми роботами – краулерами. Когда они посещают ресурс, то знают, сколько страниц на нем они в состоянии просканировать. Это есть лимит на данную операцию.
В случае, если боты посетили новую или обновленную площадку, им придется исследовать все имеющееся содержание, начиная с кода, заканчивая иллюстрациями, а далее отправить его для индексации. Такая работа дает определенную нагрузку на сервер. Если не будет существовать лимитов, он не выдержит темпов. Краулинговый бюджет позволяет наладить равномерное сканирование, свести к оптимальным значениям нагрузку сервера.
Ограничения касаются не только сервера, но и вычислительных возможностей поисковиков, в том числе роботов.
Почему краулинговый бюджет важен для SEO-продвижения
Если мы рассматриваем небольшой проект, то о краулинговом бюджете не стоит беспокоиться. Все будет проиндексировано в любом случае, потому что количество опубликованного будет ниже действующей квоты.
Но картина сильно поменяется, если раскрученная веб-площадка интенсивно развивается, постоянно публикуя новый контент. В этом случае краулер не может все проанализировать. В результате оперативность попадания «новинок» в индекс падает, а бизнес начинает терять потенциальных клиентов.
Учитывая такой вариант, владельцы интернет-бизнеса предпринимают усилия для СЕО-продвижения, стремятся попасть в десятку лучших и для этого занимаются оптимальностью расходования краулингового бюджета сайта.
Влияет на SEO работа поисковых машин с редактируемыми старыми страничками. Боты с видимой задержкой делают новую индексацию. Для небольших проектов есть возможность добавить обновленные ресурсы в перечень переобхода в ручном режиме (Я.Вебмастер, Гугл Search Console). Сложность возникает при работе с большим количеством страничек.
Какие факторы влияют на объём краулинга
Рассмотрим факторы, которые могут существенно влиять на краулинговый бюджет. Один из неприятных и неподвластных пользователям аспектов, влияющих на работу краулеров, является систематический сбой в функционировании сервера. Сайт может стать недоступным в период проведения сканирования. Негативно отразиться может и частота внесения изменений в контент. Редкое обновление разделов, содержания ведет к тому, что краулеры начинают реже посещать онлайн-проект, сокращаются лимиты. Но существуют и другие факторы.
Структура и иерархия сайта
Подразумевается своеобразная схема расположения контента на веб-площадке, определяющая способ организации информации. Она должна быть понятна на уровне интуиции для посетителей и логичной для анализа поисковыми машинами. Содержание должно группироваться по определенной иерархии, начиная от самых крупных сегментов (категории, разделы), заканчивая узкими подкатегориями, подразделами.
Выбор подходящей и корректной структуры зависит от специфики онлайн-проекта, его целевой аудитории.
Скорость загрузки страниц
Небольшая скорость загрузки несет в себе существенный минус. При ней поисковик расходует много времени на ожидание. Если ситуация носит разовый характер, робот проведет анализ в обычном режиме, но при систематической медлительности поисковая система сократит краулинговый бюджет сайта.
Низкая скорость вынуждает краулера сокращать лимиты, и конкретные страницы окажутся не проиндексированными.
Коды ответов сервера и редиректы
При отсутствии проблем мы имеем дело с кодом 200, при редиректе – 301. Это нормальная работа платформы. Но если появляется код ошибки 404 (говорит о том, что page не находится) или 500 (уведомляет, что веб-площадка пока не доступна), то это отрицательно сказывается на отношении к проекту поисковиков.
Если перенаправление имеет место два и больше раз, лимиты начинают расходоваться при каждом очередном редиректе. Длинные их цепочки в данном случае вредят посетителям и ботам.
Наличие дублей и битых ссылок
Краулер вынужден мониторить различные URL с аналогичным содержанием, тратить на это лимиты для данной веб-площадки. В течение сканирования поисковик обнаруживает дубли и может по своему усмотрению отдать предпочтение какому-то из них. Не факт, что это выбор будет правильным. Таким образом краулинговый бюджет может быть исчерпан, а важная страница не отправится в индекс.
Имеющиеся битые ссылки также оказывают негативное влияние на развитие проекта, поисковики реагируют на них как на некачественный контент.

Image by vectorjuice on Freepik.
Ссылочный профиль (внутренний и внешний)
Контент, имеющий значительное число внешних ссылок, может чаще сканироваться роботами. Грамотное, продуманное распределение таких линков позволит управлять действиями краулеров.
Внутренняя ссылочная масса также влияет на ускорение индексации. Получив линк с востребованной, часто посещаемой поисковиками страницы, новый веб быстрее проходит ранжирование.
Как узнать, как расходуется краулинговый бюджет
Получить информацию о расходе краулингового бюджета можно с помощью изучения лог-файлов. Они содержат сведения о функционировании сервера, десктопа, куда поступают обращения роботов, простых пользователей.
Для анализа логов можно использовать различные программы, например: LogViewer или Power BI. Программы дают возможность определить, какие вебы посещал определенный краулер, когда, как часто.
Примерный анализ краулингового бюджета предоставляют панели инструментов от таких платформ, как Яндекс (Я.Вебмастер), Google (консоль поиска).
Как оптимизировать краулинговый бюджет: рекомендации
Краулинговый бюджет не может напрямую влиять на интенсивность трафика, позиции, но это не отменяет его оптимизацию, работу над увеличением. Сделать это можно благодаря нескольким подходам.
Удаление дублей и технических страниц
Проведение своеобразной чистки от всего ненужного, которое способно оттянуть лимитированные средства на себя. Для избавления рекомендуется воспользоваться нижеприведенными методами:
- Установка запрета через robots.txt. Способ подходит для большого количества дублей (возможно, фильтров в каталоге). Для исключения повторов из индексации следует создать правило для их общей части URL. Важно обратить внимание, под запрет не должны попадать посадочные УРЛы.
- Применение 301 редиректа. Он помогает склеить зеркала, менять структуру веба. Установка проводится посредством файла .htaccess.
- Тег meta name="robots". Своеобразное прямое руководство для краулера, которое прописывается в HTML. Способ применяем для технических дублей.
- Тег rel=”canonical”. Данный элемент в HTML-коде дает понять боту от Гугл, что адрес принадлежит основной странице. Таким способом можно закрыть от индекса адреса с UTM-метками, определенные разделы и т. д.
- Физическая «борьба» с повторяющимся содержанием. Имеется в виду полное удаление страниц из общей архитектуры, внутренней перелинковки. Подход применим для статического контента с минимальной важностью. Сперва рекомендуется рассмотреть трафик, сделать анализ ссылочного массива.
Работа с robots.txt и настройка Sitemap.xml
Данные файлы играют важную роль в работе поисковика, они ставят краулеры в известность о новых страницах, какие из имеющихся не получили статус важных для проведения сканирования. Мусорный контент следует блокировать в robots.txt, не использовать в sitemap. В карте должно находиться только то, что актуально для пользователей.
Выполняя настройку robots.txt, вы закрываете или открываете для работы информацию (второстепенную, лишнюю или важную). Основные требования к данному документу со стороны поисковиков можно увидеть в Я.Справке и Гугл.Справке.
Сокращение цепочек редиректов и ошибок 404
Поисковики отмечают различные изменения в УРЛах, даже если адреса отличаются очень незначительно. Для непосредственно оптимизации, а также для краулингового бюджета важно корректно настроить редиректы. Малое число схожих страниц поможет сэкономить лимит для целевых адресов.
Имеются различные коды веб-ответов. При корректной работе разделов код будет выдавать «200». Нормальным будет считаться ответ «301», относящийся к редиректу, к «переезду» содержимого странички на другой адрес. Появление остальных видов кодов необходимо свести к минимуму, например «error 404», или совсем исключить.
Необходимо удалять битые ссылки, которые переадресовывают посетителей на ресурсы, которых в природе не существует. В данном случае «404» отрицательно будет влиять на формирование лояльности у пользователей, функционирование поисковиков. Краулинговый бюджет сайта будет расходоваться нерационально, робот может не дойти до конечного URL.
Использование заголовков Last-Modified и кэширования
Last-Modified фиксирует дату, время, когда произошло крайнее изменение на сервере, например, html-документа, изображения и т. д. Это дает возможность обозревателям, различным приложениям пользователей понять, была ли модификация с момента последнего обращения. Если изменения имели место, то загружается новая версия, проводится новое кэширование.
Полезность видится в:
- сокращении нагрузки на краулеров, ускорении индексации;
- ускорении загрузки, экономии трафика;
- уменьшении загрузки сервера.
Чтобы настроить заголовок для статического веб-ресурса, нужно на всех страничках указывать Last-Modified с датой, когда произошло последняя модификация. В случае с динамическим вариантом, где контент систематически обновляется, заголовок можно отправить на PHP с добавлением кода в <head>.
Улучшение внутренней перелинковки
Опыт показывает: чем скромнее ссылочный поток, ведущий на страницу, тем меньше на нее будет заходить для сканирования робот. Для оптимизации перелинковки специалисты советуют:
- создать продуманное семантическое ядро, которое потом разбить на тематические группы;
- сформировать правильную структуру онлайн-площадки, которая сможет направлять бота в необходимом для владельца порядке;
- распределить ссылочную массу между значимыми для продвижения проекта веб-составляющими;
- не увлекаться линками, внедряя их в контент гармонично, равномерно;
- побуждать посетителей переходить к активации гиперссылки;
- делать анализ карты кликов для выявления малоэффективных анкоров;
- умело перемежать ручную, автоматическую перелинковку, используя специальные плагины, сервисы.
Повышение скорости загрузки страниц
Медленная работа интернет-проекта заставляет краулеров долго считывать данные, это заметно сказывается на краулинговом бюджете. Чтобы этого не было, рекомендуется периодически проверять скорость загрузки с помощью ряда бесплатных сервисов. А также:
- выбирать качественного, надежного хостинг-провайдера, обеспечивающего бесперебойность в работе, корректные настройки, обслуживание оптимального количества клиентов на виртуальном хостинге;
- настраивать кэширование, чтобы акцент делался на медленных запросах, расширении TTL-кэша;
- оптимизировать графические элементы, CSS, Java.
Укрепление ссылочного профиля
Не все люди, занимающиеся оптимизацией, знают о взаимозависимости ссылочного окружения и краулингового бюджета. Ресурсы, на которые указывают внешние линки, чаще пользуются вниманием поисковых систем. Это необходимо учитывать при создании ссылочного профиля, увеличения ссылочных объемов.
Заключение
Чтобы бизнес в интернете успешно развивался, рекомендуется тщательно прорабатывать все погрешности, чтобы максимально оптимизировать краулинговый бюджет. Это положительно скажется на ранжировании, повысит качество сайта в целом.
Оцените статью