Технический SEO: карта сайта (sitemap.xml) и robots.txt

Когда сайт растет, без внутреннего навигатора роботу сложно. На помощь приходят два простых файла: карта сайта и robots.txt. Они не украшают витрину, зато экономят краулинговый бюджет, ускоряют появление новых страниц и страхуют от случайных утечек черновиков.

Зачем вообще нужны эти файлы

Карта сайта указывает поисковику, какие URL считать каноническими, где искать основные разделы и когда страница менялась. Это не кнопка «проиндексируй немедленно», но грамотный список ссылок с метаданными сильно упрощает обход. Особенно заметно это на крупных проектах и медиа.

Robots.txt регулирует право входа в коридоры сайта. Он управляет сканированием, а не самим фактом попадания страницы в индекс. Страницу, закрытую Disallow, все еще могут найти по ссылкам, для удаления из выдачи нужны мета robots noindex или X‑Robots‑Tag, либо авторизация.

Формулировка Технический SEO: карта сайта (sitemap.xml) и файл robots.txt звучит громоздко, но суть проста. Один файл показывает, что важно, другой подсказывает, куда не ходить. Вместе они задают ритм обхода и снижают шум.

Как собрать карту сайта без ошибок

Используйте XML-формат по стандарту Sitemaps. В один файл помещается максимум 50 000 URL или 50 МБ в несжатом виде, для больших проектов делайте индекс карт. Разделяйте по типам: основной контент, изображения, видео, новости.

Вносите только страницы с кодом ответа 200, без дублей и с каноническими адресами. Параметры фильтров и сессий не включайте. Для мультиязычных разделов пригодится разметка hreflang прямо в карте, чтобы роботы быстрее сопоставляли версии.

Поле lastmod обновляйте по делу, когда меняется содержимое, а не дата правки верстки. Частые «пустые» обновления не ускоряют индексирование и только путают логи. Пинговать поисковики можно, но стабильный график генерации карты и ссылка на нее в robots.txt работают не хуже.

Элемент карты	Рекомендация
Формат	XML, при больших объемах используйте индекс карт
URL	Только канонические, доступные, код 200
lastmod	Отражает значимые изменения контента

Нюансы robots.txt, о которых часто забывают

Disallow не должен ломать рендеринг. Не закрывайте каталоги с CSS, JS и важными шрифтами, иначе робот не увидит нормальный интерфейс и исказит оценку страницы. На практике встречал проект, где запрет /static/ лишил карточки товаров корректного отображения в обходе.

Директивы User-agent, Disallow, Allow пишите последовательно и явно. Строку Sitemap добавьте в конец, чтобы робот легко нашел карту: это ускоряет первичное знакомство. Параметр Crawl-delay поддерживают не все: Google его игнорирует, Яндекс и Bing учитывают.

Проверяем, обновляем, публикуем

Размещайте robots.txt по адресу сайт/robots.txt и следите, чтобы сервер отдавал код 200 и нужную кодировку. Карту сайта публикуйте по постоянному URL и укажите на нее в robots.txt, а также добавьте в панели вебмастеров: в Google Search Console через раздел «Файлы Sitemap», в Яндекс Вебмастере аналогично.

Проверяйте доступность конкретных URL через инспекцию в инструментах для вебмастеров. Это покажет, видит ли робот страницу, не мешают ли запреты и не вводят ли в заблуждение редиректы. Логи сервера пригодятся для оценки краулингового бюджета и частоты обхода.

Типовые правила в robots.txt

Начните с универсального блока для всех роботов. Сформулируйте запреты адресно: закрывайте служебные разделы, формы поиска, корзину. Если есть поддомены, у каждого должен быть свой robots.txt.

User-agent: *
Disallow: /admin/
Disallow: /search/
Allow: /admin/assets/
Sitemap: https://example.com/sitemap.xml

Короткая памятка

Генерируйте карту автоматически при изменении контента и проверяйте размер файлов. Следите за 301-редиректами: в карту должны попадать конечные адреса, а не промежуточные.

Не пытайтесь с помощью Disallow скрыть конфиденциальные материалы. Для этого годятся пароли, закрытые разделы и заголовки noindex на уровне ответа сервера.

Регулярно просматривайте отчеты по ошибкам в картах сайта. Если робот уперся в 404 или бесконечные параметры, чистите источники ссылок и обновляйте правила.

При бережном обращении эти два файла становятся простым и надежным инструментом: сайт сканируется чище, изменения появляются в выдаче быстрее, а вы меньше тратите время на ручные правки и «пожары» в индексации.