Когда сайт растет, без внутреннего навигатора роботу сложно. На помощь приходят два простых файла: карта сайта и robots.txt. Они не украшают витрину, зато экономят краулинговый бюджет, ускоряют появление новых страниц и страхуют от случайных утечек черновиков.
Зачем вообще нужны эти файлы
Карта сайта указывает поисковику, какие URL считать каноническими, где искать основные разделы и когда страница менялась. Это не кнопка «проиндексируй немедленно», но грамотный список ссылок с метаданными сильно упрощает обход. Особенно заметно это на крупных проектах и медиа.
Robots.txt регулирует право входа в коридоры сайта. Он управляет сканированием, а не самим фактом попадания страницы в индекс. Страницу, закрытую Disallow, все еще могут найти по ссылкам, для удаления из выдачи нужны мета robots noindex или X‑Robots‑Tag, либо авторизация.
Формулировка Технический SEO: карта сайта (sitemap.xml) и файл robots.txt звучит громоздко, но суть проста. Один файл показывает, что важно, другой подсказывает, куда не ходить. Вместе они задают ритм обхода и снижают шум.
Как собрать карту сайта без ошибок
Используйте XML-формат по стандарту Sitemaps. В один файл помещается максимум 50 000 URL или 50 МБ в несжатом виде, для больших проектов делайте индекс карт. Разделяйте по типам: основной контент, изображения, видео, новости.
Вносите только страницы с кодом ответа 200, без дублей и с каноническими адресами. Параметры фильтров и сессий не включайте. Для мультиязычных разделов пригодится разметка hreflang прямо в карте, чтобы роботы быстрее сопоставляли версии.
Поле lastmod обновляйте по делу, когда меняется содержимое, а не дата правки верстки. Частые «пустые» обновления не ускоряют индексирование и только путают логи. Пинговать поисковики можно, но стабильный график генерации карты и ссылка на нее в robots.txt работают не хуже.
| Элемент карты | Рекомендация |
|---|---|
| Формат | XML, при больших объемах используйте индекс карт |
| URL | Только канонические, доступные, код 200 |
| lastmod | Отражает значимые изменения контента |
Нюансы robots.txt, о которых часто забывают
Disallow не должен ломать рендеринг. Не закрывайте каталоги с CSS, JS и важными шрифтами, иначе робот не увидит нормальный интерфейс и исказит оценку страницы. На практике встречал проект, где запрет /static/ лишил карточки товаров корректного отображения в обходе.
Директивы User-agent, Disallow, Allow пишите последовательно и явно. Строку Sitemap добавьте в конец, чтобы робот легко нашел карту: это ускоряет первичное знакомство. Параметр Crawl-delay поддерживают не все: Google его игнорирует, Яндекс и Bing учитывают.
Проверяем, обновляем, публикуем
Размещайте robots.txt по адресу сайт/robots.txt и следите, чтобы сервер отдавал код 200 и нужную кодировку. Карту сайта публикуйте по постоянному URL и укажите на нее в robots.txt, а также добавьте в панели вебмастеров: в Google Search Console через раздел «Файлы Sitemap», в Яндекс Вебмастере аналогично.
Проверяйте доступность конкретных URL через инспекцию в инструментах для вебмастеров. Это покажет, видит ли робот страницу, не мешают ли запреты и не вводят ли в заблуждение редиректы. Логи сервера пригодятся для оценки краулингового бюджета и частоты обхода.
Типовые правила в robots.txt
Начните с универсального блока для всех роботов. Сформулируйте запреты адресно: закрывайте служебные разделы, формы поиска, корзину. Если есть поддомены, у каждого должен быть свой robots.txt.
- User-agent: *
- Disallow: /admin/
- Disallow: /search/
- Allow: /admin/assets/
- Sitemap: https://example.com/sitemap.xml
Короткая памятка
Генерируйте карту автоматически при изменении контента и проверяйте размер файлов. Следите за 301-редиректами: в карту должны попадать конечные адреса, а не промежуточные.
Не пытайтесь с помощью Disallow скрыть конфиденциальные материалы. Для этого годятся пароли, закрытые разделы и заголовки noindex на уровне ответа сервера.
Регулярно просматривайте отчеты по ошибкам в картах сайта. Если робот уперся в 404 или бесконечные параметры, чистите источники ссылок и обновляйте правила.
При бережном обращении эти два файла становятся простым и надежным инструментом: сайт сканируется чище, изменения появляются в выдаче быстрее, а вы меньше тратите время на ручные правки и «пожары» в индексации.