Поиск

Правильная настройка файла robots.txt для сайта



Каждая компания стремится, чтобы ее сайт располагался на более высоких строках в поиске Google и “Яндекс”. Выше поднимаются интернет-ресурсы с

  • уникальным контентом;
  • простой структурой;
  • быстрой загрузкой страниц;
  • регулярным обновлением информации;
  • отсутствием динамических страниц;
  • небольшим количеством страниц;
  • настроенным заголовком Last-Modified, сообщающим клиенту время последнего обновления web-страницы.

Поисковые роботы Yandex, Google и других сервисов имеют ограниченное время для оценки полезности сайта. Поскольку робот не человек, он оценивает все страницы подряд. Автоматика не может выбирать. В результате поисковик натыкается на малоинтересные для посетителей портала файлы. Он делает вывод, что интернет-ресурс бесполезен и понижает его в поиске. 

Robots.txt используется для указания, какие web-документы и директории стоит скрыть от индексации. Поисковые машины Yandex, Google, Bing, Mail, Yahoo в первую очередь обнаруживают этот файл с содержащимися в нем директивами. Они оценивают сайт и выполняют содержащиеся в robots.txt условия. После удаления из поиска страниц, являющихся нецелевыми, сразу наблюдается рост индексации сайта.

Некоторые web-документы исключаются с помощью директивы Disallow. Таким образом из индексации убираются:

  • отдельные динамические web-документы

Disallow: /*?lol=1

  • все динамические документы:

Disallow: /*?*

  • также можно свести на нет документы, имеющие динамические характеристики:

Clean-param: lol&wow&bom /.

Robots.txt позволяет удалять “лишние” URL из поиска. Для одностраничника или маленького ресурса файл можно не создавать. Крупный портал или интернет-магазин уже встраивает его в код по необходимости. Файл robots.txt ограничивает доступ Google, Yandex и другим поисковым роботам к документам на HTTP-сервере. 

Для создания файла robots.txt можно использовать блокнот и word, а также другие текстовые, редакторы. Файл размещается в корневой папке сайта. Его адрес: name.com/robots.txt или name.ru/robots.txt. В robots.txt обозначаются правила индексации и ставится расширение: формат txt. Робот поисковой системы ищет файл URL /robots.txt. Команды могут быть обозначены символами любого регистра. Данный факт не влияет на работу поисковых машин. Можно написать как Yandex, так и yandex. Также можно автоматически сгенерировать robots.txt на специальных онлайн-сервисах. Однако в этом случае нет гарантии, что от поисковика окажется скрыта необходимая информация.

Страницы, которые необходимо закрывать для поиска с помощью robots.txt.

  1. Из индексации сайта, продающего товары онлайн, следует исключать страницы с размещенными формами заказа. 
  2. Страницы с фильтрами для товаров в каталогах.
  3. Не должна индексироваться корзина покупок.
  4. URL, содержащие внутренний поиск, которые могут создавать дубли.
  5. web-документы, содержащие формы регистрации на сайте, поскольку на них вводится личная информация.

Иногда эти страницы можно оставить открытыми для индексации. Это необходимо сделать, если их коды содержат keywords.

Роль файла robots.txt для индексации поисковыми машинами

При корректной настройке robots.txt Google и Yandex будут учитывать ее в поиске. Существует вероятность, что на индексацию в других поисковиках файл не сможет повлиять.

Первоначально необходимо настроить директиву User-agent. Она определяет, для какой поисковой системы предназначен файл.

User-agent: Yandex - для всех поисковых роботов Yandex.

User-agent: YandexBot определяет правила для поисковой машины индексации от “Яндекса”.

Все роботы “Гугл” реагируют на директиву User-agent: Googlebot.

Директива, прописывающаяся для для всех роботов, кроме Google и Yandex,  выглядит так: User-agent: *. User-agent говорит роботу, что нужно совершить действие. после нее в коде должна отображаться информация о том, какое именно действие требуется от робота. 

Директивы для отдельных сервисов “Яндекса”:

  • YandexMedia отвечает за данные мультимедиа;
  • YandexAddurl обращается к web-документу, который загрузили, используя форму “добавить URL”;
  • YandexMetrika  для робота “Яндекс. Метрики”;
  • YandexImageResizer используется для мобильных сервисов;
  • YandexImages отвечает за картинки “Яндекса”;
  • YandexVideo - для робота, оценивающего видео на “Яндексе”;
  • YandexBlogs нужен для поиска по блогам;
  • YandexFavicons отвечает за индексацию пиктограмм интернет-ресурсов;
  • YandexDirect - робот для “Яндекс. Директа”;
  • YandexNews, соответственно, для новостей на “Яндексе”;

Для сервисов Google файл robots.txt имеет другие директивы:

  • AdsBot-Google проверяет характеристики целевого web-документа;
  • Googlebot-News предназначен для новостей;
  • Googlebot-Image - работает с картинками “Гугла”;
  • AdsBot-Google-Mobile-Apps нужен для приложений смартфонов;
  • Googlebot-Video - директива для видеохостингов.

Другие поисковые системы применяют свои директивы. Mail.ru для поиска в Mail.ru, sturp для Yahoo, bingbot для Bing.

Настройка robots.txt

В странах СНГ более популярна поисковая система Yandex. В связи с этим требуется отдельно прописывать директивы для него, Google и остальных поисковых роботов.  

Алгоритм настройки файла robots.txt выглядит так:

  • Для начала следует закрыть от поисковых роботов:
  1. админку интернет-ресурса;
  2. регистрацию и авторизацию;
  3. личный кабинет;
  4. формы для заказов и доставки;
  5. корзину с покупками.
  • Исключите из индексации скрипты json, ajax и папку cqi.
  • Необходимо закрыть от поисковиков, кроме Google и “Яндекс”, стили и темы оформления, js.
  • Все функции поиска следует закрыть от индексирования.
  • Убрать от поисковых роботов служебные страницы сайта, где нет ключевых слов (например, с ошибкой 404).
  • Далее необходимо убрать из индексирования все дублирующиеся web-документы, в том числе содержащие технические копии.
  • Удалить из поиска URL, содержащие с сортировку, фильтры, сравнения.
  • Закрыть от поисковиков веб-документы с UTM-метками и сессиями.
  • В поисковой строке браузера необходимо набрать site:site.ru. Откроются страницы, которые видны при индексации. Если среди них оказались лишние, их следует добавить в код файла robots.txt.
  • Добавить директивы Host и Sitemap.
  • В некоторых случаях требуется добавить Clean-Param и Crawl-Delay.
  • На этом этапе стоит провести проверку корректности robots.txt c помощью Google и Yandex.
  • Спустя пару недель стоит снова проверить поисковую выдачу. Если видны страницы, которые должны быть закрыты, требуется повторить алгоритм.

Директивы, использующиеся в создании robots.txt

  • Disallow и Allow используются для закрытия и открытия страниц поисковым роботам. В их коде присутствуют операторы, дающие указания относительно нюансов закрытия и открытия страниц. 

* (звездочка) означает любое количество знаков. Иногда она ставится на месте пропущенных символов. Завершать код звездочкой нет необходимости. Ее нахождение там учитывается в любом случае. 

После $ (знака доллара) символы уже не идут. Он всегда завершает код.

# (решетка) разделяет индексируемые роботом и неиндексируемые документы. Все, что после, поисковиком не определяется.  

Disallow закрывает от индексации web-документы и разделы сайтов. Allow необходима для того, чтобы Yandex, Google или другой поисковик обязательно проиндексировал целевые страницы.

Disallow: *?s=

Disallow: /category/$

Не индексируемые URL:

http://name.com/?s=

http://name.com/?s=keyword

http://name.com/page/?s=keyword

http://name.com/category/

Индексируемые URL:

http://name.com/category/cat1/

http://name.com/category-folder/

Порядок указанных в файле директив не играет роли. Важнее местоположение директорий в коде. 

Allow: *.css

Disallow: /template/

http://name.com/template/ — не определяется поисковиками

http://name.com/template/style.css — так же не видит поисковый робот

http://name.com/style.css — индексируется

http://name.com/theme/style.css — видно поисковому роботу

Есть ситуации, когда для индексирования необходимо указывать Allow в каждой папке, закрытой от поискового робота. Так стоит сделать для таблиц стилей, определяющих сайт уникальным.

Allow: *.css

Allow: /template/*.css

Disallow: /template/

Если необходимо скрыть от поисковых роботов весь сайт, прописывается

User-agent: *

Disallow: /

 

  • Директива Sitemap включается в код файла для указания пути, ведущего к файлу Sitemap. Адрес страницы совпадает с указанным в строке браузера. 

Sitemap: http://shop.com/sitemap.xml

В этом случае также не важно, где в файле robots.txt находится директива.

  • Директива Host указывает, что является основным зеркалом ресурса. Она актуальна для определения в случае с вариантами, имеющими www или не содержащими www. Необходима для индексации поисковыми роботами Mail и Yandex. Для остальных поисковиков директива бесполезна. Основное зеркало при этом содержит https://, но не включает http://. Иногда требуется прописать порт сайта. 

Host: domen.com

Host: https://domen.com

  • Интервал, в течение которого поисковые машины скачивают страницы, определяет директива Crawl-delay. Необходима для больших магазинов или порталов, нагружающих работу сервера. Одностраничники могут обойтись без Crawl-delay. Не влияет на Google. Работает с Mail, Yahoo, Yandex, Bing. Поддерживается поисковыми машинами Яндекса, Mail.Ru, Bing, Yahoo. Время указывается в секундах. Может быть дробным. 

Crawl-delay: 2

Crawl-delay: 1.5

Временной промежуток для скачивания страниц индивидуален для конкретного сайта. Чем больше стоит цифра, тем меньше страниц поисковик загрузит в течение одной сессии. Наиболее подходящее время подбирается для каждого сайта путем тестирования. Лучше начинать с маленьких значений — 0.1, 0.3, 0.4. Впоследствии можно их наращивать. Поисковые машины Mail.Ru, Bing и Yahoo сразу предполагают меньшие показатели. В связи с этим с самого начала для них стоит указывать большие цифры, чем для роботов Яндекса.

  • Директива Clean-param прописывается исключительно для роботов “Яндекса”. Включает параметр страниц и адреса разделов. Закрывает от индексации URL с обозначенными в коде признаками.

Clean-param: book_id http://name.com/documents/

Clean-param: book_id&sid http://name.com/documents/

Clean-param способна скрыть от поисковых машин идентификаторы сессий и UTM-метки. 

Clean-Param: utm_file&utm_name&utm_campaign

Правильно ли создан robots.txt

Поисковые сервисы предусмотрели проверку файла robots.txt:

  • “Яндекс.Вебмастер” осуществляет ее по ссылке - Инструменты - Анализ - robots.txt;
  •  Google Search Console  - Сканирование - Инструмент проверки файла robots.txt.

В результате проверки можно выявить некорректную работу файла robots.txt на сайте или его отсутствие. Среди ошибок:

  • исключение из индексирования robots.txt ( код Disallow: / );
  • UTM-метки, а также индентификаторы сессии продолжают быть видимыми для поисковых машин;
  • нет конкретных указаний по индексации, прописаны только директивы общих правил;
  • файл robots.txt содержит ограниченное количество директив:

Allow: *.jpg

Allow: *.css
Allow: *.png
Allow: *.js
Allow: *.gif

Однако настройки других директорий скрывают файлы jpg, css, png, js, gif от поисковиков.

  • в директиве Host забыли указать протокол HTTPS или сама директива указана в файле несколько раз;
  • нарушения пути к Sitemap;
  • неправильное обозначение зеркала сайта или его протокола.

Оптимизация кода сайта

Читайте также

Оптимизация кода сайта