Robots.txt Лучшие практики для SEO

Применение файла robots.txt, как правило, резко попадает в две противоположные точки зрения: любая из этих записей воспринимается как само собой разумеющаяся, но необходимая директива для поисковых систем (и требуется для CMS); или существует вездесущий страх (правильно размещенный) по поводу размещения любой записи в файле, чтобы она не блокировала доступ поисковой системы к чему-то критически важному на сайте. Применение файла robots

кредит изображения: robotstxt.org

Чего не хватает в этом парадоксальном способе мышления, так это в середине, который использует robots.txt для пользы SEO-кампании.

Многие лучшие практики robots.txt хорошо зарекомендовали себя, и тем не менее мы по-прежнему видим, что неверная информация распространяется на видных местах, например, в этой недавней статье о SEW , В этой статье изложено несколько моментов, которые либо в корне неверны, либо с которыми мы категорически не согласны.

Как использовать файл Robots.txt для SEO

Есть несколько лучших практик, которые должны быть рассмотрены в первую очередь:

  • Как правило, файл robots.txt никогда не должен использоваться для обработки дублированного содержимого. Есть лучшие способы.
  • Операторы Disallow в файле robots.txt являются жесткими директивами, а не подсказками, и их следует рассматривать как таковые. Директивы здесь сродни использованию кувалды.
  • Никакие акции не будут переданы через URL, заблокированные robots.txt. Имейте это в виду при работе с дублированным контентом (см. Выше).
  • Использование robots.txt для запрета URL-адресов не помешает их отображению в поисковой системе Google (подробности см. Ниже).
  • Когда робот Googlebot указан как пользовательский агент, все предыдущие правила игнорируются, а последующие правила соблюдаются. Например, эта директива Disallow применяется ко всем пользовательским агентам:

Пользователь-агент: *

Disallow: /

  • Однако этот пример директив по-разному применяется ко всем пользовательским агентам и Googlebot соответственно:

Пользователь-агент: *

Disallow: /

Пользователь-агент: Googlebot

Disallow: / cgi-bin /

  • Будьте осторожны при запрещении контента. Использование следующего синтаксиса заблокирует каталог / folder-of-stuff / и все, что находится в нем (включая последующие папки и ресурсы):

Disallow: / folder-of-stuff /

  • Ограниченное использование регулярного выражения поддерживается. Это означает, что вы можете использовать подстановочные знаки для блокировки всего контента с определенным расширением, например, такой как следующая директива, которая будет блокировать Powerpoints:

Disallow: * .ppt $

ppt $

robots.txt

  • Всегда помните, что robots.txt является кувалдой и не является тонким. Часто в вашем распоряжении есть другие инструменты, которые могут лучше влиять на то, как поисковые машины сканируют, такие как инструменты обработки параметров в Google и Bing Webmaster Tools, тег meta robots и заголовок ответа тега x-robots.

Уточнение нескольких фактов Давайте исправим несколько утверждений, на которые наткнулась ранее цитированная статья SEW.

Неправильно:

«Запретить поисковым системам индексировать определенные каталоги вашего сайта, которые могут содержать дублирующийся контент. Например, некоторые веб-сайты имеют« печатные версии »веб-страниц и статей, которые позволяют посетителям легко их печатать. Вы должны разрешить индексировать только поисковые системы. одна версия вашего контента. "

Использование robots.txt для дублированного контента - почти всегда плохой совет. Rel canonical ваш лучший друг здесь, и есть другие методы , Приведенный пример особенно важен: издатели с печатными версиями всегда должны использовать rel canonical для правильной передачи капитала, поскольку они часто становятся доступными и связанными с опытными пользователями.

Неправильно:

«Не используйте комментарии в файле robots.txt».

Вы должны обязательно использовать комментарии в вашем файле robots.txt, нет причин не делать этого. На самом деле, комментарии здесь могут быть весьма полезными, очень похожи на комментирование исходного кода. Сделай это!

# Использование роботов или других автоматизированных средств для доступа к сайту Adobe

# без явного разрешения Adobe строго запрещено.

# Подробная информация о Googlebot доступна по адресу: http://www.google.com/bot.html.

# Поисковая система Google может видеть все

Агент пользователя: gsa-crawler-www

Disallow: / events / Executivecouncil /

Disallow: / devnet-архив /

Disallow: / ограничено /

Disallow: / специальные /

# SEO-команда Adobe раскачивается

Неправильно:

В файле robots.txt нет команды "/ allow", поэтому нет необходимости добавлять ее в файл robots.txt. "

Существует хорошо документированная директива Allow для robots.txt. Это может быть очень полезно, например, если вы хотите запретить URL-адреса на основе сопоставленного шаблона, но разрешить подмножество этих URL-адресов. Пример предоставлено Google является:

Пользователь-агент: *

Разрешить: / *? $

Disallow: / *?

... где-нибудь URL, который заканчивается на? канируется (разрешено), и любой URL с? где-то в пути или параметрах нет (Disallow). Честно говоря, это сложный случай, когда что-то вроде Инструментов для веб-мастеров может работать лучше, но наличие такого типа ограничений полезно, когда вам это нужно. Разрешить, безусловно, «разрешено» здесь.

Robots.txt и подавленные органические результаты

Блокированный контент все еще может появляться в результатах поиска, что в некоторых случаях приводит к ухудшению работы пользователей. Когда робот Googlebot заблокирован по определенному URL-адресу, он не имеет доступа к контенту. Когда появляется ссылка на этот контент, URL часто отображается в индексе без фрагмента или информации заголовка. Это становится так называемым "подавленным списком" в органическом поиске.

URL-адреса заблокированы с robots.txt в индексе Google

Одно важное замечание: хотя robots.txt будет создавать эти нежелательные скрытые списки, использование мета-роботов noindex не позволит URL-адресам появляться в индексе полностью, даже когда ссылки появляются на URL-адреса (проницательные читатели заметят, что это происходит из-за того, что URL-адреса мета-noindex сканируются ). Однако использование любого из этих методов (meta noindex или robots.txt disallow) создает стену, которая предотвращает передачу эквити ссылки и текста привязки. Это фактически тупик PageRank.

Общие Gotchas с Robots.txt

  • Как описано выше, если указан пользовательский агент Googlebot, он отменяет все остальные директивы в файле.
  • Ограниченное использование регулярного выражения поддерживается. Это означает, что подстановочные знаки (*), конец строки ($), все перед (^) и некоторые другие будут работать.
  • Убедитесь, что CSS-файлы не заблокированы в robots.txt. По тем же причинам ресурсы javascript, которые помогают отображать расширенный контент, также должны быть исключены из операторов disallow, поскольку это может вызвать проблемы с предварительным просмотром фрагмента.
  • Это может показаться очевидным, но тщательно исключите содержание. Эта директива заблокирует папку "вещи" и все, что находится под ней (обратите внимание на косую черту):

Disallow: / папка / материал /

  • Проверьте свой синтаксис с помощью инструмента тестирования регулярных выражений. К сожалению, Google удалит инструмент robots.txt из Инструментов для веб-мастеров. Это небольшая потеря, поскольку это был быстрый и удобный способ перепроверить синтаксис, прежде чем запускать изменения в файле robots.txt.
  • Помните, что добавление операторов disallow в файл robots.txt не приводит к удалению содержимого. Это просто блокирует доступ к паукам. Часто, когда есть контент, который вы хотите удалить, лучше всего использовать meta noindex и ждать следующего сканирования.

Ресурсы

Disallow: / *?
Где-нибудь URL, который заканчивается на?
?канируется (разрешено), и любой URL с?