Применение файла robots.txt, как правило, резко попадает в две противоположные точки зрения: любая из этих записей воспринимается как само собой разумеющаяся, но необходимая директива для поисковых систем (и требуется для CMS); или существует вездесущий страх (правильно размещенный) по поводу размещения любой записи в файле, чтобы она не блокировала доступ поисковой системы к чему-то критически важному на сайте.
кредит изображения: robotstxt.org
Чего не хватает в этом парадоксальном способе мышления, так это в середине, который использует robots.txt для пользы SEO-кампании.
Многие лучшие практики robots.txt хорошо зарекомендовали себя, и тем не менее мы по-прежнему видим, что неверная информация распространяется на видных местах, например, в этой недавней статье о SEW , В этой статье изложено несколько моментов, которые либо в корне неверны, либо с которыми мы категорически не согласны.
Как использовать файл Robots.txt для SEO
Есть несколько лучших практик, которые должны быть рассмотрены в первую очередь:
- Как правило, файл robots.txt никогда не должен использоваться для обработки дублированного содержимого. Есть лучшие способы.
- Операторы Disallow в файле robots.txt являются жесткими директивами, а не подсказками, и их следует рассматривать как таковые. Директивы здесь сродни использованию кувалды.
- Никакие акции не будут переданы через URL, заблокированные robots.txt. Имейте это в виду при работе с дублированным контентом (см. Выше).
- Использование robots.txt для запрета URL-адресов не помешает их отображению в поисковой системе Google (подробности см. Ниже).
- Когда робот Googlebot указан как пользовательский агент, все предыдущие правила игнорируются, а последующие правила соблюдаются. Например, эта директива Disallow применяется ко всем пользовательским агентам:
Пользователь-агент: *
Disallow: /
- Однако этот пример директив по-разному применяется ко всем пользовательским агентам и Googlebot соответственно:
Пользователь-агент: *
Disallow: /
Пользователь-агент: Googlebot
Disallow: / cgi-bin /
- Будьте осторожны при запрещении контента. Использование следующего синтаксиса заблокирует каталог / folder-of-stuff / и все, что находится в нем (включая последующие папки и ресурсы):
Disallow: / folder-of-stuff /
- Ограниченное использование регулярного выражения поддерживается. Это означает, что вы можете использовать подстановочные знаки для блокировки всего контента с определенным расширением, например, такой как следующая директива, которая будет блокировать Powerpoints:
Disallow: * .ppt $
robots.txt
- Всегда помните, что robots.txt является кувалдой и не является тонким. Часто в вашем распоряжении есть другие инструменты, которые могут лучше влиять на то, как поисковые машины сканируют, такие как инструменты обработки параметров в Google и Bing Webmaster Tools, тег meta robots и заголовок ответа тега x-robots.
Уточнение нескольких фактов Давайте исправим несколько утверждений, на которые наткнулась ранее цитированная статья SEW.
Неправильно:
«Запретить поисковым системам индексировать определенные каталоги вашего сайта, которые могут содержать дублирующийся контент. Например, некоторые веб-сайты имеют« печатные версии »веб-страниц и статей, которые позволяют посетителям легко их печатать. Вы должны разрешить индексировать только поисковые системы. одна версия вашего контента. "
Использование robots.txt для дублированного контента - почти всегда плохой совет. Rel canonical ваш лучший друг здесь, и есть другие методы , Приведенный пример особенно важен: издатели с печатными версиями всегда должны использовать rel canonical для правильной передачи капитала, поскольку они часто становятся доступными и связанными с опытными пользователями.
Неправильно:
«Не используйте комментарии в файле robots.txt».
Вы должны обязательно использовать комментарии в вашем файле robots.txt, нет причин не делать этого. На самом деле, комментарии здесь могут быть весьма полезными, очень похожи на комментирование исходного кода. Сделай это!
# Использование роботов или других автоматизированных средств для доступа к сайту Adobe
# без явного разрешения Adobe строго запрещено.
# Подробная информация о Googlebot доступна по адресу: http://www.google.com/bot.html.
# Поисковая система Google может видеть все
Агент пользователя: gsa-crawler-www
Disallow: / events / Executivecouncil /
Disallow: / devnet-архив /
Disallow: / ограничено /
Disallow: / специальные /
# SEO-команда Adobe раскачивается
Неправильно:
В файле robots.txt нет команды "/ allow", поэтому нет необходимости добавлять ее в файл robots.txt. "
Существует хорошо документированная директива Allow для robots.txt. Это может быть очень полезно, например, если вы хотите запретить URL-адреса на основе сопоставленного шаблона, но разрешить подмножество этих URL-адресов. Пример предоставлено Google является:
Пользователь-агент: *
Разрешить: / *? $
Disallow: / *?
... где-нибудь URL, который заканчивается на? ��канируется (разрешено), и любой URL с? где-то в пути или параметрах нет (Disallow). Честно говоря, это сложный случай, когда что-то вроде Инструментов для веб-мастеров может работать лучше, но наличие такого типа ограничений полезно, когда вам это нужно. Разрешить, безусловно, «разрешено» здесь.
Robots.txt и подавленные органические результаты
Блокированный контент все еще может появляться в результатах поиска, что в некоторых случаях приводит к ухудшению работы пользователей. Когда робот Googlebot заблокирован по определенному URL-адресу, он не имеет доступа к контенту. Когда появляется ссылка на этот контент, URL часто отображается в индексе без фрагмента или информации заголовка. Это становится так называемым "подавленным списком" в органическом поиске.
URL-адреса заблокированы с robots.txt в индексе Google
Одно важное замечание: хотя robots.txt будет создавать эти нежелательные скрытые списки, использование мета-роботов noindex не позволит URL-адресам появляться в индексе полностью, даже когда ссылки появляются на URL-адреса (проницательные читатели заметят, что это происходит из-за того, что URL-адреса мета-noindex сканируются ). Однако использование любого из этих методов (meta noindex или robots.txt disallow) создает стену, которая предотвращает передачу эквити ссылки и текста привязки. Это фактически тупик PageRank.
Общие Gotchas с Robots.txt
- Как описано выше, если указан пользовательский агент Googlebot, он отменяет все остальные директивы в файле.
- Ограниченное использование регулярного выражения поддерживается. Это означает, что подстановочные знаки (*), конец строки ($), все перед (^) и некоторые другие будут работать.
- Убедитесь, что CSS-файлы не заблокированы в robots.txt. По тем же причинам ресурсы javascript, которые помогают отображать расширенный контент, также должны быть исключены из операторов disallow, поскольку это может вызвать проблемы с предварительным просмотром фрагмента.
- Это может показаться очевидным, но тщательно исключите содержание. Эта директива заблокирует папку "вещи" и все, что находится под ней (обратите внимание на косую черту):
Disallow: / папка / материал /
- Проверьте свой синтаксис с помощью инструмента тестирования регулярных выражений. К сожалению, Google удалит инструмент robots.txt из Инструментов для веб-мастеров. Это небольшая потеря, поскольку это был быстрый и удобный способ перепроверить синтаксис, прежде чем запускать изменения в файле robots.txt.
- Помните, что добавление операторов disallow в файл robots.txt не приводит к удалению содержимого. Это просто блокирует доступ к паукам. Часто, когда есть контент, который вы хотите удалить, лучше всего использовать meta noindex и ждать следующего сканирования.
Ресурсы
Disallow: / *?Где-нибудь URL, который заканчивается на?
?канируется (разрешено), и любой URL с?