robots txt для WordPress

Файл robots.txt является одним из основных способов указать поисковой системе, что можно просматривать и использовать на вашем веб-сайте. Ведущие поисковики поддерживают основной функционал, предложенный данной конфигурацией, но есть и дополнительные предписания, которые нужно учитывать при настройке ресурса.

Файл robots txt для WordPress – мощный инструмент, если предстоит работа с SEO-оптимизированным сайтом, но с ним следует обращаться осторожно. Он позволяет запретить ПС доступ к разным файлам и папкам, чтобы улучшить оптимизацию, но не всегда это лучшая практика. Рассмотрим способы и инструкцию по использованию робот для ВордПресс.

Правильный robots txt

robots txt для WordPressВ процессе создания сайта и оптимизационных мероприятий по его продвижению в ТОП-выдачу поисковиков, маленький файл robots txt, где находится правило индексирования, играет ключевую роль. При некорректной конфигурации документа возможны проблемы с показом ресурса на основании пользовательского запроса и привлечением трафика вплоть до полного выпадения из выдачи.

Поисковые системы постоянно совершенствуют способы обхода веб-страниц и индексирования контента. Это значит, что ранее зарекомендованные в качестве лучшей практики методики, больше не работают или даже вредят вашему сайту. Потому требуется учитывать последние тенденции, внедрять простые и расширенные решения, наиболее отвечающие потребностям страниц, и принимать во внимание технологическую составляющую.

Так, если возникают сложные технические проблемы (например, большой веб-сайт электронной коммерции), то блокировка URL-адреса с помощью роботс оправдана. Хотя в ряде случаев такой грубый подход приносит больше вреда, нежели пользы. Сегодня наилучший вариант – полагаться как можно меньше на ВордПресс файл robots txt.

Что делает этот код?

  • В User-agent: *инструкции говорится, что любые следующие инструкции применимы ко всем сканерам.
  • Поскольку мы не предоставляем никаких дальнейших инструкций, мы говорим, что «все сканеры могут свободно сканировать этот сайт без ограничений».
  • Мы также предоставляем некоторую информацию людям, просматривающим файл (ссылающимся на эту страницу), чтобы они понимали, почему файл «пуст».

Запрет URL-адреса в robots txt

Для ограждения обхода или индексирования конкретных частей веб-сайта на базе WordPress со стороны «спайдеров» поисковых систем, можно добавить теги meta robots или заголовки HTTP robots. К примеру, плагин Yoast SEO предоставляет инструменты, которые помогают реализовать эти теги на страницах.

Проблемы с обходом или индексированием, которые не могут быть исправлены с помощью данных тегов, а также предотвращение доступа по другим причинам, рассмотрим далее в руководстве по работе с robots для вордпресс. Кстати, WordPress и Yoast SEO уже автоматически предотвращают индексацию некоторых конфиденциальных файлов и URL-адресов, таких как ваша админка WordPress (через HTTP-заголовок x-robots).

4 причины, почему такой «минимализм» считается лучшим:

  1.  robots.txt создает тупики.

Прежде чем сайт сможет конкурировать за позицию в результатах поиска, поисковые системы должны обнаруживать, сканировать и индексировать страницы. Если владелец заблокировал определенные URL-адреса с помощью robots.txt, поисковые системы больше не могут просматривать эти страницы, чтобы обнаружить другие. Результатом может стать то, что ключевые разделы вообще не будут обнаружены.

  1. robots.txt отрицает ценность ссылки.

Одним из основных правил SEO является то, что ссылки с других страниц могут повлиять на «вес страницы». Если URL-адрес заблокирован, поисковики не только не будут сканировать его, но и не смогут распознавать любое «значение ссылки», указывающее на этот URL, или через этот URL на другие страницы веб-сайта.

  1. Google полностью визуализирует сайт.

Люди привыкли блокировать доступ к файлам CSS и JavaScript, чтобы ПС были сосредоточены на важнейших страницах контента. В настоящее время Google извлекает все стили и JavaScript и полностью визуализирует страницы.

Понимание макета и презентации страницы – ключевая часть того, как она передает качество ресурса. Поэтому Google совсем не нравится, когда ему отказано в доступе к CSS-файлам или файлам JavaScript.

Предыдущая лучшая практика блокировки доступа к wp-includes каталогу и плагинам через robots.txt больше не действительна. Поэтому была произведена работа с WordPress, чтобы удалить правило запрета по умолчанию для wp-includes в версии 4.0. Многие шаблоны WordPress также используют асинхронные запросы JavaScript – так называемые AJAX-для добавления контента на веб-страницы.

  1. Обычно пользователю не нужно ссылаться на карту сайта.

Робот.txt standard поддерживает добавление ссылки на XML-файл sitemap. Это помогает поисковым системам обнаруживать местоположение и содержимое веб-сайта. Однако, это лишняя работа, ведь разработчик уже должен добавить карту сайта в свою учетную запись Google Search Console, Яндекс.Вебмастер и Bing Webmaster Tools для доступа к аналитике и данным о производительности. Если это исполнено, то ссылка в robots txt для wordpress не нужна. Исходя из изложенного, вносить директивы в файл robots.txt, на сегодняшний день нет необходимости, но если у вас есть непреодалимое желание это сделать то ниже представлено руководство по robots.txt.

Руководство по robots txt

robots txt для WordPressРобот тхт для вордпресс – текстовый файл, соответствующий строгому синтаксису и распознается поисковыми системами. Синтаксис файла – 1 или 0 – строг просто потому, что он должен быть машиночитаемым.

Данную директиву обхода контента еще именуют «протоколом исключения ботов», ведь он является результатом консенсуса среди ранних разработчиков spider-поисковиков. Это не официальный стандарт, установленный какой-то компанией, но ведущие ПС его придерживаются.

Инструкция охватывает возможные методы использования robots для wordpress на веб-сайте. Однако, несмотря на кажущуюся простоту, любые ошибки, которые допущены в роботе могут серьезно навредить ресурсу. Потому удостоверьтесь, что полностью прочитали и корректно поняли материал, прежде чем приступать к работе.

Какие функции выполняет правильный robots txt для wordpress?

Искусственный интеллект индексирует веб-страницы, следуя ссылкам для перехода с сайта «A» на сайт «B», на сайт «C» и т.д. Прежде, чем будут изучены спайдеры любой страницы, система откроет robots.txt файл этого домена, который «подскажет», какие URL-адреса на этом сайте разрешено индексировать.

Производится кэширование содержимого, однако, внесенные изменения сразу же отражаются, благодаря регулярным обновлениям. Для корректности процесса файл роботс для вордпресс всегда должен находиться в корневом каталоге домена. Также крайне важно, чтобы данный файл носил неизменное название robots.txt. Имя чувствительно к регистру, и его изменение или переименование может привести к отказу в работе файла.

Плюсы использования robots.txt

Обычно считается, что search spider приходит на веб-сайт с заранее определенным «резервом» того, сколько страниц он будет сканировать (или сколько ресурсов/времени он потратит, основываясь на авторитете/размере/репутации сайта). В SEO это называют бюджетом обхода.

Данное значит, что если вы заблокируете некоторые разделы сайта из spider-поисковика, то можете разрешить использовать оставшийся бюджет обхода контента для других разделов. Иногда полезно блокировать поисковые системы от обхода проблемных разделов, особенно для ресурсов, где предстоит много работы по зачистке и оптимизации. После того, как разработчик убрал лишнее, запрет можно снять.

Там, где бюджет обхода контента особенно важен, веб-сайт использует много параметров запроса для уточненной фильтрации и сортировки данных. Если имеется 10 различных параметров запроса, каждый из которых имеет различные комбинируемые значения, это приведет к сотням, если не тысячам возможных URL-адресов.

Тогда Роботс блокирует все URL-адреса на веб-сайте, содержащие строку запроса: Disallow: /*?*. Это поможет убедиться, что искусственный интеллект распознает только ключевые URL и не будет «распыляться» на второстепенные.

Минусы

Однако, даже если можно внедрить robots.txt файл, чтобы сказать спайдеру, куда ему вход запрещен, нельзя сообщить ботам, какие URL-адреса не отображаются в результатах выдачи. Другими словами, блокировка отдельного домена не остановит его индексирование.

Если система найдет достаточное количество ссылок на какой-то URL, то включит его в выдачу, но не распознает содержимое страницы. Для надежной блокировки страницы от отображения в результатах поиска, необходимо использовать noindex meta robots tag. В таком случае, чтобы ПС нашла обозначенный тег, она должна иметь возможность доступа к этой странице.

Также, если невозможно выполнить обход страницы, то не произойдет распределение значения ссылки. Когда какой-то раздел заблокирован с помощью robots txt вордпресс – это тупиковый путь. Любое значение ссылки, которое могло бы течь на (и через) эту страницу теряется.

Синтаксис robots.txt: основные и дополнительные параметры

Файл robots.txt включает в себя один или несколько блоков директив, каждая из которых начинается с линии user-agent. «User-agent» – это наименование конкретного search spider, к которому он обращается.

Можно иметь либо один скрипт для всех поисковых систем, проставляя соответствующий подстановочный знак для агента пользователя, либо предустановленные блоки для конкретных ПС. Бот всегда предпочитает линию, которая лучше всего соответствует его имени.

Стандартные директивы вида Allow/Disallow не обращают внимание на регистр, так что их можно записать прописными буквами или шрифтом нижнего регистра. Однако, значение чувствительно, то есть /photo/ – не одно и то же, что /Photo/. Но в сфере разработки предпочтительно подписывать блоки прописью, потому что это облегчает чтение файла для рядовых пользователей.

User-agent: основная директива

Ведущие ПС (Яндекс и Гугл) ВСЕГДА обрабатывают директивы в порядке от длинного правила к короткому, независимо от того, как они расположены в роботсе. Первым битом каждого блока является user-agent, который распознает конкретный бот. Поле user-agent сопоставляется с этим конкретным пользовательским агентом spider (обычно более длинным).

В данной директиве указывают к какому конкретно роботу направлено обращение. Большинство поисковиков имеют несколько search spider. Они будут использовать определенного «паука» для обычной индексации, рекламных кампаний, фото, новостей и т. д.

Вот перечень пользовательских агентов, которые можно использовать, чтобы создать правильный роботс тхт для вордпресс. Список соответствует наиболее часто запрашиваемым разделам и ПС:

Search engine Field User-agent
Baidu General baiduspider
Baidu Images baiduspider-image
Baidu Mobile baiduspider-mobile
Baidu News baiduspider-news
Baidu Video baiduspider-video
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex

Поисковые роботы всегда используют наиболее конкретный блок линий из предложенных. Так, если бот приходит от user-agent для Googlebot- Image, он будет следовать за Googlebot restrictions. А бот с пользовательским агентом Googlebot-News использует самые точные директивы из этого раздела.

Disallow: директива запрета в robots.txt

Следующая линия в любом блоке директив – относительная ссылка Disallow. Можно включать одну или несколько строк с таким названием, указывающих, какие страницы бот не может просматривать. Пустота Disallow line априори значит, что запретов нет, а значит поисковик получает открытый доступ ко всем разделам.

Иными словами, ссылки, указанные здесь будут проигнорированы. Вариации:

  • Блокировка всех поисковых систем, послушных robots.txt, производится командой:

  • Разрешение обходить все разделы можно той же командой, но без «/»:

  • Запрет на посещение видеоряда для ПС Google осуществляется с помощью:

Таким образом, все подкаталоги объекта /Video будут недоступны спайдерам. Но будьте внимательны – линии запрета чувствительны к регистру. Потому закрытие страницы /video и /Video – две разные команды.

Как применять регулярные выражения и подстановочные знаки

Стандартный роботс для вордпресс не поддерживает подстановочные знаки или регулярные выражения. Однако, главные поисковики понимают его, потому допустимо использовать привычные строки из кода для блокировки определенных групп файлов.

Например:

То есть символ «*» можно расширять до любого имени файла. Но не советуем исключать фиды, которые в дальнейшем могут понадобиться для подключения к некоторым каналам (Яндекс.Дзен). При этом остаток строки будет чувствителен к регистру. Мировой гигант Google, в частности, допускает более сложные регулярные выражения. Но при работе в других поисковиках надо учитывать их особенности – роботы могут просто не понять такую логику.

Есть весьма полезная функция, обозначающая окончание URL-адреса, это проставление знака «$» (Disallow: /*.php$). Таким образом, раздел /index.php не будет индексироваться, а вот /index.php?p=1 – будет. Данная опция хорошо работает в специфических обстоятельствах, но должна использоваться крайне аккуратно. Ведь легко разблокировать страницы, которые на самом деле планировалось заблокировать.

Нестандартные директивы обхода контента

Кроме привычных команд Allow, Disallow и User-agent, встречаются и другие рабочие директивы обхода контента. Они поддерживаются не всеми поисковыми системами, посему, нужно уточнять ограничения в каждом конкретном случае.

Файл robots для wordpress может содержать следующие линии:

  • Allow – относительная разрешающая ссылка, позволяющая индексировать страницы, которые ею подписаны. Большинство ПС поддерживают такие сведения, что позволяет использовать варианты:

К слову, аналогичный результат можно получить, если прописать запрет для каждого отдельного файла в админке.

  • Host – указание на главное зеркало сайта. Данная директива поддерживается Яндексом и позволяет решить, какую именно страницу вы хотите сделать видимой (например, host: example.com). Из-за ограниченности функционала, эту устаревшую линию не рекомендуется использовать регулярно, а лучше и вовсе удалить из роботсов.

К тому же, скрипт Host не позволяет сделать выбор между страницами с адресом http или https, что вызывает создание большого количества дублей и плохо влияет на оптимизацию. Сегодня разработчики предпочитают использовать 301 редирект.

  • Clean-param – динамический параметр, помогающий убрать лишнюю информацию (например, дубли). Достаточно проставить ссылку и требуемые параметры, чтобы исключить все, что не отвечает установленным критериям. Это выглядит так: webru/statia?uid=35, где «?uid=35» и является изменяемым показателем. Он может варьироваться в необозримых числовых пределах либо закрыть от индексации все страницы с uid.
  • Crawl-delay. Поисковики Yahoo!, Bing и Яндекс часто бывают чересчур быстрыми, но неплохо реагируют на эту команду замедления обхода. И, несмотря на разночтение директив, конечный результат всегда одинаков. Если боты чересчур загружают хостинг, требуется поставить замедление обхода.

Простая линия вида «crawl-delay: 10» проинструктирует поисковых роботов, что необходимо подождать 10 секунд после запуска обхода контента (для Bing и Yahoo!). В свою очередь, Яндекс будет получать доступ к содержимому раз в 10 секунд. Эта семантическая разница, интересная для предприимчивых разработчиков.

При этом, установив замедление обхода контента, вы позволяете перечисленным поисковиками просматривать не более 8640 страниц в сутки. Для больших сайтов такой показатель слишком мал. Однако, при регулярном недополучении пользовательского трафика с данных ПС, можно неплохо сэкономить пропускную способность.

  • Sitemap (директива для XML Sitemaps) – абсолютная ссылка. Используя эту строку, можно подсказать поисковым системам Bing, Yandex и Google, где искать XML-файл sitemap. Если добавление данной директивы не использовалось, карту сайта придется конфигурировать вручную.

Также допускается внедрять соответствующие решения webmaster tools, чтобы прописать директиву для каждого поисковика в отдельности. Этот способ более востребован, т.к. программы search engine webmaster tools предоставляют множество ценной информации о веб-сайте. Однако, для экономии времени и усилий линия Sitemap считается прекрасной альтернативой для robots wordpress.

Существуют различные инструменты, которые помогают проверить ваш вордпресс роботс тхт. Но когда речь заходит о проверке директив обхода контента, целесообразно обращаться к первоисточнику. Так, ПС Google имеет встроенную функцию тестирования в консоли, и в первую очередь рекомендуется проводить проверку на ней.

Пренебрегать тестированием не стоит, ведь малейшая оплошность в файле грозит исключением сайта из поисковой выдачи и полным забвением ресурса. К тому же, с июля 2019 Года, Google объявил, что они сделали Parser-роботов с открытым исходным кодом. Это фактически означает, что любой пользователь может ознакомиться с принципами их работы, использовать для собственных разработок и предлагать изменения.

Плагины для редактирования robots txt

robots txt для WordPressЕсли вы хотите редактировать или генерировать правильный robots для wordpress через плагин вместо cPanel, то непременно должны знать об удобных инструментах системы управления контентом WordPress. С их помощью легко и быстро работать с файлами-роботами в веб-сайтах различного назначения и блогах. Вот лучшие плагины для редактирования robots txt.

Virtual Robots.txt

Virtual Robots — оптимальный плагин для роботов WordPress, зарекомендовавший себя в среде разработчиков. Он генерирует файл роботс в автоматическом режиме и позволяет быстро его конфигурировать с учетом потребностей ресурса. Этот плагин имеет более 50 тысяч активных установок, и совместим с последней версией CMS.

Ключевые преимущества:

  • Нет необходимости открывать robots txt в cPanel или через FTP;
  • Автоматическая генерация файла и добавление карты сайта;
  • Открытие доступа только к нужным файлам и папкам, остальные блокируются.

Для новичков в ИТ-разработке подобный инструмент весьма полезен за счет простоты и функциональности. Цена: бесплатно.

WordPress Robots.txt optimization (+Sitemap)

Используется для создания robots wordpress, где требуется автоматизированное включение XML-файла Sitemap. Данный плагин имеет более 3K активных установок и ряд преимуществ:

  • Быстрая, беспроблемная генерация файла robots txtи помощь в SEO-оптимизации;
  • Совместимость с Yoast SEO, WooCommerce и др.;
  • Полный контроль над файлами-роботами txt wordpress;
  • Поддержка 7+ языков;
  • Защита ценных данных с помощью блокировки соответствующих источников и папок, а также зачистка спама;
  • Обеспечение безопасности и конфиденциальности обратных ссылок.

Судя по перечню возможностей, это премиум плагин. Цена: некоторые функции являются бесплатными, остальные доступны в платной версии.

Yoast SEO

Считается лучшим плагином для оптимизации веб-сайтов, созданных на WordPress. Он имеет более 5 миллионов активных установок, и эффективно помогает создавать и редактировать роботс. На сегодняшний день – это самый популярный инструмент в мире.

Главные функции:

  • Простая оптимизация блогов и сайтов любого типа;
  • Упор на SEO, читабельность и «ключи»;
  • Автоматическое создание файлов робота и sitemap без использования cPanel или FTP;
  • Совместим с последней версией системы.

Цена: разработка и редакция robots txt доступны в бесплатной версии плагина, но имеется и ряд полезных опций в премиум-разделе.

DB Robots.txt

Данный плагин помогает генерировать правильный роботс для вордпресс в автоматическом режиме с созданием специальных правил для поисковых роботов Яндекса. Имеет более 200 активных установок, и совместим с последней версией WordPress.

Характеристики:

  • Легкое создание и редактирование robots txt;
  • Бесплатная автоматическая генерация robots.txt file для сайтов WordPress;
  • Автодобавление карты веб-сайта;
  • Создание правила для ПС Яндекс.

При работе с этим инструментом не требуется углубленных знаний разработки, так как он сам добавляет важные файлы и папки. Цена: бесплатно.

Multipart robots.txt editor

Помогает настроить ваши txt-файлы и добавлять в них свой контент. Данный плагин имеет более 7000 активных установок.

Есть много встроенных функций, предоставляемых бесплатно:

  • Допускается включить или исключить файл роботов;
  • Позволяет легко конфигурировать правильный роботс для вордпресс 2018;
  • Совместим с плагинами sitemap;
  • Используется одна команда Disallow;
  • Включение/исключение удаленных файлов и пользовательских записей.

Этот инструмент WordPress Robots подходит практически для любого сайта WordPress. Цена: бесплатно.

Robots.txt rewrite

Этот плагин обеспечивает простую панель управления для создания файла роботов. Имеет 9000+ активных установок.

Преимущества:

  • Упрощенное управление и настройка роботс;
  • Помогает легко индексироваться в различных поисковых системах;
  • Допускается разрешить или запретить любые файлы или папки;
  • Беспроблемное внедрение sitemap в сайт или блог;
  • Возможность установки задержки обхода контента.

Таким образом, использовать данный плагин для WordPress-сайта или блога, может даже начинающий разработчик. Цена: бесплатно.

Резюме обзора плагинов для редактирования robots txt

С помощью вышеперечисленных плагинов WordPress Robot каждый может научиться легко и быстро создавать и настраивать текстовые робот-файлы без лишних усилий и финансовых расходов. Особенно, если вы не хотите редактировать роботс в cPanel или FTP.

Также, данные инструменты помогают индексировать веб-сайт и преумножить действие SEO-оптимизации. Наиболее востребованными считаются  Virtual robots.txt и Yoast SEO, но в зависимости от стратегии развития ресурса можно использовать любые удобные плагины и расширения.

Заключение

Вопросы, где в вордпрессе robots txt, как его правильно конфигурировать, на что он влияет, обычно задают начинающие программисты. Правильный роботс не просто набор разномастных команд, а эффективный алгоритм отсева лишней информации и её сокрытия от бдительного «ока» поисковых систем.

Обычно, хватает стандартной настройки файла, чтобы обеспечить необходимую пропускную способность и исключить ненужные сведения. Однако, стоит предусмотреть тип ресурса и выложенного контента, его маркетинговую и оптимизационную составляющую. В ряде случаев может потребоваться расширенная настройка с внедрением нестандартных линий обхода и подстановочных знаков.

Мы будем рады и вашему мнению

Оставить отзыв

Veraksoff.info
Регистрация
Сбросить пароль
Сравнить товары
  • Всего (0)
Сравнить