Частые ошибки в robots.txt, которые есть на 80% сайтов

Файл robots.txt управляет индексацией сайта, показывает поисковым системам какие части сайта должны быть в поиске, а какие нет. Благодаря этому из поиска исключаются дубли страниц, и технические части сайта, и остаётся только полезный контент.

Если в robots.txt совершенна ошибка, то сайт будет индексироваться неправильно. Естественно, это приведёт к плохой посещаемости, в лучшем случае. В худшем – сайт может просто полностью быть удалён их поиска.

В этой статье мы расскажем о том, какие бывают частые ошибки в robots.txt. Проверьте, нет ли таких ошибок на вашем сайте.

Частые ошибки в robots.txt

Частые ошибки в robots.txt

Итак, достаточно часто в robots.txt используется неправильные, перепутанные значении директив.

Неправильный вариант:

User-agent: /page

Disallow: Google

Директива User-agent должна показывать имя поискового робота, а Disallow (или Allow) – показывает часть сайта, к которой применяется правило.

Правильный вариант:

User-agent: Google

Disallow: /page

Другая ошибка в robots.txt заключается в использовании нескольких частей сайта в одной директиве.

Неправильный вариант:

Disallow: /wp-admin/ /wp-content/ wp-config.php

Некоторые ещё добавляют между частями сайта запятые, но и это тоже неправильно. В правильном варианте, каждая часть сайта должна быть в отдельной директиве, даже если к ним промаются одинаковое, запрещающее или разрешающее правила.

Правильный вариант:

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: wp-config.php

Следующая частая ошибка, которая особенно часто случается у новичков – это неправильное имя файла robots.txt. Даже если внутри будет всё сделано верно, неправильное имя не позволит поисковикам прочесть файл.

Правильное имя файла – robots.txt. Именно так, и никак иначе, и только с расширением .txt.

Ходят споры о том, как правильно заполнять директиву главного зеркала hosts – указывать там протокол http (или https) или нет.

Не правильный вариант:

Host: https://example.ru

И, всё-таки, с указанием протокола это не правильно. Не критично, но поисковики рекомендуют без него.

Не правильный вариант:

Host: example.ru

Если вы хотите заблокировать для индексации все страницы, которые находятся в одной папке, то, наверняка вам придёт в голову такой вариант:

Неправильный вариант:

Disallow: /page/1

Disallow: /page/2

Disallow: /page/3

Нельзя сказать, что это неправильно, но это не рационально, лучше будет сделать так, как ниже.

Правильный вариант:

Disallow: /page/

Чтобы не повторять частые ошибки в robots.txt после его создания проверяйте файл в кабинетах вебмастера Яндекса и Google.

Здесь мы рассказываем о том, как сделать robots.txt для WordPres.

3 комментария

Оставить комментарий
  1. Поистине, век учись…

  2. Евгений Секрет

    полезная статья

  3. хорошая статья, всё детально описано

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *