Файл robots.txt управляет индексацией сайта, показывает поисковым системам какие части сайта должны быть в поиске, а какие нет. Благодаря этому из поиска исключаются дубли страниц, и технические части сайта, и остаётся только полезный контент.
Если в robots.txt совершенна ошибка, то сайт будет индексироваться неправильно. Естественно, это приведёт к плохой посещаемости, в лучшем случае. В худшем – сайт может просто полностью быть удалён их поиска.
В этой статье мы расскажем о том, какие бывают частые ошибки в robots.txt. Проверьте, нет ли таких ошибок на вашем сайте.
Частые ошибки в robots.txt
Итак, достаточно часто в robots.txt используется неправильные, перепутанные значении директив.
Неправильный вариант:
User-agent: /page
Disallow: Google
Директива User-agent должна показывать имя поискового робота, а Disallow (или Allow) – показывает часть сайта, к которой применяется правило.
Правильный вариант:
User-agent: Google
Disallow: /page
Другая ошибка в robots.txt заключается в использовании нескольких частей сайта в одной директиве.
Неправильный вариант:
Disallow: /wp-admin/ /wp-content/ wp-config.php
Некоторые ещё добавляют между частями сайта запятые, но и это тоже неправильно. В правильном варианте, каждая часть сайта должна быть в отдельной директиве, даже если к ним промаются одинаковое, запрещающее или разрешающее правила.
Правильный вариант:
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: wp-config.php
Следующая частая ошибка, которая особенно часто случается у новичков – это неправильное имя файла robots.txt. Даже если внутри будет всё сделано верно, неправильное имя не позволит поисковикам прочесть файл.
Правильное имя файла – robots.txt. Именно так, и никак иначе, и только с расширением .txt.
Ходят споры о том, как правильно заполнять директиву главного зеркала hosts – указывать там протокол http (или https) или нет.
Не правильный вариант:
Host: https://example.ru
И, всё-таки, с указанием протокола это не правильно. Не критично, но поисковики рекомендуют без него.
Не правильный вариант:
Host: example.ru
Если вы хотите заблокировать для индексации все страницы, которые находятся в одной папке, то, наверняка вам придёт в голову такой вариант:
Неправильный вариант:
Disallow: /page/1
Disallow: /page/2
Disallow: /page/3
Нельзя сказать, что это неправильно, но это не рационально, лучше будет сделать так, как ниже.
Правильный вариант:
Disallow: /page/
Чтобы не повторять частые ошибки в robots.txt после его создания проверяйте файл в кабинетах вебмастера Яндекса и Google.
Здесь мы рассказываем о том, как сделать robots.txt для WordPres.
Поистине, век учись…
полезная статья
хорошая статья, всё детально описано