Файл robots.txt

robots.txt индексация продвижение хостинг домен seo

Начнем с того, что это вообще такое. Это обычный текстовый файл, который необходимо разместить в корневой директории сайта на хостинге под именем robots.txt. Файл этот управляет индексацией Вашего сайта. В этом файле системными командами мы можем указать, как индексировать сайт - его отдельные страницы и каталоги. Этот файл можно использовать для закрытия от индексации ненужных разделов: пользовательской информации, результатов поиска, административных разделов, страниц регистраций и т.д.

Когда мы размещаем в сети наш сайт, регистрируем его в поисковиках, либо в других местах указываем на него ссылки, то рано или поздно, сайт будет проиндексирован поисковыми системами. Когда поисковый робот натыкается на нашу ссылку, он переходит по ней и начинает индексировать страницу за страницей нашего сайта, покуда ведут ссылки. Но первым делом, он смотрит наличие в корне сайта файла robots.txt, и если он существует и не пустой, следует его командам.

Файл robots.txt средство универсальное, он работает на хостинге под любой ОС, будь то Unix или Windows хостинг. Файл определяется любыми поисковыми системами, разве что отдельные поисковики стали пользоваться дополнительными, своими метатегами в этом файле.

Использование данного файла очень важно. В данном файле указывается адрес основного зеркала сайта, по которому он будет впоследствии проиндексирован, адрес xml-карты сайта, а также указываются файлы и директории, которые необходимо скрыть от индексации поисковыми системами. Корректно написанный файл robots.txt позволяет управлять индексацией сайта поисковыми системами.

В итоге получаем:
- быстрый доступ ко всем страницам сайта;
- индексация сайта под правильным адресом;
- скрытие от поисковиков некоторой информации для обеспечения информационной безопасности и увеличения скорости индексации;

Для чего это?

На сайте могут располагаться страницы, в которых содержится какая-либо приватная информация, закрытый для простого посетителя контент, и Вы не желаете, чтобы через поисковик, кто-либо на такую страничку зашел. Иногда мы специально дублируем контент, делая отдельные страницы для печати, в этом случае, нам нужно избегать, чтобы подобные дубликаты попали в поисковик.

У каждого поискового робота есть свой лимит, который заключается в количестве файлов, который он индексирует за раз. Таким образом, робот может проиндексировать кучу бесполезного хлама на вашем сайте и не дойти до необходимого. А если учитывать, что поисковые роботы могут проводить переиндексацию довольно редко, то ничего хорошего в этом нет.

Третий случай для тех, у кого сайт доступен по нескольким доменам. Очень частое явление, когда располагаем сайт на бесплатном домене третьего уровня, а затем, припарковываем к этой площадке домен второго уровня. В итоге сайт доступен сразу под двумя именами, и индексация может пройти не по «хорошему » домену. В этом случае, мы в файле robots.txt прописываем правильный домен, который будет проиндексирован.

Как применить?

Теперь, что касается кода. Существует много вариантов написания, однако указываю здесь только то, что действительно Вам пригодиться. Обратите внимание, что каждая команда пишется в новой строке.
Итак, файл будет выглядеть следующим образом:

User-agent: Yandex
Disallow: <адреса файлов или директории>
Host: <адрес главного зеркала(основной домен)>

User-agent: Googlebot
Disallow: <адреса файлов или директории>

User-agent: *
Disallow: <адреса файлов или директории>
Sitemap: http://<адрес главного зеркала(основной домен)>/sitemap.xml

User-agent - имя робота индексатора. У каждого поисковика есть свое обозначение. Мы можем задать индивидуальные параметры индексации для каждого из них, они это “любят”.

Disallow - запрет индексации, после него указываем каталог, или файл, который следует запретить.

Host - домен, который будет выбран при индексировании сайта в случае, если сайт доступен по нескольким адресам.

Sitemap – адрес xml-карты сайта

После слова Disallow необходимо прописать адрес файла или директории для скрытия от индексации. Поскольку таких файлов и директорий в большинстве случаев множество, то каждая директория или файл описывается с новой строки. Пример, как должны быть описаны адреса файлов:

Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /hidden.html

Необходимо скрыть подобным образом все системные директории на сервере. Однако ни в коем случае нельзя скрывать адреса директорий, содержащих страницы сайта или сами файлы страниц.

И еще: именуйте файл robots.txt в нижнем регистре, иначе все усилия будут напрасны. Будьте очень внимательно при написании данного файла. Необходимо соблюдать строгий синтаксис. Более подробно о конструкциях файла robots.txt можно узнать по ссылке: http://robotstxt.org.ru/

Ну а на последок – маленькое огорчение: наличие robots.txt не дает стопроцентной гарантии, что индексация произойдет описанным способом, ведь стандартам могут и не следовать. Однако основные поисковики придерживаются данного файла и воспринимают его правильно.

Как итог – данный файл есть неотъемлемая и очень полезная вещь в оптимизации Вашего сайта.



Это интересно:



Сайт притерпел серьезные изменения, ресурс постепенно развивается, благодаря вам, дорогие читатели! В связи с произошедшими изменениями, на сайте пропало большинство комментариев. Искренне прощу извинения у своих читателей, на комментарии которых не успел ответить!

КИРИЧЕНКО ИГОРЬ ВЛАДИМИРОВИЧ
SEO - эксперт, независимый интернет - маркетолог
facebook twitter vkontakte
АРХИВ КЛИЕНТОВ


Автор: Кириченко Игорь.

WEBideal - честный интернет-маркетинг

664074, Иркутск

ул.Лермонтова, 78

Россия