Индексация несуществующих страниц

google 404 индексация страницы сайт ошибка монетизация robots

Недавно ко мне обратились с вопросом об одной особенности Google. Речь шла об индексации сайта. Google занес в свой индекс несуществующие страницы с причудливыми URL. Причем, многие из них были закрыты в robots.txt. Отвечая на вопрос, с целью помочь читателю моего сайта, я не заметил, как написал небольшую статейку.

Вопрос оказался очень мне знаком. Еще пару лет назад я сам ужесточено искал ответ на этот вопрос, когда у меня была задача выровнять соотношение проиндексированных страниц для нескольких сайтов в индексе поисковиков перед их монетизацией. Что я только не делал, удалял из индекса физически, закрывал в robots.txt, правил шаблоны сайтов и исходные файлы движков. Ровным счетом ничего не помогало, не помогли мне в свое время и более опытные коллеги.

Такая проблема оказалась повсеместна, но далеко не многие уделяют ей внимание. Google не делает сохраненных копий закрытых в robots.txt страниц, но добавляет все найденные URL себе в базу. Если сделать поиск среди всех страниц сайта, то Google выдаст кучу несуществующих страниц. Код 404 и закрытие в robots.txt при этом не помогают. Вот поэтому, если просканировать с десяток различных сайтов, то количество проиндексированных страниц в Google будет больше, иногда на пару страниц, а для крупных сайтов разница может достигать нескольких сотен страничек.

В свой индекс Google добавляет абсолютно все URL, на которые обнаружил ссылки. Это в большинстве случаев внутренние ссылки (из-за ошибок развертки CMS на сервере в коде могут присутствовать битые ссылки, это очень часто происходит при неправильной настройке ЧПУ), также это могут быть и внешние ссылки (кто-то написал ссылку на ваш сайт на каком-нибудь форуме и ошибся в написании).

Кроме того, на сайтах очень часто удаляются некоторые странички - изменили URL или физически удалили материал, в индексе страница по-прежнему останется, только сохранится в виде пустой ссылки.

В любом случае, ни по каким запросам эти «странички пустышки» в выдаче не появятся, если только мы не смотрим общее число проиндексированных страниц. Разница между реальным числом страниц на сайте и проиндексированным играет роль только при монетизации сайта. За большой разбег места под продажные ссылки будут хуже раскупаться.

Методы борьбы и профилактики

Способы избежать подобных ситуаций имеются, рассмотрим пути решения:

  1. В панеле Google Webmasters есть возможность физического удаления нежелательных страниц из индекса. Если страница закрыта в robots.txt или выдает 404 код ошибки, при получении заявки на удаление, страница в течение пары суток покидает индекс. В случае, если «страниц пустышек» очень много, способ не подходит, потому, как для каждой странички заявку нужно подавать отдельную, в совокупности уйдет масса времени.

  2. Второй способ более сложный, но навсегда избавит сайт от описанной проблемы. От индексации нужно скрывать страницу с помощью конструкции robots, которая прописывается в секции head непосредственно на странице. Вот, как это выглядит:

    <meta name=“robots” content=“noindex,nofollow” >

    Нужно настроить движок сайта таким образом, чтобы при ошибке 404 загружалась заглушка - собственная страница с ошибкой (настраивается это буквально одной строчкой в .htaccess на Unix-хостинге). В секции head этой страницы-заглушки прописываем приведенный выше код. Теперь Google при обнаружении битых ссылок не будет добавлять их в индекс.

Такой оригинальный подход к индексации разработчики Google объясняют тем, что часто страницы, выдающие 404 код ошибки, не доступны лишь кратковременно по вине неправильных настроек сервера или каких-либо сбоев БД. При этом, очень часто среди таких страниц есть полезный контент. Google добавляет такие страницы в индекс в надежде, что они со временем заработают. А вот почему Google игнорирует инструкции robots.txt - объяснений тому объективных нет, но на практике, часто именно так и происходит.



Это интересно:
Скрыть ссылку – нужно ли? Скрыть ссылку – нужно ли?

Известны несколько способов, как можно скрыть ссылку на сайте, чтобы ссылка учитывалась поисковиками, но не виднелась на сайте.




Сайт притерпел серьезные изменения, ресурс постепенно развивается, благодаря вам, дорогие читатели! В связи с произошедшими изменениями, на сайте пропало большинство комментариев. Искренне прощу извинения у своих читателей, на комментарии которых не успел ответить!

КИРИЧЕНКО ИГОРЬ ВЛАДИМИРОВИЧ
SEO - эксперт, независимый интернет - маркетолог
facebook twitter vkontakte
АРХИВ КЛИЕНТОВ


Автор: Кириченко Игорь.

WEBideal - честный интернет-маркетинг

664074, Иркутск

ул.Лермонтова, 78

Россия