Что такое индексация сайта

Занимаясь продвижением сайта в поисковых системах не маловажную роль, играет попадание страниц в индекс. Не имеет значение продвигаете вы собственный блог или крупный интернет-магазин, отслеживать попала страница в индекс Яндекса и Google или нет – важный момент, без которого не обходится ни один анализ сайта.

Содержание

Дополнительно по теме можете прочитать наши материалы:

Что такое индексация

Индексация сайта – это процесс попадания страниц сайта (URL) в индекс поисковых систем. Простыми словами, это некий процесс обработки URL поисковыми ботами, после которого страницы смогут появиться в выдаче.

Поисковые системы представляют собой огромное количество серверов, на которых хранятся данные о миллиардах различных документов, представленных в интернете. При запросе пользователем информации, происходит поиск по указанной базе, и поисковая система выдает наиболее релевантную (по ее мнению) информацию в виде списка страниц. Стоит отметить, что речь может идти не только об HTML странице, но и любом другом файле, размещенном на сайте (изображение, видео, CSS и т.д.). В рамках материала акцент будет сделан на попадание HTML-страницы в индекс, но большинство описанных принципов применимо и к другим форматам.

Если страница сайта отсутствует в индексе поисковых систем – она не может участвовать в поиске и трафик на нее из этой поисковой системы будет равен нулю. Однако и попадание страницы в индекс не гарантирует, что вы получите трафик, поскольку существует ранжирование, которое заключается в выборе наиболее релевантного ответа на заданный вопрос. В базе поисковых систем может быть несколько тысяч страниц, отвечающих на заданный запрос пользователя, и благодаря ранжированию эти страницы сортируются по релевантности и выводятся в поисковой выдаче.

Как страницы попадают в индекс

У каждой поисковой системы существуют роботы (боты), которые ежедневно обходят миллионы новых страниц. До момента попадания страницы в индекс есть несколько этапов:

  1. Поисковый робот отправляется на обход и находит новую страницу и добавляет ее в очередь на сканирование;
  2. Когда доходит очередь, страница сканируется поисковым роботом и происходит обработка полученных данных. С помощью алгоритмов поисковой системы, робот получает информацию о содержимом страницы и сохраняет все это в своей базе;
  3. Формируется база страниц, которые поисковая система может допустить до участия в поиске. На данном этапе исключаются дубли, страницы не с 200-м ответом сервера, страницы без контента и прочие URL, не соответствующие базовым стандартам.
  4. Если страница соответствует определенному уровню качества она попадает в индекс и начинает отображаться в поиске.

Существует несколько методов, которые позволяют роботу узнать о появлении новой страницы:

  1. Наличие внешней или внутренней ссылки на новую страницу. Если на новую страницу есть ссылка со страницы, которая уже присутствует в индексе, то при обходе такой страницы робот найдет эту ссылку и занесет в свою базу.
  2. Использование собственных инструментов. Сюда можно отнести браузеры поисковых систем Яндекс и Google и прочие инструменты, разработанные этими поисковиками.
  3. Наличие ссылки в карте сайта sitemap.xml.
  4. Прочие инструменты поисковых систем.

Проверка индексации сайта

Ниже будут рассмотрены основные методы для проверки индексации всего сайта или конкретных страниц.

Панели Яндекс.Вебмастер и Google Search Console

Чтобы проверить количество проиндексированных страниц в Яндексе достаточно воспользоваться инструментом Яндекс.Вебмастер. На главной странице этого инструмента вы можете посмотреть, какое количество URL проиндексировано.

Страниц в поиске в Яндекс.Вебмастер

Более детально посмотреть статистику по каждой странице можно в разделе Индексирование => Страницы в поиске.

Индексирование => Страницы в поиске

В Google аналогичную функцию выполняет панель для вебмастеров Google Search Console. Чтобы посмотреть сколько всего страниц проиндексировано нужно перейти в раздел Индекс => Покрытие и выбрать пункт «Страницы без ошибок».

Индексация в Google Search Console

Здесь будет показано количество страниц, которые находятся в индексе поисковой системы. На скриншоте видно:

  • Страница отправлена и проиндексирована – все отлично и никаких проблем нет, данные страницы участвуют в поиске;
  • Страница проиндексирована, но ее нет в файле Sitemap – возможно файл sitemap.xml давно не обновлялся и содержит не корректные данные. Стоит выполнить проверку данного файла и проанализировать список страниц в индексе;
  • Проиндексировано не смотра на блокировку в файле robots.txt – здесь проблема посерьезнее, Google не всегда учитывает инструкции, которые указаны в robots.txt, что может привести к появлению дублей в индексе. Требуется посмотреть какие страницы попали в индекс и есть ли возможность удалить их вручную или через инструмент «Параметры URL».

Есть возможность проверить любую страницу вручную с помощью Search Console. Для этого достаточно зайди в инструмент и вставить адрес страницы в указанное на скриншоте ниже окно.

Проверка индексации в Google Search Console

Вы получите данные о том находится страница в индексе или нет. Дополнительно если у страницы есть проблемы, они будут отображены в этом отчете.

Операторы поисковых систем

Для проверки количества страниц в индексе можно использовать специальные операторы, которые достаточно вбить в поисковую строку.

Для проверки индексации всего сайта в Яндексе используем оператор site.

оператор site в Яндекс

Если требуется исключить поддомены или выполнить поиск по конкретному адресу, следует использовать оператор host.

оператор host в Яндекс

Проверить есть ли в индексе отдельная страница можно с помощью оператора url.

оператор url в Яндекс

В Google проверить индексацию страниц сайта можно с помощью оператора site.

оператор site в Гугл

Вот только эта поисковая система будет выводить по данному запросу список страниц поддоменов (если они созданы). Аналога оператора host у этой ПС нет. Однако если у вас основной сайт ранжируется с префиксом www, будет достаточно оператора site. Таким образом получаем:

  1. Запрос: site:www.vsetyrabota.ru – покажет список URL в индексе данного сайта с www.
  2. Запрос site:vsetyrabota.ru – покажет список всех URL в индексе, которые имеет данный сайт. Это могут быть www.vsetyrabota.ru, 123.vsetyrabota.ru и т.д.
  3. Запрос site:123.vsetyrabota.ru – покажет список всех URL в индексе для поддомена 123.vsetyrabota.ru.

Оператор url для Google не работает, ранее для проверки индексации конкретной страницы использовался оператор info, но несколько лет назад поисковая система отказалась от него.

Использование плагинов в браузере

Работа плагинов основана на использовании указанных выше методов получения информации о сайте. Их применение актуально в случае, когда требуется получать информацию о количестве страниц в индексе в режиме онлайн. Наиболее популярные плагины это:

  1. SEO-Tools.
  2. RDS bar.
  3. Seo Magic.

После установки вы будете видеть в браузере, какое количество страниц сайта сейчас присутствует в индексе поисковых систем.

Онлайн-сервисы и программы

Существует несколько популярных программ и онлайн-сервисов, которые позволяют отслеживать наличие страниц в индексе поисковых систем регулярно.

Среди программ можно выделить:

  1. Бесплатная программа Site-Auditor.
  2. Платное ПО Semonitor.
  3. Neatpeak Spider или Neatpeak Cheker – условно бесплатно ПО, однако для проверки индексации нужна покупка тарифа.

Сами программы имеют более широкий функционал и позволяют анализировать сайт по многим параметрам.

Среди онлайн-сервисов, у которых есть функция по проверке индексации страниц. Каждый из этих сервисов обладает широким потенциалом возможностей. Для примера укажем несколько из них:

  1. Серпхант.
  2. Топвизор.

Почему сайт/страница не индексируется?

Напоследок, несколько причин по которым страница или весь сайт могут отсутствовать в индексе поисковых систем:

  1. Не корректный файл robots.txt. Стоит проверить, возможно вы запретили поисковым ботам доступ к сайту.
  2. Страница имеет ответ сервера отличный от 200-го или доступна только после авторизации. Выполните проверку ответа сервера страниц и убедитесь, что она доступна при прямом переходе.
  3. Теги none, noindex. Если в коде страниц прописан такой тег – это означает запрет поисковым системам к индексации. Стоит выполнить проверку.
  4. Наличие заголовка X-Robots-Tag с запретом на индексацию.
  5. Новый сайт/страница. Процесс индексации занимает определенное время, если страница создана относительно недавно, возможно она просто не успела попасть в индекс.
  6. Качество страницы. Если страница не содержит уникального контента в рамках вашего сайта и всего интернета, она может быть исключена из индекса.
  7. Наличие дублей страниц. Стоит проверить, возможно в индексе присутствует дубль страницы, проиндексированные по отличному от указанного URL. Потребуется найти дубль и указать поисковым роботам страницу, которая должна быть в индексе (301-й редирект, canonical).
  8. На сайт наложен фильтр со стороны ПС. Решение проблемы – анализ сайта на наличие фильтра и комплекс работ по выводу из-под него.
  9. Страница долго загружается. Решение – проработать над скоростью загрузки страницы и сайта в целом.
  10. Нарушение рекомендаций ПС в отношении страницы. (Документ более 10 МБ для Яндекса).

Вам может быть интересно