Занимаясь продвижением сайта в поисковых системах не маловажную роль, играет попадание страниц в индекс. Не имеет значение продвигаете вы собственный блог или крупный интернет-магазин, отслеживать попала страница в индекс Яндекса и Google или нет – важный момент, без которого не обходится ни один анализ сайта.
Содержание
- Что такое индексация
- Как страницы попадают в индекс
- Проверка индексации сайта
- Панели Яндекс.Вебмастер и Google Search Console
- Операторы поисковых систем
- Использование плагинов в браузере
- Онлайн-сервисы и программы
- Почему сайт/страница не индексируется?
Дополнительно по теме можете прочитать наши материалы:
Что такое индексация
Индексация сайта – это процесс попадания страниц сайта (URL) в индекс поисковых систем. Простыми словами, это некий процесс обработки URL поисковыми ботами, после которого страницы смогут появиться в выдаче.
Поисковые системы представляют собой огромное количество серверов, на которых хранятся данные о миллиардах различных документов, представленных в интернете. При запросе пользователем информации, происходит поиск по указанной базе, и поисковая система выдает наиболее релевантную (по ее мнению) информацию в виде списка страниц. Стоит отметить, что речь может идти не только об HTML странице, но и любом другом файле, размещенном на сайте (изображение, видео, CSS и т.д.). В рамках материала акцент будет сделан на попадание HTML-страницы в индекс, но большинство описанных принципов применимо и к другим форматам.
Если страница сайта отсутствует в индексе поисковых систем – она не может участвовать в поиске и трафик на нее из этой поисковой системы будет равен нулю. Однако и попадание страницы в индекс не гарантирует, что вы получите трафик, поскольку существует ранжирование, которое заключается в выборе наиболее релевантного ответа на заданный вопрос. В базе поисковых систем может быть несколько тысяч страниц, отвечающих на заданный запрос пользователя, и благодаря ранжированию эти страницы сортируются по релевантности и выводятся в поисковой выдаче.
Как страницы попадают в индекс
У каждой поисковой системы существуют роботы (боты), которые ежедневно обходят миллионы новых страниц. До момента попадания страницы в индекс есть несколько этапов:
- Поисковый робот отправляется на обход и находит новую страницу и добавляет ее в очередь на сканирование;
- Когда доходит очередь, страница сканируется поисковым роботом и происходит обработка полученных данных. С помощью алгоритмов поисковой системы, робот получает информацию о содержимом страницы и сохраняет все это в своей базе;
- Формируется база страниц, которые поисковая система может допустить до участия в поиске. На данном этапе исключаются дубли, страницы не с 200-м ответом сервера, страницы без контента и прочие URL, не соответствующие базовым стандартам.
- Если страница соответствует определенному уровню качества она попадает в индекс и начинает отображаться в поиске.
Существует несколько методов, которые позволяют роботу узнать о появлении новой страницы:
- Наличие внешней или внутренней ссылки на новую страницу. Если на новую страницу есть ссылка со страницы, которая уже присутствует в индексе, то при обходе такой страницы робот найдет эту ссылку и занесет в свою базу.
- Использование собственных инструментов. Сюда можно отнести браузеры поисковых систем Яндекс и Google и прочие инструменты, разработанные этими поисковиками.
- Наличие ссылки в карте сайта sitemap.xml.
- Прочие инструменты поисковых систем.
Проверка индексации сайта
Ниже будут рассмотрены основные методы для проверки индексации всего сайта или конкретных страниц.
Панели Яндекс.Вебмастер и Google Search Console
Чтобы проверить количество проиндексированных страниц в Яндексе достаточно воспользоваться инструментом Яндекс.Вебмастер. На главной странице этого инструмента вы можете посмотреть, какое количество URL проиндексировано.
Более детально посмотреть статистику по каждой странице можно в разделе Индексирование => Страницы в поиске.
В Google аналогичную функцию выполняет панель для вебмастеров Google Search Console. Чтобы посмотреть сколько всего страниц проиндексировано нужно перейти в раздел Индекс => Покрытие и выбрать пункт «Страницы без ошибок».
Здесь будет показано количество страниц, которые находятся в индексе поисковой системы. На скриншоте видно:
- Страница отправлена и проиндексирована – все отлично и никаких проблем нет, данные страницы участвуют в поиске;
- Страница проиндексирована, но ее нет в файле Sitemap – возможно файл sitemap.xml давно не обновлялся и содержит не корректные данные. Стоит выполнить проверку данного файла и проанализировать список страниц в индексе;
- Проиндексировано не смотра на блокировку в файле robots.txt – здесь проблема посерьезнее, Google не всегда учитывает инструкции, которые указаны в robots.txt, что может привести к появлению дублей в индексе. Требуется посмотреть какие страницы попали в индекс и есть ли возможность удалить их вручную или через инструмент «Параметры URL».
Есть возможность проверить любую страницу вручную с помощью Search Console. Для этого достаточно зайди в инструмент и вставить адрес страницы в указанное на скриншоте ниже окно.
Вы получите данные о том находится страница в индексе или нет. Дополнительно если у страницы есть проблемы, они будут отображены в этом отчете.
Операторы поисковых систем
Для проверки количества страниц в индексе можно использовать специальные операторы, которые достаточно вбить в поисковую строку.
Для проверки индексации всего сайта в Яндексе используем оператор site.
Если требуется исключить поддомены или выполнить поиск по конкретному адресу, следует использовать оператор host.
Проверить есть ли в индексе отдельная страница можно с помощью оператора url.
В Google проверить индексацию страниц сайта можно с помощью оператора site.
Вот только эта поисковая система будет выводить по данному запросу список страниц поддоменов (если они созданы). Аналога оператора host у этой ПС нет. Однако если у вас основной сайт ранжируется с префиксом www, будет достаточно оператора site. Таким образом получаем:
- Запрос: site:www.vsetyrabota.ru – покажет список URL в индексе данного сайта с www.
- Запрос site:vsetyrabota.ru – покажет список всех URL в индексе, которые имеет данный сайт. Это могут быть www.vsetyrabota.ru, 123.vsetyrabota.ru и т.д.
- Запрос site:123.vsetyrabota.ru – покажет список всех URL в индексе для поддомена 123.vsetyrabota.ru.
Оператор url для Google не работает, ранее для проверки индексации конкретной страницы использовался оператор info, но несколько лет назад поисковая система отказалась от него.
Использование плагинов в браузере
Работа плагинов основана на использовании указанных выше методов получения информации о сайте. Их применение актуально в случае, когда требуется получать информацию о количестве страниц в индексе в режиме онлайн. Наиболее популярные плагины это:
- SEO-Tools.
- RDS bar.
- Seo Magic.
После установки вы будете видеть в браузере, какое количество страниц сайта сейчас присутствует в индексе поисковых систем.
Онлайн-сервисы и программы
Существует несколько популярных программ и онлайн-сервисов, которые позволяют отслеживать наличие страниц в индексе поисковых систем регулярно.
Среди программ можно выделить:
- Бесплатная программа Site-Auditor.
- Платное ПО Semonitor.
- Neatpeak Spider или Neatpeak Cheker – условно бесплатно ПО, однако для проверки индексации нужна покупка тарифа.
Сами программы имеют более широкий функционал и позволяют анализировать сайт по многим параметрам.
Среди онлайн-сервисов, у которых есть функция по проверке индексации страниц. Каждый из этих сервисов обладает широким потенциалом возможностей. Для примера укажем несколько из них:
- Серпхант.
- Топвизор.
Почему сайт/страница не индексируется?
Напоследок, несколько причин по которым страница или весь сайт могут отсутствовать в индексе поисковых систем:
- Не корректный файл robots.txt. Стоит проверить, возможно вы запретили поисковым ботам доступ к сайту.
- Страница имеет ответ сервера отличный от 200-го или доступна только после авторизации. Выполните проверку ответа сервера страниц и убедитесь, что она доступна при прямом переходе.
- Теги none, noindex. Если в коде страниц прописан такой тег – это означает запрет поисковым системам к индексации. Стоит выполнить проверку.
- Наличие заголовка X-Robots-Tag с запретом на индексацию.
- Новый сайт/страница. Процесс индексации занимает определенное время, если страница создана относительно недавно, возможно она просто не успела попасть в индекс.
- Качество страницы. Если страница не содержит уникального контента в рамках вашего сайта и всего интернета, она может быть исключена из индекса.
- Наличие дублей страниц. Стоит проверить, возможно в индексе присутствует дубль страницы, проиндексированные по отличному от указанного URL. Потребуется найти дубль и указать поисковым роботам страницу, которая должна быть в индексе (301-й редирект, canonical).
- На сайт наложен фильтр со стороны ПС. Решение проблемы – анализ сайта на наличие фильтра и комплекс работ по выводу из-под него.
- Страница долго загружается. Решение – проработать над скоростью загрузки страницы и сайта в целом.
- Нарушение рекомендаций ПС в отношении страницы. (Документ более 10 МБ для Яндекса).
Комментарии