Индексирование сайта: проблемы поисковиков и история “алгоритма”

В настоящее время, индексирование сайта стало настоящей проблемой для вебмастеров и паблишеров, намеренных зарабатывать на своем контенте, в стремлении поднять страницы своего проекта на первые места поисковой выдачи. Однако, эта проблема возникла за долго до обновленных алгоритмов поиска Яндекс и Google.

В этом небольшом эссе, я расскажу о том, как поисковики научились экономить свои ресурсы, аргументируя любые действия по изменению индекса, новыми прогрессивными стартапами и обновленными алгоритмами с искусственным интеллектом.

Содержание:

Проблема индексации

Часто можно услышать, что даже успешные проекты сталкиваются с медленной индексацией своего нового контента, а с февраля 2022 года, это и вовсе превратилось в большую проблему.

Нужно отметить, что существует несколько понятий, связанных с появлением контента в поиске.

  • Индексирование — первое знакомство поиска с новым контентом. Робот обходит текстовое содержание и помещает его в индекс, посредством небольшого кэшированного файла.
  • Сканирование — доступность для робота любого контента, а также его постоянный переобход.
  • Ранжирование — появление контента в поиске на определенном месте.

Проблема индексации как правило состоит в том, что проиндексированный контент, даже спустя большой период времени, не появляется в поиске или находится на отдаленной странице поисковой выдачи.

Иными словами, очевидная проблема состоит в ранжировании контента, а не в его индексации, как нас хочет убедить поисковик. Новый контент, посредством определенных инструментов, которые использует вебмастер, практически мгновенно попадает в индекс, однако это не гарантирует его появление в поисковой выдаче, о чем достаточно туманно излагает в своих инструкциях, как поиск Google, так и Яндекс.

“Китайский пузырь” или иллюзия алгоритма

Еще в 2002 году, количество суточных запросов в поисковой системе Яндекс не превышало и двух миллионов, а техническое оборудование поисковика прекрасно справлялось с любой нагрузкой на сервера.

Однако уже на период 2010 года, все мировые поисковики столкнулись с глобальной проблемой — превышающая все лимиты нагрузка на сервера.

С введением в массовый оборот смартфонов с большим экраном, количество пользователей поисковых систем возросло в сотни раз.

Сами поисковым системам нужно было оперативно решать проблему — или постоянно покупать дорогостоящие дополнительное оборудование, либо найти другой путь решения проблемы, увеличивая прибыль, а расходы на сервера оставляя на том же уровне.

Для справки: по данным издания “Forbes” на 2021 год, «Яндекс» производит свои серверы в Китае и на Тайване, обновляя небольшое их количество и вкладывая в апгрейд около 15 миллиардов рублей. В России, находятся около 150 000-200 000 серверов.

Первыми, решение о снижении затрат на обновление и закупку новых серверов, применительно к возросшей суточной нагрузке, — нашли китайцы. Программисты из Поднебесной начали эксперименты над пекинским поисковиком “Baidu”.

Как оказалось, поисковым алгоритмам совсем не обязательно обращаться при запросе пользователя, к нескольким миллиардам проиндексированных документов. Достаточно между файлами индекса и ранжированием в Search Engine Results Page, создать пузырь в несколько миллионов релевантных страниц, к которым и будет обращаться поисковый робот, тем самым существенно снизив нагрузку на сервера.

Иными словами, изобретение китайцев является не технологией, а маркетинговой и финансовой идеей, впоследствии получившей название “китайский пузырь индексирования”. Напомним, что речь идет о периоде 2010-2012 годов.

Эта китайская идея настолько понравилось Google, что они решили на ее основании изобрести технологию, назвав ее поисковым искусственным интеллектом. Новая технология стала фильтровать индекс, помещая в серединный сегмент, наиболее успешные страницы по целевому запросу.

Нужно отметить, что в данном случае, речь не идет о таких разумных интеллектуальных машинах Гугл, как “Кофеин”, “Панда” или “Top Heavy”, которые были анонсированы с 2010 по 2012 год. Речь скорей идет о том, о чём поисковики будут замалчивать еще долгое время, — ведь на данный момент в ранжировании участвуют не все страницы глобальной сети, а только их избранная часть.

Проблема пользовательских метрик и ранжирование для избранных

Еще на момент 2012 года, SEO было достаточно простой техникой — правильные ключевые слова, заголовки и метаописания, оперативно выводили новый проиндексированный контент, на первые места в поисковой выдаче.

Однако после этого периода, даже грамотно оформленный контент часто просто отсутствовал в поиске и конечно виной всему стал “китайский пузырь индексирования”.

Как тогда, так и сейчас, место страницы сайта в поисковой выдаче определяется на основании пользовательских метрик — повторяющиеся клик в SERP, время проведенное на контенте и глубина просмотра. Однако с введением “китайского пузыря” и экономии на ресурсах, поисковики придумали еще и технологию экспериментальной выдачи, впоследствии получившей в Яндексе название “Многорукий бандит”.

“Многорукий бандит” стал вынужденной мерой, с помощью которой, поиск либо помещал новый контент в “китайский пузырь”, либо обратно выкидывал его в архив индексации.

Идея технологии “многорукого бандита” достаточно проста: новый контент на короткое время, из индекса, появляется сразу в топ выдачи по основному ключевому содержанию. На основании этого, поисковик оценивает релевантность документа, по сравнению с теми ссылками в SERP, которые занимают органические верхние места выдачи.

Если контент имеет скромные метрики по сравнению с другими игроками, его выкидывают в “архивный индекс”, если более высокие поведенческие факторы — помещают в “китайский пузырь” и контент начинает ранжироваться.

Устаревшие метрики

На момент 2008 года, пользователи заходили в поиск с десктопов, а сама аудитория в общей массе внимательно изучала предлагаемый контент — поэтому метрика времени нахождения на сайте работала правильно.

Однако, уже в 2010 году, в поиск входит миллиардная аудитория, которая не любит и не желает изучать контент. Это так называемое “поколение Y” популярной теории Уильяма Штрауса. Взгляды этой многочисленной прослойки, существующей в каждой стране, адаптированы под цифровые технологии. Однако, как и следующие “поколенье Z”, эти люди воспринимают информацию визуально.

Для справки: в 2012 году, после покупки Инстаграм*, платформой Facebook*, его аудитория выросла до 80 миллионов потенциальных любителей только визуального контента.

Уже в 2017 году, стало совершенно очевидно, что пользовательские метрики, отвечающие за ранжирование места в поисковой выдаче, безнадежно устарели, а контент в поиске, на 70% состоял из статей трехлетней давности.

Иными словами, пользовательские метрики уже не могут по основным тематикам понять, насколько предлагаемая в выдаче страница интересна пользователям — большинство юзеров просто скролят статьи, обращая внимание только на изображения и заголовки.

От этого образуется поисковый парадокс, где новый и старый контент, имеют одинаковое среднее время чтения и поисковику нет смысла ставить новый контент в топ SERP, ведь там уже есть несколько работ на эту же тему, с такими же поведенческими характеристиками.

Иными словами, новый контент, даже после его испытания “многоруким бандитом”, не оказывается в “китайском пузыре”, а отправляется в “пыльный” архив индексации.

Будут ли перемены в индексации?

Улучшения качества индексации и ранжирования нового контента в поисковой выдаче, ожидать не стоит. Поисковик, это IT-гигант с классическим устремлением к оптимизации и увеличению прибыли. Введение радикально новых пользовательских метрик, скажется на увеличении расходов поисковых систем и снижении доходов. Совершенно очевидно, что любую из сотен поисковых систем, устраивают те алгоритмы, которые они представляют сейчас. Однако за последние несколько лет, у большинства вебмастеров, копирайтеров и поблишеров сложилось мнение, что качество поиска стремительно ухудшается.

* — принадлежит Meta, признанной в РФ экстремистской организацией, ее деятельность запрещена на территории РФ.