Нейроалгоритмы поисковой системы Google

В те времена, когда о нейросетях знали совсем немногие, разработчики Google уже начинали первые, весьма робкие, работы по улучшению поиска технологиями машинного обучения.

До 2013 года поисковое продвижение в Гугле было довольно простым, а сам алгоритм ранжирование был, мягко говоря, не мудреным. Можно даже сказать примитивным.

Само SEO заключалось здесь во включении запросов в текст и мета-теги и закупку ссылок. В принципе, выбрав правильное количество вхождений ключей в текст и закупив много ссылок, seoшики могли загнать сайт и в ТОП-3 и в ТОП-1 почти по любому запросу. Но в 2013 году все начало меняться.

Колибри (2013)

Итак, в 2013 году Google внедрил Колибри (англ. Hummingbird). Поисковик никогда не раскрывал подробностей работы, но небезызвестный Мэтт Каттс заявил:

Колибри — переписанный алгоритм основного поиска. Просто для того, чтобы лучше сопоставлять запросы пользователей с документами, особенно для запросов на естественном языке. Запросы становятся длиннее, в них больше слов, и иногда эти слова имеют значение, а иногда нет.

Таким образом, Hummingbird – это не просто дополнительный слой, как, например, фильтры Пингвин и Панда, а целиком переработанный основной алгоритм поиска.

Что мы знаем об этом алгоритме

В основе алгоритма лежит граф связности понятий, аналогичный Knowledge Graph. Не добавляющие семантической полноты слова исключаются, а остальные приводятся к смысловым единицам и кодируются.

Возьмем исходную фразу:

Очень даже возможно; его верность – все равно что фасон его шляп: меняется с каждой новой болванкой

После очистки от незначащих слов и знаков препинания она может выглядеть так:

возможно верность фасон шляпа меняется новая болванка

А после кодирования так:

sfg3f#a uif1jrg7 hj6bdn k_a346fnj vcb@4jgf gh56mgm aa45kgjk

Семантической единицей при этом может быть как отдельное слово так и словосочетание.

Затем алгоритм представляет текст как связи сущностей, которые упрощенно можно изобразить графом вроде этого:

Так определяется какие семантические единицы должны быть в тексте. Конечно, связность между ними рассчитывается не на основе 1-2 текстов. Ведь роботы Google постоянно сканируют сотни миллионов страниц, медленно но верно дообучая алгоритм.

Это довольно довольно общее описание нейросетевой языковой модели, которым сейчас никого не удивить, а подробностей об алгоритме поисковая система не раскрывает.

Зачем внедрили Hummingbird?

В Google заявили, что преследовали следующие основные цели:

Улучшение общего качества поиска, путем снижения влияние ссылочных факторов и спама ключевыми словами;
Улучшение результатов по запросам на естественном языке. Это было необходимо в связи с ростом количества голосовых запросов с мобильных устройств. Эти запросы часто содержат много бесполезной для поискового алгоритма “воды”;
Борьба с поисковым спамом (дорвеями) и бесполезными материалами, оптимизированными под запросы “длинного хвоста” – это редкие ключевые фразы, обычно состоящие из большого количества слов.

Последствия для поискового продвижения в Рунете

Инженеры Гугл заявили об алгоритме:

«Он повлиял на 90% запросов, но только в небольшой степени, мы развернули его в течение месяца, а люди даже не заметили этого… это не то, о чем вам нужно беспокоиться. Он не потрясет ваш мир…»

Отчасти, это можно объяснить тем что алгоритм был недообучен, и ему требовалось время.

Поскольку Колибри разрабатывался, в первую очередь, для англоязычных запросов, на Рунет алгоритм оказал меньшее влияние. Однако, кое-что все-так произошло.

Часто стало нецелесообразно создавать посадочные страницы под упомянутые выше длиннохвостовые запросы. И это задело не только генерированный контент и спамные сайты.

Например, раньше, начинающий производитель с молодым и не трастовым сайтом, мог создать страницу услуги а-ля “винтовые лестницы из закаленного стекла с коваными перилами” (и десятки подобных) и получаться на них трафик и клиентов из Google.

Новый алгоритм часто пессимизировал такие страницы, вместо них ранжируя более общие, такие как “лестницы из закаленного стекла“.

В этих условиях молодые сайты не могли соревноваться с мастодонтами с большим ссылочным и трастовыми доменами, которым и доставалось место в ТОП-10.

По некоторым запросам в поисковой выдаче наблюдалось “мигание“, когда оптимизированная под редкий запрос статья периодически то попадала в ТОП-10 на время, то вылетала из него в далекие глубины.

В таких условиях даже упоминался термин “консервация выдачи“, то есть длительное отсутствие динамики в ТОП по запросу и невозможности в него попасть. Впрочем, это коснулось далеко не всех тематик, вероятно, из-за сложности понимания Google русского языка.

RankBrain (2015)

Развитие поиска продолжилось в 2015 году с релизом RankBrain, первого поискового алгоритма Google, работающего на основе глубокого обучения. Дополняя Колибри, новый алгоритм помог поиску лучше соотносить слова и понятия.

Так, патент Гугла US9104750B1 объясняет, что в основе алгоритма лежит определение концепции запроса и замещение синонимами всего запроса или отдельных его слов. Вот пример:

Например, вы ищете «как называется потребитель на самом высоком уровне пищевой цепи».

Алгоритм, видя эти слова на разных страницах, понимает, что концепция пищевой цепи относится к животным, а не к людям-потребителям.

Сопоставляя слова запроса с соответствующими понятиями, RankBrain понимает, что вы ищете то, что обычно называют «высшим хищником».
вице-президент Google Поиска Pandu Nayak

Среди прочего, RankBrain нацелен на решение следующих задач:

Обработка слов-омонимов;
Лучшее понимание, когда нужно учитывать такие части речи как союзы, предлоги и частицы, а когда нет;
Персонализация поисковой выдачи на основе истории поисков, местоположения пользователя, а также актуальных трендов;
Учет поведения пользователей, особенно клик по ссылке в поисковой выдаче;

Кроме того, по статистике Google, около 15% всех запросов являются уникальными. То есть, их никогда раньше не вводили (возможно, и позже никогда не введут). RankBrain улучшает результаты по этим фразам.

В целом, Hummingbird и RankBrain похожи, однако, первый больше ориентирован на понимание интента (намерения) лежащего в основе запроса, а второй – его значения и синонимов. Эта связка считается оптимизаторами важной частью текущего поискового движка Google.

BERT (2019)

BERT – акроним от Bidirectional Encoder Representations from Transformers, что можно перевести как “двунаправленный кодировщик представлений на основе трансформеров“. Он не является поисковым алгоритмом как таковой, а доступ к экспериментам с ним может получить любой, при помощи GitHub.

Итак, BERT – нейросетевой алгоритм для обработки естественного языка (Natural Language Processing), применяется для решения различных задач по обработке текста, например:

классификация и выявление тематик,
определение тональности и эмоциональной окраски,
перефразирование создание выжимок из текста.

BERT обучается без учителя на больших корпусах данных, таких как словари и крупные тезаурусы. В основе обучения лежит токенизация текста в соответствии со словарем. Затем часть токенов заменяется на маски.

Например, предложение “Как SEO-специалист, я оптимизирую сайты” может быть заменено на “Как [МАСКА]-специалист, я [МАСКА] сайты“. Затем модель должна составить первоначальное предложение. В случае простых примеров вариантов может быть довольно много, однако в текстах большого объема вариативность резко снижается и выводы нейросети намного однозначнее.

Основная уязвимость такого обучения в возможной потере смысловой связи между маскированными словами. Например, “SEO-оптимизатор“, достаточно устойчивое выражение, а при маскировке “[МАСКА]-[МАСКА]” однозначная связь слов теряется. Тем не менее, BERT считается одной из передовых моделей для работы с естественным языком.

BERT от Google

В 2019 году Google выложил свою реализацию нейросети (названную ALBERT) из несколько предобученных многоязыковых моделей BERT со множеством слоев, узлов, выходов и параметров. В частности модель BERT-Base, поддерживает 104 языка, состоит из 12 слоев, 768 узлов, 12 выходов и 110M параметров, а ее словарь составляет 30522 слова. В том же году было заявлено что поисковая система Гугла будет использовать нейросеть для интерпретации поисковых запросов и ранжирования.

BERT понимает, как сочетание слов выражает сложную идею. BERT понимает последовательность слов и то, как они связаны друг с другом, поэтому гарантирует, что мы не пропустим важные слова из вашего запроса — какими бы маленькими они ни были.
вице-президент Google Поиска Pandu Nayak

Заявленное Google ключевое отличие от RankBrain в том, что BERT не просто способен искать по синонимам фраз и слов, но по-настоящему понимает что ищет пользователь. Что, конечно же, является преувеличением.

Свои реализации модели есть также у Facebook (RoBERT) и Microsoft (MT-DNN).

Стоит заметить, что уже в 2019 году BERT не был наилучшей (на основе теста RACE – Reading Comprehension From Examinations), нейросетевой моделью для обработки языка. Уже тогда ей была другая модель – XLNet, показавшая лучшие баллы на датесетах среднего и большого объемах.

Возможно, поэтому инженеры Гугла поторопились с новыми разработками.

MUM – будущее поиска Google

В мае 2022 года Google анонсировал появление принципиально нового нейросетевого ранжирующего алгоритма, Multitask Unified Model или MUM. Алгоритм обучен на 75 языках и способен решать множество задач.

В 1000 раз мощнее, чем BERT, MUM способен как понимать, так и генерировать контент […] MUM также является мультимодальным, то есть он может понимать информацию в нескольких модальностях, таких как текст, изображения и многие другие в будущем.

Алгоритм пока не развернут, по крайней мере настолько, чтобы его влияние было заметно. Но вот что обещает на Гугл в будущем:

Максимально комплексные ответы, всесторонне и в деталях раскрывающие тему;
Блок Thing To Know – подобранные нейросетью дополнительные запросы. Похоже на текущую механику похожих запросов, но гораздо более полезную;
Zoom Topic – удобная работа с базой знаний, позволяющая как изучать темы поверхностно, так и углубляться в любые подробности.
Полноценный Google Lens. Поиск с помощью запроса, но на основе изображения.

Так, например, вы сможете сфотографировать рубашку, и попросить поисковик найти носки с тем же принтом.

В целом, ожидается что MUM оставит в прошлом классическую выдачу с ТОП-10 и съем позиций. Колдунщики и ссылки будут постоянно учитывать историю поиска, предпочтительный формат контента, намерения и интересы каждого конкретного пользователя и каждая выдача будет уникальна.

Но как все эти алгоритмы работают вместе?

На самом деле, мы этого не знаем. Нам остается только доверять словам уже цитируемого выше вице-президента Google Search:

Когда мы разрабатываем новые системы искусственного интеллекта, наши устаревшие алгоритмы и системы не просто откладываются на полку.

Фактически, Поиск работает на сотнях алгоритмов и моделей машинного обучения, и мы можем улучшить его, когда наши системы — новые и старые — могут хорошо работать вместе.

Каждый алгоритм и модель играют особую роль, и они срабатывают в разное время и в разных комбинациях, чтобы помочь получить наиболее полезные результаты.