22 августа 2017 года в Московском планетарии состоялась презентация Яндекса, посвященная запуску нового поискового алгоритма. Открыл мероприятие Андрей Стыскин — руководитель Поиска Яндекса. На этой должности он находится с 2015 года, а до этого руководил отделом поискового ранжирования.

После небольшого вступления слово было предоставлено руководителю службы релевантности и лингвистики Александру Сафронову, который возглавлял так называемое «конструкторское бюро», где проектировалась и внедрялась новая версия поиска.

Нейронные сети и искусственный интеллект

Ранее поисковые системы формировали выдачу из тех страниц, на которых содержатся слова из поискового запроса пользователя. Со временем алгоритмы ранжирования становились более сложными и релевантность выдачи увеличивалась. Страницы, дающие исчерпывающий ответ на вопрос пользователя, вовсе не обязаны содержать все слова запроса.

Возникла потребность искать не по словам, а по смыслу. Запущенный в прошлом году алгоритм Палех сделал первые шаги на пути к семантическому поиску. Новый алгоритм Королёв является его логическим продолжением, сопоставляя запрос тексту всего документа, а не только заголовку.

Почему алгоритм получил такое название? Инженер-конструктор и основоположник космонавтики Сергей Павлович Королёв осуществил мечту человечества о полетах в космос. Запуск нового алгоритма Яндекса — столь же важный технологический прорыв к мечте о поиске, который понимает пользователей. В основе — искусственные нейронные сети. Они и раньше были задействованы в поиске, но именно сейчас их доля существенно возросла.

Как асессоры помогают машинному самообучению

Выступление следующего докладчика Ольги Мегорской посвящено обучению искусственного интеллекта. Она работает в службе оценки качества поиска и отвечает за развитие всей асессорской сети Яндекса.

За последние несколько лет технологии машинного обучения совершили колоссальный рывок, сегодня сделав возможным то, что еще вчера казалось фантастикой.

На основе эталонных примеров и образцов для подражания нейронные сети научились самостоятельно творить: писать музыку, создавать картины. В поиске используются те же технологии, но задача несколько сложнее, потому что заранее готовых данных для обучения не существует. Таким образом, подготовкой базы для обучения занимаются асессоры, которые оценивают релевантность документов.

В Яндексе работает более 1500 асессоров, но со временем они перестали справляться с нагрузкой. Тогда в конце 2014 года была создана открытая краудсорсинговая платформа Толока. В ней может зарегистрироваться любой желающий в качестве исполнителя, находить интересные задания и выполнять их за вознаграждение.

В данный момент более миллиона исполнителей выполняют задания в Толоке и оценивают результаты, которые используются в обучении искусственного интеллекта. Это позволило увеличить объем и масштабируемость собираемых данных для обучения. Впрочем, заказчики также могут зарегистрироваться в Толоке и получить помощь в сборе данных и оценке информации.

Толока — название происходит от старинной деревенской традиции, когда жители деревни собирались вместе для того, чтобы сообща сделать большое дело, такое, которое не под силу одному человеку.

Таким образом, нейронной сети в самообучении помогают:

  • Статистика пользовательского поведения (Big Data). Если пользователи при запросе часто посещают определенную страницу, значит запрос и текст документа связаны по смыслу.
  • Асессоры Яндекса сравнивают релевантность поисковых запросов и документов в результатах выдачи.
  • Исполнители в Толоке выполняют различные задания и дают свою оценку.

На сцену возвращается Андрей Стыскин. Организаторы подготовили сюрприз участникам мероприятия и зрителям онлайн трансляции. На вопросы о космосе отвечала не машина, а люди, которые находятся на орбите Земли — на Международной космической станции. Экипаж российского сегмента МКС космонавты Фёдор Юрчихин и Сергей Рязанский вышли на прямую связь и пообщались со зрителями.

Королёв — это машинный интеллект, который тебя понимает!

На этом презентация завершилась, ниже Вы можете посмотреть видеозапись, если пропустили трансляцию. Давайте обсудим, что изменится для вебмастеров и как теперь правильно оптимизировать тексты. Быть может на этом больше выиграют низкочастотные запросы?