Начните искать ключевые слова
Используйте Serpstat, чтобы находить лучшие ключи
Метрики оценки качества поиска в MLR:
что мы знаем и о чем догадываемся
что мы знаем и о чем догадываемся
В данной статье поговорим о том, что нам известно о метриках, которые используют поисковые системы, фундаментальных проблемах, существующих подходах в обучении.
Под релевантностью мы понимаем степень отношения объекта определенному запросу. Допустим, у нас есть запрос и ряд «объектов» в той или иной мере отвечающих ему. Чем выше степень соответствия объекта запросу — тем выше уровень релевантности. Задача ранжирования — отдать наиболее релевантный объект в ответ на запрос. Чем выше релевантность, тем выше вероятность того, что пользователь совершит целевое действие (зайдет на страницу, купит товар, посмотрит видео и тд.).
С развитием систем информационного поиска тема ранжирования становится все более актуальной. Такая задача возникает буквально везде: в распределении страниц поисковой выдачи, рекомендации видеороликов, новостей, музыки, товаров и прочего. Именно для этой цели существует Обучение ранжированию. Что это?
Обучение ранжированию или Learning to rank (MLR) — это направление машинного обучения, которое занимается изучением и разработкой алгоритмов ранжирования, способных к самообучению. Его основная задача — определить наиболее эффективные алгоритмы и подходы, основываясь на их качественной и количественной оценке. Почему возникла проблема обучения ранжированию?
Для примера возьмет страницу информационного ресурса — статью. Пользователь вводит запрос в поисковую систему, где уже содержится набор файлов. В соответствии с запросом система извлекает соответствующие ему файлы из коллекции, ранжирует их и отдает файлы с наивысшей релевантностью.
Ранжирование выполняется на базе модели сортировки f (q, d), где q — запрос пользователя, d — файл. Классическая модель f (q, d) работает без самообучения и не учитывает взаимосвязи между словами (пример — модели Okapi BM25, Vector space model, BIR).
Однако, у таких алгоритмов есть один существенный недостаток — исходные данные должны быть четко подчинены правилу, а правило — строго следовать поставленной автором задаче.
То есть, если мы ставим перед собой задачу манипулированием результатами работы алгоритма, то мы ее с легкостью решаем, так как специфика алгоритма изначально предполагает что им манипулировать не будут.
Так вот проблема возникла тогда, когда поиск стал монетизироваться. Как только он стал монетизироваться, это простимулировало не просто выставлять документы к анализу, но выставлять их таким образом, чтобы получить преференции относительно конкурентов. И вот тут все и «посыпалось». Поэтому на сегодня результаты поиска, основанные на базе простых моделей, не могут обладать достаточным уровне точности.
Но здесь важно отменить несколько пунктов:
- Современные системы машинного обучения характеризуются слабым искусственным интеллектом. Говоря очень упрощенным языком, такие системы могут работать тогда и только тогда, когда они обучены на объеме данных, который достаточен для того, чтобы давать статистический верный прогноз.
- Сами по себе подобные модели ИИ известны с 1960тых годов. Почему же тогда о ИИ заговорили в серьез только сейчас? Именно потому что ИИ наш слабый и ему нужны огромные массивы данных для обучения. И только сейчас, когда интернет появился в каждой кофеварке, гиганты смогли аккумулировать достаточные данные для обучения.
- Нет ни одной возможности сейчас, научить машину решать задачу, если нет пула данных правильных ответов на конкретно эту задачу.
- Современные системы тем лучше работают сколь более узкую задачу они решают. Именно по причине того, что собрать данные для таких задач сейчас возможно. Для задачи более общего характера это сделать сейчас нереально.
- Из пунктов 1 и 2 следует, что, если в поиске сейчас и работает что-то связанное с ИИ то это ИИ, который может принять решение — это натуральный язык или, скажем, «лапша» сгенерированная цепями Маркова.
То есть он не способен в принципе выносить решения относительно пользовательского опыта, или авторитета страницы. Это абстрактный набор данных которые просто не обладают сейчас необходимым пулом данных для обучения. Даже если посадить 100 000 модераторов, которые будут кликать по сайтам составляя базу — авторитет/ не авторитет — им понадобится миллиард лет, чтобы составить базу необходимого объема.
И, соответственно, сам Google так же не может опираться на свои данные из прошлого, авторитетности проекта, потому что эти данные не заслуживают доверия. В случае работы поиска — не будет ничего страшного если он ошибется с выводом, но в случе обучения слабого ИИ, изначально незаслуживающие доверия данные приведут к тому, что обученная модель может вообще не давать верных результатов.
Степень соответствия определяется файла запросу несколькими способами. Наиболее распространенный подход предполагает, что степень релевантности документа основывается на ряде показателей. Чем выше соответствие одного показателя — тем выше оценка по нему. Оценки релевантности получены из набора маркировки поисковой системы, которая принимает 5 значений от 0 (нерелевантно) до 5 (совершенно актуально). Оценки по всем показателям суммируются.
По итогу, более релевантным является файл, сумма оценок которого по всем показателям — наивысшая. Данные обучения используются для создания алгоритмов ранжирования, которые вычисляет релевантность документов реальным запросам.
Признаки делятся на три группы:
В теории информационного поиска существует ряд метрик для оценки качества работы алгоритма с данными обучения, а также для сравнения различных алгоритмов обучения ранжированию. Открытые источники гласят, что они создаются на сессиях оценки релевантности, где судьи оценивают качество результатов поиска. Однако, здравый смысл говорит нам, что такой вариант вряд ли возможен и вот почему:
Именно поэтому мы имеем системы, которые умеют:
- Распознавать котиков: потому что за время существования интернетов люди наплодили миллиарды готовых данных с котиками.
- Определять натуральность языка, потому что оцифровали массу книг на этом языке и знаем точно, что он натурален.
Проблема с CG заключается в том, что он не принимает во внимание позиции набора результатов при определении его полезности. Другими словами, если мы изменим порядок оценок релевантности, мы не сможем лучше понять полезность набора результатов, поскольку CG останется неизменным.
Например:
Чтобы преодолеть это, мы вводим DCG. DCG наказывает высокорелевантные документы, которые оказываются ниже в результатах поиска, уменьшая значение оцениваемой релевантности, логарифмически пропорциональное положению результата:
Мы выполняем это путем сортировки всех соответствующих документов в корпусе по их относительной релевантности, получая максимально возможную DCG через позицию p(также известную как с).
А это означает, что выбор методологии, которая бы позволила определиться с инструментом — это больше гадание на кофейно гуще, так как мы не можем тут ничего проверить
Да, можно пытаться опираться на патенты или слова, брошенные тем или иным официальным лицом. Но 90% всех патентов — это мусор, который к программированию не имеет никакого отношения. А брошенные фразы — это только часть мозаики, которая усугубляется тем, что все эти люди связанные настолько жестким NDA, что даже якобы случайно брошенные фразы, являются «прописанными в таком-то договоре».
И все, что мы можем сделать — проанализировать и скомбинировать данные с разнообразных источников, в результате получив документ который рассказывает про теоретические основы того, каким образом может оцениваться качество поиска.
Всем удачи и высоких позиций!
Serpstat — набор инструментов для поискового маркетинга!
Находите ключевые фразы и площадки для обратных ссылок, анализируйте SEO-стратегии конкурентов, ежедневно отслеживайте позиции в выдаче, исправляйте SEO-ошибки и управляйте SEO-командами.
Набор инструментов для экономии времени на выполнение SEO-задач.
Используйте лучшие SEO инструменты
Проверка обратных ссылок
Быстрая проверка обратных ссылок вашего сайта и конкурентов
API для SEO
Получите быстро большие объемы данных используя SЕО API
Анализ конкурентов
Сделайте полный анализ сайтов конкурентов для SEO и PPC
Мониторинг позиций
Отслеживайте изменение ранжирования запросов используя мониторинг позиций ключей
Рекомендуемые статьи
Как увеличить видимость и CTR своего контента — кейс SEO Testing
Кейсы, лайфхаки, исследования и полезные статьи
Не успеваешь следить за новостями? Не беда! Наш любимый редактор подберет материалы, которые точно помогут в работе. Только полезные статьи, реальные кейсы и новости Serpstat раз в неделю. Присоединяйся к уютному комьюнити :)
Нажимая кнопку, ты соглашаешься с нашей политикой конфиденциальности.