Матрикснет — метод машинного обучения, разработанный компанией «Яндекс». Представляет собой особый алгоритм, при помощи которого поисковые роботы научились отличать релевантные запросам страницы от нерелевантных.
Цель
Улучшение качества поиска с помощью повышения количества условий ранжирования.
Немного о теории поиска
Распространено мнение, что каждое обращение пользователя к поисковой системе с определенным запросом влечет за собой просмотр поисковой машиной всех страниц, имеющихся в интернете. Если это было бы так, то один запрос обрабатывался довольно долгое время — от нескольких минут до получаса, так как в сети миллионы страниц.
Для сокращения времени отклика поисковые роботы нуждаются в систематизации сайтов по определенным тематикам. Для этого были придуман так называемый индекс — своеобразная база данных, которая содержит заранее сформированный перечень ресурсов, соответствующих какому-либо поисковому запросу. Индекс не является статичным — он постоянно обновляется.
Предпосылки появления
Обучение поисковых систем необходимо для улучшения результатов поисковой выдачи. В компании «Яндекс» до недавнего времени это выглядело следующим образом. Поисковой робот во время обновления находит соответствующие запросу страницы, после найденные страницы проверяет человек — асессор, который оценивает, насколько найденные страница реально соответствуют запросу. Если страница проходит проверку — она индексируется, при этом чем выше уровень соответствия, тем более высокий рейтинг присваивается странице.
Количество сайтов и, соответственно, страниц неуклонно растет и справляться человеческими силами с таким объемом становилось все сложнее. Чтобы упростить задачу и оптимизировать обучение, возникла необходимость машинного решения вопроса — для «Яндекс» таким решением стал Матрикснет.
Алгоритм Матрикстнет
Матрикснет работает с применением специальных математических формул, благодаря которым достигается уменьшение количества ошибочных оценок при сопоставлении содержания страниц и поискового запроса.
Матрикснет позволяет настраивать ранжирование сайтов под ту или иную поисковую тематику, при этом качество выдачи не снижается. Система учитывает тысячи значений, благодаря чему настройка позволяет исключить нетематические страницы, на которых есть соответствия поисковому запросу.
Внедрение Матрикснет привело к тому, что качество поисковой выдачи значительно улучшилось, несмотря на постоянно возрастающее количество страниц и увеличивающийся поток поисковых запросов.