Релевантность

Релевантность - мера соответствия найденного документа поисковому запросу. Иногда этот термин употребляется также в выражении «релевантность выдачи», в этом случае подразумевается совокупная релевантность всех документов, выведенных поисковой системой в топе выдачи, заданному поисковому запросу.
 
Кроме указанных случаев, когда речь идет о соответствии документа(-ов) запросу с точки зрения пользователя поисковой системы, этот термин употребляется и для определения соответствия документа(поисков-ов) запросу с точки зрения поисковой системы, при этом релевантность является совокупным фактором ранжирования документов в результатах поиска.
 
Факторы, учитываемые поисковыми системами, принято разделять на:
 
По отношению к документу:
 
- Внутренние факторы;
- Внешние факторы;
 
По отношению к запросу:
 
- Статические факторы;
- Динамические факторы.
 
Основным методом для оценки релевантности является TF-IDF–метод, который используется в большинстве поисковых систем (как в интернет-поисковиках, так и в справочных системах (MSDN). Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (т.е. чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину - то есть документ будет выдаваться раньше в результатах поиска по данному термину. Автором метода является Gerard Salton (в дальнейшем доработан Karen Sparck Jones).