Стемминг – процесс выделения основы слова.
Происхождение термина стемминг - от английского «stem», что в одном из значений русского языка означает – ствол. Это механизм поискового алгоритма, используемый для выделения основы слова из словоформы. При помощи стемминга поисковики повышают релевантность выдачи.
Польза стемминга в том, что именно он позволяет показывать пользователю документы, в которых содержатся не только прямые формы запросов (леммы), но и их словоформы. Применительно к русскоязычному тексту стемминг позволяет извлекать из словоформ их основу методом отсечения от нее суффиксов и окончаний. Так, при стемминге слова «столовый», чтобы извлечь основу слова – «стол» будут отсечены суффикс «ов» с окончанием «ый»,
Поэтому, в поле зрения поиска окажутся не только документы с содержанием слова «столовый» но и все остальные, в которых есть слово «стол». После чего ценность документа будет определяться другими механизмами, например, лемматизацией или латентно-семантическим индексированием. В результате в выдаче благодаря стеммингу могут оказаться веб-страницы, в контенте которых вроде и не содержится прямого запроса сделанного пользователем, но все равно представляющие потенциальный интерес конкретному пользователю. Использование стемминг востребовано не только поисковыми машинами. К нему часто обращаются веб-мастера, занимающиеся организацией такого юзабилити, к примеру, как поиск по сайту.
На сегодня существует достаточный выбор специального программного обеспечения, при помощи которого выполняется стемминг. Программы соответственно называются стеммерами. Версии стеммеров могут быть платные или бесплатные.