Инвертированный индекс: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Метки: с мобильного устройства через мобильное приложение
Метки: с мобильного устройства через мобильное приложение через приложение для Android
 
Строка 29:
 
== Особенности применения в реальных поисковых системах ==
В списке вхождений слова в документы, помимо id документов, обычно также указываются факторы ([[TF-IDF]], бинарный фактор: «попало слово в заголовок или не попало», другие факторы), которые используются при ранжировании.
Индекс может строиться не по всем [[словоформа]]м, а по леммам (по каноническим формам слов).
[[Шумовые слова|Стоп-слова]] можно исключить и не строить для них индекс, считая, что каждое из них встречается почти во всех документах корпуса. Для ускорения вычисления пересечений используют эвристику [[skip-pointer]]-ов. При обработке запросов, содержащих много слов, используют функцию кворума, которая пропускает на следующую стадию ранжирования часть документов, в которых встретились не все слова из запроса.