ГлавнаяО компанииКонтактыВход для клиентов
Продавцу

Мы стремимся сделать вход в интернет-торговлю доступным всем желающим.

С уважением,
команда WinShop


   Что нового?

Читайте нас в Twitter: 
 
 

Немного теории поиска: волшебная формула ранжирования

В 1970 и 1980 годах Стивен Робертсон и Карен Спарк Джоунс и другие ученые разработали вероятностную модель, которую в будущем доработали и стали использовать ведущие поисковые системы в «формуле» ранжирования результатов выдачи. (Статья рассчитана на тех, кто хочет понимать поиск «изнутри»).

Модель была доработана до функции ранжирования в информационном поиске и применялась для упорядочивания документов по их релевантности (впрочем, она применяется поисковиками и в наши дни). Функция получила название Okapi BM25, по названию английской поисковой системы Okapi.

Okapi BM25, как и все её модификации, базируется на TF-IDF функциях ранжирования, которые в различных своих модификациях широко применяется как Google, так и Яндексом.

TF-IDF можно описать следующим образом:

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Объясним на примере. Если на странице 1000 слов, из которых 30 – слово “хомяк”, то получаем, что частота слова “хомяк” в документе равно 0,03 (30/1000). DF определяется как количество страниц, содержащих слово “хомяк” разделенное на количество всех страниц. То есть, если страниц, содержащих слово “хомяк”, 2 000 000, а всего страниц 5 000 000 000 (подразумевается количество страниц в интернете в целом), то DF = 0,0004 (2 000 000/5 000 000 000). Окончательный расчёт веса слова подразумевает разделение TF на DF (или умножение на IDF). В нашем случае вес слова “хомяк” TF-IDF равен 75 (0,03/0,0004).

Вернёмся к функции BM25. Наиболее распространённую форму этой функции можно описать следующим способом:

Пусть дан запрос Q, содержащий слова q1,…,qn. Релевантность документа D запросу Q высчитывается следующим образом:
 

Немного теории поиска: волшебная формула ранжирования



где f(qi,D) есть частота слова (TF), qi в документе D, | D | есть длина документа (количество слов в нём), а avgdl — средняя длина документа в коллекции. k1 и b — свободные коэффициенты, обычно их выбирают как k1 = 2.0 и b = 0.75. IDF(qi) есть обратная документная частота (IDF) слова qi.

Функция BM25 в её классическом виде оценивает “важность” страницы, исходя из встречаемости ключевых слов без учёта взаимоотношений между страницами (то есть ссылок). В настоящее время поисковыми системами используется модификация этой функции под названием BM25F. Она учитывает другие параметры, такие как заголовки, околоссылочный текст, количество ссылок и т.д. Каждому из этих параметров присваивается своя степень значимости, которая влияет на итоговый результат функции ранжирования.


Источник: MegaIndex, Статьи


 

Решили открыть свой интернет-магазин или дать новые возможности работающему магазину?

Предлагаем Вам  открыть свой магазин на WinShop сейчас или узнать, как перевести свой магазин на платформу WinShop

вверх

  ® 1999 — 2016 WinShop