В статье Яндекс на РОМИП-2004 у Сегаловича приведена формула доли веса пассажа, которую нужно преодолеть, чтобы пассаж был найденным:
“где Softness соответствует величина от 0 до 1, а QL — длина запроса в словах”
***
Проверяю. Не сходится…
Беру одно значащее слово и N разных абракадабр с весом ::1, разделенных оператором поиска в документе &&.
Типа такого: окна::1479 && semhfwj1::1 && semhfwj2::1 && semhfwj3::1 && semhfwj4::1 && semhfwj5::1 && semhfwj6::1 && semhfwj7::1 && semhfwj8::1 && semhfwj9::1 && semhfwj10::1 && semhfwj11::1 && semhfwj12::1 && semhfwj13::1 && semhfwj14::1 && semhfwj15::1
И получаю такие веса слова “окна”, при которых еще ничего не найдено, но если прибавить единицу – будет найдено:
Термов Вес "окон" Доля веса по кворуму 2 1395 0.9400 3 790 0.8632 4 726 0.8029 5 742 0.7550 6 785 0.7158 16 1478 0.5163
По формуле – не выходит… По формуле QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) доли веса получаются:
Термов Доля веса по кворуму=QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) 2 0.9400 3 0.9572 4 0.9649 5 0.9695 6 0.9727 16 0.9842
…что даже не соотвествует тому, что написано в статье:
В частности, при равных по весу словах запроса и коэффициенте мягкости 0.06 (того, что использовался при выполнении заданий РОМИП), в пятисловном запросе достаточно 4-х слов (или 76% веса), а в 16-словном всего лишь 8 слов (или 52% веса) для преодоления кворума.
А у меня как раз-таки соотвествует.
После небольшого метода тыка приходим к выводу, что формула выглядит так:
QuorumWeight=1-Softness^(1/SQRT(QL-1))
…ну, короче, скобочками Сегалович ошибся… 🙂 1-Softness не надо в скобочки ставить…
PS блин, а я чуть голову не сломал…