Неужели у Сегаловича в статье ошибка?

В статье Яндекс на РОМИП-2004 у Сегаловича приведена формула доли веса пассажа, которую нужно преодолеть, чтобы пассаж был найденным:

“где Softness соответствует величина от 0 до 1, а QL — длина запроса в словах”
***
Проверяю. Не сходится…
Беру одно значащее слово и N разных абракадабр с весом ::1, разделенных оператором поиска в документе &&.
Типа такого: окна::1479 && semhfwj1::1 && semhfwj2::1 && semhfwj3::1 && semhfwj4::1 && semhfwj5::1 && semhfwj6::1 && semhfwj7::1 && semhfwj8::1 && semhfwj9::1 && semhfwj10::1 && semhfwj11::1 && semhfwj12::1 && semhfwj13::1 && semhfwj14::1 && semhfwj15::1
И получаю такие веса слова “окна”, при которых еще ничего не найдено, но если прибавить единицу – будет найдено:

Термов	Вес "окон"	Доля веса по кворуму
2	1395	0.9400
3	790	0.8632
4	726	0.8029
5	742	0.7550
6	785	0.7158
16	1478	0.5163

По формуле – не выходит… По формуле QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) доли веса получаются:

Термов	Доля веса по кворуму=QuorumWeight=(1-0.06)^(1/SQRT(QL-1))
2	0.9400
3	0.9572
4	0.9649
5	0.9695
6	0.9727
16	0.9842

…что даже не соотвествует тому, что написано в статье:

В частности, при равных по весу словах запроса и коэффициенте мягкости 0.06 (того, что использовался при выполнении заданий РОМИП), в пятисловном запросе достаточно 4-х слов (или 76% веса), а в 16-словном всего лишь 8 слов (или 52% веса) для преодоления кворума.

А у меня как раз-таки соотвествует.
После небольшого метода тыка приходим к выводу, что формула выглядит так:
QuorumWeight=1-Softness^(1/SQRT(QL-1))
…ну, короче, скобочками Сегалович ошибся… 🙂 1-Softness не надо в скобочки ставить…

PS блин, а я чуть голову не сломал…

Минус-слова в разном контексте, оказывается, бывают

Как-то по умолчанию предполагал, что если запрос в Яндексе с минус-словом – то это минус-слово должно минусоваться в документном контексте.
Я замечал, что минус-слово в колдунщике ставится с оператором расстояния, но не придавал этому значения, думал, колдунщик тупо ставит, а там уже все равно его “вычитают” по документу.
А вот хрен там.
Примеры:
!Иванов &/(1 1) -Андрей – поиск на расстоянии плюс одно слово: во втором сниппете “Андрей Иванов” (минус одно слово)
!Иванов &/(-1 1) -Андрей – этого уже нет.
!Иванов -Андрей – переколдовывается с расстоянием в 3 предложения до “минус андрея”. Включения тоже нет.

А раз такие дела, то “отсутствие слова” в таком запросе может тольковаться как вклад в релевантность, меняться число термов в запросе (и кворум, кстати!) – и меняться выдача…

то-то она иногда меняется с минус словами… а мы можем списать это на “пробивание кеша” 🙂