Неужели у Сегаловича в статье ошибка?

В статье Яндекс на РОМИП-2004 у Сегаловича приведена формула доли веса пассажа, которую нужно преодолеть, чтобы пассаж был найденным:

“где Softness соответствует величина от 0 до 1, а QL — длина запроса в словах”
***
Проверяю. Не сходится…
Беру одно значащее слово и N разных абракадабр с весом ::1, разделенных оператором поиска в документе &&.
Типа такого: окна::1479 && semhfwj1::1 && semhfwj2::1 && semhfwj3::1 && semhfwj4::1 && semhfwj5::1 && semhfwj6::1 && semhfwj7::1 && semhfwj8::1 && semhfwj9::1 && semhfwj10::1 && semhfwj11::1 && semhfwj12::1 && semhfwj13::1 && semhfwj14::1 && semhfwj15::1
И получаю такие веса слова “окна”, при которых еще ничего не найдено, но если прибавить единицу – будет найдено:

Термов	Вес "окон"	Доля веса по кворуму
2	1395	0.9400
3	790	0.8632
4	726	0.8029
5	742	0.7550
6	785	0.7158
16	1478	0.5163

По формуле – не выходит… По формуле QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) доли веса получаются:

Термов	Доля веса по кворуму=QuorumWeight=(1-0.06)^(1/SQRT(QL-1))
2	0.9400
3	0.9572
4	0.9649
5	0.9695
6	0.9727
16	0.9842

…что даже не соотвествует тому, что написано в статье:

В частности, при равных по весу словах запроса и коэффициенте мягкости 0.06 (того, что использовался при выполнении заданий РОМИП), в пятисловном запросе достаточно 4-х слов (или 76% веса), а в 16-словном всего лишь 8 слов (или 52% веса) для преодоления кворума.

А у меня как раз-таки соотвествует.
После небольшого метода тыка приходим к выводу, что формула выглядит так:
QuorumWeight=1-Softness^(1/SQRT(QL-1))
…ну, короче, скобочками Сегалович ошибся… 🙂 1-Softness не надо в скобочки ставить…

PS блин, а я чуть голову не сломал…

Минус-слова в разном контексте, оказывается, бывают

Как-то по умолчанию предполагал, что если запрос в Яндексе с минус-словом – то это минус-слово должно минусоваться в документном контексте.
Я замечал, что минус-слово в колдунщике ставится с оператором расстояния, но не придавал этому значения, думал, колдунщик тупо ставит, а там уже все равно его “вычитают” по документу.
А вот хрен там.
Примеры:
!Иванов &/(1 1) -Андрей – поиск на расстоянии плюс одно слово: во втором сниппете “Андрей Иванов” (минус одно слово)
!Иванов &/(-1 1) -Андрей – этого уже нет.
!Иванов -Андрей – переколдовывается с расстоянием в 3 предложения до “минус андрея”. Включения тоже нет.

А раз такие дела, то “отсутствие слова” в таком запросе может тольковаться как вклад в релевантность, меняться число термов в запросе (и кворум, кстати!) – и меняться выдача…

то-то она иногда меняется с минус словами… а мы можем списать это на “пробивание кеша” 🙂

Статистика по операторам колдунщика Яндекса

Вот так по нашей массе запросов колдунщик Яндекса “любит” вставлять разные операторы (в % относительно &):

&		100%
&/(-2 4)	8.813
&/(-1 3)	9.914
&/(1 1)		1.784
&/(0 0)		0.035
&&/(-7 7)	15.212
&&/(-3 3)	14.705
&&		6.714
!!%		0.035
! 		0.699

Длинные слова

По мотивам того, что у artlebedev на хомяке в тайтле есть слово экстраультрагиперпупервротебупермегасупернадежный и Яндекс с Рамблером его не находят (ноль результатов), хотя знают (статистика слов: 49). via Aik и itman.
Больше всего мне нравится коммент itman, а точнее третья версия -вторая часть:

Во-первых, некоторые поисковые машины игнорируют слова, которые есть только в тайтле. Во-вторых, они могут игнорировать слишком длинные тайтлы. В-третьих, они могут игнорировать слишком длинные слова. И тут могут быть варианты. То есть слово может обрезаться, а может и просто не индексироваться. Насколько я проверил, Яндекс слово не обрезает, хотя в закешированной текстовой версии слово есть, значит Яндекс новую версию странички сжевал.

-думаю, что Яндекс не ищет по длинным словам и не обрезает. Может, ему просто западло показывать эти длинные слова в поиске? Они длинные и неудобные… И, соотвественно, искать по ним неудобно. Пример:
по запросу студия артемия лебедева ваш && партнер показывается тайтл:

Студия Артемия Лебедева – ваш …

А по запросу поиска внутри сайта слова партнер показывается:

Студия Артемия Лебедева – … партнер

Т.е., слова до и после длинного яндекс знает, ему просто западло его в выдачу отгружать. При малейшем добавлении в запрос слов из тех, что ДО экстраультрагиперпупервротебупермегасупернадежный – конец обрезается многоточием.
UPD.
Рамблер тоже – слова не находит, но в выдаче показывает и болдом что надо выделяет:

Студия Артемия Лебедева — ваш экстраультрагиперпупервротебупермегасупернадежный партнер

“найденных слов” в онлайн в Яндексе больше не будет?

Обалдел, увидев вместо ссылки “найденные слова” в Яндексе ссылку “сохраненная копия”. Было ломанулся копировать дисковый кеш пробитых позиций по Яндексу… Но с ребятами посмотрели в урл ссылки – reqtext там еще есть… Насколько – неизвестно…
Но копию кеша все равно сделали. На всякий случай. 🙂
Но, видимо, в онлайне смотреть подсветку нам больше не дадуд.

число входящих ссылок на сайт

Вот рисунок по данным Яндекс-грантов 2004. Нарисовано “число сайтов в группе в зависимости от числа входящих ссылок на сайт” в логарифмических координатах. Т.е., группа хостов, имеющих 1 входящую ссылку, состоит из N1 хостов и т.д.

Довольно приличная линейность. Расколбас в области больших цитируемостей – из-за того, что мне было лениво выбирать представительные интервалы (от и до).
В среднем по больнице PR (нелогарифмированное значение) коррелирует с числом входящих ссылок на сайт.
Дальше: пилим этот треугольник по горизонтальной оси на 10 частей, и делаем ступеньки PageRank.

Яндекс: разное

1. Это, кажется, было давно, но: Яндес объявил гранты “интернет-математика-2007” http://company.yandex.ru/grant/
Основные интересы яндекса – сообщества по ссылкам, поведение людей, тематическая классификация запросов, новые меры ссылочной цитируемости (трастранк?), жанры текста и мн.др

2. MyStem Сегаловича выложен в открытый доступ http://company.yandex.ru/technology/products/mystem/mystem.xml (это, в принципе, и раньше было, но сейчас есть примеры работы), я даже удивился – неужели там полнотектсовая морфология зашита? А ведь не должна. Но судя по примерам, части речи оно определяет… пойду скачивать и втыкать.

На деревню дедушке

Костя Каширин собирает на форуме, и выкладывает у себя на advans.ru/platon/ – коллекцию ответов Платона Щукина, модератора Яндекса (он же Наина Киевна, Лера Страза, Тимофей Журавлев и др.)

очень познавательно.