А щастье было так возможно…

Как сказано в статье Ильи Сегаловича про поиск Яндекса, “на стадии индексации подавляются множественные вхождения запросов, предназначенные для накачки рел-ти” или типа того.
Сначала я забыл про это “на стадии индексации”. Потом до следующего утра думал, что вот, в руках алгоритм Яндекса – не терпелось опробовать. 🙂
Но не вышло. На стадии индексации вырезаются.
***
Что хотел сделать? В “подсветку”, как известно, передается заколдованный запрос пользователя. И id документа (d). И еще что-то (ds).
А зачем туда передавать заколдованный запрос, что, разве нельзя тупо подсветить все слова запроса в документе? Я по определению думал, что должны подсвечиваться все слова – даже не тестил никогда. Потом обалдел, когда увидел, что подсвечены не все слова! Тут и понял, что подсветка идет по найденным пассажам. Т.е., подсветка работает сродни поиску, по тому же алгоритму. Для этого и переколдованный запрос передается.
Сначала подумал, что часть документа выбрасывается как “переоптимизированная”. Но нет, при переформулировании запроса можно добиться подсветки любого словосочетания. Так же при изменении “мягкости” можно тоже подсветить все.
Отличный инструмент получается – что подсвечено, то Яндекс учитывает при ранжировании. А неподсвеченные слова – бесполезны. А если словосочетание обязано быть подсвеченным по операторам контекста, но не подсвечивается – значит, оно вырезано как спаммерское (таких примеров, правда, не видел пока).
Я-то что думал. Ведь при подсветке Яндекс забирает страницу заново с сервера… А ведь ее можно поменять и снова подсветить… И так понять правила “вырезания переоптимизации”. 🙂
Но увы.
Поигрался изменениями. Забавно, Яндекс конец предложения считает только, если после точки слово начинается с большой буквы, а если с маленькой – не считает… В общем, о разделителях можно узнать.
***
Примеров спама с тупыми перечислениями слов запроса напостите, плиз, кому не лень. 🙂