Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются…
Из http://help.yandex.ru/xml/?id=362990 – описание ответа яндекса:
<relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).
<title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.
<passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.
<passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.
<_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется “текст ссылок: …”. В XML тип содержимого пассажа обозначается так: 0 – обычный пассаж, 1 – пассаж содержит текст ссылок.
В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о “фразовой” релевантности, похожие же принципы заложены в нынешний поиск…
В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> 🙂
Самое забавное – то, что релевантность типа “phrase” в реальности не наблюдается, она всегла strict… А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) …
Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page=”50″).
Видим, что в поле title> выделение слов либо “strict” (когда ПЕРВОЕ ВКЛЮЧЕНИЕ “пластиковые” есть ДО “окон”), либо “phrase” (когда порядок слов в тайтле совпадает с порядком слов в запросе).
А промежуточных вариантов мало – в конце первой 50 есть сайты dreamokna.ru:
<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">Окна/hlword> Мечты - установка
<hlword priority="strict">пластиковых/hlword>
<hlword priority="strict">окон/hlword> veka kbe rehau, монтаж
<hlword priority="phrase">окон/hlword>
,
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх
</title>
и и oknaprofi.ru:
<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">окна/hlword> пвх в Москве - цены, остекление балконов лоджий, производство деревянных
<hlword priority="phrase">окон/hlword>
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> пвх, остекление балконов лоджий, пластиковые окна москва
</title>
-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов… Причем явно есть ограничение на число “запросных” слов в пассаже… У второго сайта слова “окона” в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла… Причем середина тайтла со “стриктом” заменяется многоточием, а тип релевантности “фрейз” всегда выводится, хоть и стоит в конце…
Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю “включенных в пассаж”). И тип пассажа по нему же определяется.
Кстати, в теге headline>, который соответствует метаданным, пассажи всегда “стрикт”.
***
Еще одна прикольная вещь. В той же самой выдаче по “окна пластиковые” сайты есть с параметром <categ>:
[code:1:75b4b73ae2]<categ> Описание найденной группы…. name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям; [/code:1:75b4b73ae2]
-прикольно то, что оно иногда пишет “не тот” сайт в “группировке по сайтам”, причем изредка сайты одного владельца попадают:
<categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>
<categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>
<categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>
<categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>
<categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>
<categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>
<categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>
<categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>
<categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>
-интересно, глюк это или так и задумано…
PS В общем, надо копать…