Внутренности Яндекс-XML

Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются…
Из http://help.yandex.ru/xml/?id=362990 – описание ответа яндекса:

<relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).

<title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.

<passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.

<passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.

<_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется “текст ссылок: …”. В XML тип содержимого пассажа обозначается так: 0 – обычный пассаж, 1 – пассаж содержит текст ссылок.

В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о “фразовой” релевантности, похожие же принципы заложены в нынешний поиск…
В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> 🙂
Самое забавное – то, что релевантность типа “phrase” в реальности не наблюдается, она всегла strict… А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) …
Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page=”50″).
Видим, что в поле title> выделение слов либо “strict” (когда ПЕРВОЕ ВКЛЮЧЕНИЕ “пластиковые” есть ДО “окон”), либо “phrase” (когда порядок слов в тайтле совпадает с порядком слов в запросе).
А промежуточных вариантов мало – в конце первой 50 есть сайты dreamokna.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">Окна/hlword> Мечты - установка
<hlword priority="strict">пластиковых/hlword>
<hlword priority="strict">окон/hlword> veka kbe rehau, монтаж
<hlword priority="phrase">окон/hlword>
,
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх
</title> 

и и oknaprofi.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">окна/hlword> пвх в Москве - цены, остекление балконов лоджий, производство деревянных
<hlword priority="phrase">окон/hlword>
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> пвх, остекление балконов лоджий, пластиковые окна москва
</title> 

-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов… Причем явно есть ограничение на число “запросных” слов в пассаже… У второго сайта слова “окона” в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла… Причем середина тайтла со “стриктом” заменяется многоточием, а тип релевантности “фрейз” всегда выводится, хоть и стоит в конце…
Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю “включенных в пассаж”). И тип пассажа по нему же определяется.
Кстати, в теге headline>, который соответствует метаданным, пассажи всегда “стрикт”.
***
Еще одна прикольная вещь. В той же самой выдаче по “окна пластиковые” сайты есть с параметром <categ>:
[code:1:75b4b73ae2]<categ> Описание найденной группы…. name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям; [/code:1:75b4b73ae2]
-прикольно то, что оно иногда пишет “не тот” сайт в “группировке по сайтам”, причем изредка сайты одного владельца попадают:

<categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>
<categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>
<categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>
<categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>
<categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>
<categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>
<categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>
<categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>
<categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>

-интересно, глюк это или так и задумано…

PS В общем, надо копать…

Внутренности Яндекс-XML: 7 комментариев

  1. Самое забавное – то, что релевантность типа "phrase" в реальности не наблюдается, она всегла strict…

    Самое забавное, что это свойство не Яндекс.XML, а поломавшихся уже больше двух недель как "нестрогих соответствий".

  2. Самое забавное – то, что релевантность типа "phrase" в реальности не наблюдается, она всегла strict…

    Самое забавное, что это свойство не Яндекс.XML, а поломавшихся уже больше двух недель как "нестрогих соответствий".

    -поподробней, плиз… 🙂 "нестрогие" должны быть типа all, судя по описанию. Не я же фразу из хелпа придумал:

    фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»)

  3. passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.

    Опаньки! Так вот где оно. Возвращусь, с вашего позволения, к вопросу о пассажах из параллельного топика, их запросозависимости или независимости. А я то думал, где в Яндексе я видел мысль о том, что пассаж, как правило, совпадает с предложением. Всё найти не мог. Так вот оно где было. Или, Жень, это не тот пассаж? 😉

  4. поподробней, плиз… 🙂 "нестрогие" должны быть типа all, судя по описанию. Не я же фразу из хелпа придумал:

    Ага, они и были all где надо примерно до конца февраля, а потом поломались – как в Я.XML, так и в большом Яндексе. С тех пор в Я.XML всегда strict и phrase, а в большом Яндексе нет пометок "нестрогое соответствие". Саппорт Яндекса в курсе.

  5. wolf, вот они откуда ноги растут, ты почти дословно процитировал 🙂

    Угу. А ты думал, что я сам это придумал? 🙂

Комментарии запрещены.