Яндекс: число слов в ссылке

Денис Иванов публикует результаты своего эксперимента – из текста ссылки учитываются первые 16 слов.
На экспериментальной странице ссылка на яндекс со словами от word001 до word100, яндекс находится по ссылке по запросу word016, но не находится по word017.

Получается, в ссылке учитывается 16 слов, кстати – похоже на тайтл – в нем, кажется, 15 слов 🙂
А что яндекс.хмл дает 32 слова – да и хрен с ним.

Внутренности Яндекс-XML

Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются…
Из http://help.yandex.ru/xml/?id=362990 – описание ответа яндекса:

<relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).

<title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.

<passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.

<passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.

<_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется “текст ссылок: …”. В XML тип содержимого пассажа обозначается так: 0 – обычный пассаж, 1 – пассаж содержит текст ссылок.

В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о “фразовой” релевантности, похожие же принципы заложены в нынешний поиск…
В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> 🙂
Самое забавное – то, что релевантность типа “phrase” в реальности не наблюдается, она всегла strict… А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) …
Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page=”50″).
Видим, что в поле title> выделение слов либо “strict” (когда ПЕРВОЕ ВКЛЮЧЕНИЕ “пластиковые” есть ДО “окон”), либо “phrase” (когда порядок слов в тайтле совпадает с порядком слов в запросе).
А промежуточных вариантов мало – в конце первой 50 есть сайты dreamokna.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">Окна/hlword> Мечты - установка
<hlword priority="strict">пластиковых/hlword>
<hlword priority="strict">окон/hlword> veka kbe rehau, монтаж
<hlword priority="phrase">окон/hlword>
,
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх
</title> 

и и oknaprofi.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">окна/hlword> пвх в Москве - цены, остекление балконов лоджий, производство деревянных
<hlword priority="phrase">окон/hlword>
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> пвх, остекление балконов лоджий, пластиковые окна москва
</title> 

-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов… Причем явно есть ограничение на число “запросных” слов в пассаже… У второго сайта слова “окона” в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла… Причем середина тайтла со “стриктом” заменяется многоточием, а тип релевантности “фрейз” всегда выводится, хоть и стоит в конце…
Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю “включенных в пассаж”). И тип пассажа по нему же определяется.
Кстати, в теге headline>, который соответствует метаданным, пассажи всегда “стрикт”.
***
Еще одна прикольная вещь. В той же самой выдаче по “окна пластиковые” сайты есть с параметром <categ>:
[code:1:75b4b73ae2]<categ> Описание найденной группы…. name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям; [/code:1:75b4b73ae2]
-прикольно то, что оно иногда пишет “не тот” сайт в “группировке по сайтам”, причем изредка сайты одного владельца попадают:

<categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>
<categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>
<categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>
<categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>
<categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>
<categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>
<categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>
<categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>
<categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>

-интересно, глюк это или так и задумано…

PS В общем, надо копать…

Яндекс: разное

1. Это, кажется, было давно, но: Яндес объявил гранты “интернет-математика-2007” http://company.yandex.ru/grant/
Основные интересы яндекса – сообщества по ссылкам, поведение людей, тематическая классификация запросов, новые меры ссылочной цитируемости (трастранк?), жанры текста и мн.др

2. MyStem Сегаловича выложен в открытый доступ http://company.yandex.ru/technology/products/mystem/mystem.xml (это, в принципе, и раньше было, но сейчас есть примеры работы), я даже удивился – неужели там полнотектсовая морфология зашита? А ведь не должна. Но судя по примерам, части речи оно определяет… пойду скачивать и втыкать.

Прайс на Яндекс-XML поменяли

Прайс на Яндекс-XML сменили – увеличили бесплатное ежедневное число запросов до 1000.
А с оптовой частью прайса поступили интересно – “более 500 тысяч” раньше стоил $2/1000, а теперь 100 рублей (3-4 бака).
Но зато

Если вы планируете использовать Яндекс.XML в целях получения данных для различных аналитических систем, стоимость запросов уменьшается в 4 раза. При этом сервис предоставляется только в течении части суток, с 0 часов до 12.00 и с 18.00 до 24.00 по московскому времени. Это предложение может быть интересно для оптимизаторов и разработчиков программ класса data mining.

А не скачать ли нам базу ссылок рунета?

Я, в порядке яндекс-гранта, игрался с базой ссылок между хостами яндекса. Чувствую – этого мало… Хочется знать с каких внутренних страниц поставлены ссылки… Можно поточнее приблизить русский PageRank. Кроме того, частенько по сниппетам понятен текст ссылки.

Короче, есть предложение. Скинуться деньгами и скачать по 500 тыс. хостов ссылающиеся на них страницы, и по новым найденным хостам – тоже. Информацию поделить.

На февраль этого года было около 500 тыс. проиндексированных Яндексом хостов. Из них с половины примерно хостов были внешние ссылки на проиндексированные Я. сайты.

Тарифы на яндекс-хмл: http://help.yandex.ru/xml/?id=396583
более 500 тысяч – $2 за тысячу.

По моей оценке, за 7 месяцев число проиндексированных хостов могло подрасти примерно на 200 тыс. максимум. Если исходить из расчета 700 тыс. хостов = 700 тыс. запросов к ссылающимся = $1400 в деньгах.

При этом у 50% хостов ссылающихся не будет, у 90% хостов число ссылающихся в пределах 10. Остальное надо копать вглубь, но в массе это сильно не увеличит число требуемых денег.

Инфу в сыром виде либо обработанном раздать всем участникам гешефта. Если десяток человек наберется – по $140 с каждого получится.
В качестве стартовой базы можно использовать Яндекс-каталог.
Кому интересно, отмечаемся на searchengines.

domain: “новый” оператор Яндекса?

Я довольно давно увидел, что при поиске по Яндекс-каталогу урла система автоматически превращает его в url=”домен.ru*”. Что-то мне чудится, что там и оператор domain=”” мелькал…
Итак, в общем поиске работает оператор domain=”string”, который показывает все сайты с этой подстрокой в имени домена (и третьего, и второго, и первого, и нулевого! уровня). Работает на точное соотвествие одной из частей доменного имени, без чисел.
Также работает звездочка:
domain=”search*” – по любым совпадениям.
Работает и domain=”ru”, и domain=”root”. 🙂
Как нашел: смотрел reqtext на странице поиска строки “XML-вид каталога Яндекса” по сайту blog.promosite.ru. А reqtext такой:
((“XML::45433 вид::2105 каталога::1451 Яндекса::76938”)//6 <<(domain="promosite"::39515:0 &/(1 1) domain="ru"::39515:0 &/(1 1) domain="root"::39515:0):0) Еще и какие-то цифры через двоеточие два раза вместо одного...

Xml.Yaca прикрыли…

http://xml.yaca.yandex.ru/yca/cat/ – прикрыли XML-вид каталога Яндекса… А зачем было его делать тогда, спрашивается? 🙂
Хотя я скачать когда-то часть успел, но нелогично… Все равно будем качать, только с оформлением вместе… 🙂