яндекс-спектр: наблюдения

официальный http://company.yandex.ru/news/press_releases/2010/1215/index.xml
в блоге http://clubs.ya.ru/company/replies.xml?item_no=32028

Общие мысли:
1. в метрике pfound не заложено никакого “разнообразия” для оценки качества выдачи. т.е. то, что она разнообразная, эту метрику не повысит.
Следовательно, есть другая метрика, по которой меряется качество. Логично, что в яндексе есть несколько групп людей, каждая из которых продвигает в мозг начальства свою метрику. Для того, чтобы выглядеть длиннее, нужно выбрать удобных попугаев.
Видимо, происходит отказ от метрики pfound, пока что в виде навешивания сверху рюшечек (разнообразия).

Частные:
1. по набору однословников (а там каждый достоин своего спектра) навскидку около 20-30% “оспектрены”, остальная масса – нет. Т.е., еще грядут большие перемены.
2. отдельные потребности в спектре не пересекаются, но иногда явно разные потребности слеплены в одну. Например, в ноутбуках продажа и б.у. – не пересекаются, а в автомобилях – все свалено в одну кучу (б.у., продажа, отзывы, фото, характеристики, т.д.) Обидно оптимизировать – их разделят ведь потом, а выдачу надо сейчас 🙂
3. есть несколько разных видов расширения запроса – олдовые переформулировки, которые можно вычислить исключением слов, и спектровые, которые исчезают при малом изменении запроса.
4. спектр подсвечивает только в топ10 и нумдоком не обманывается. Подсвечивает в топ10, но работает и глубже.
5. надыбал десяток оспектренных запросов, по которым мониторю выдачу – потом посмотрю, не спектр ли начал выкатываться 20-го ноября. Наверное, он, вряд ли тут две сущности ))
6. есть ли спрос на пробивку и поставку в народ разбиения спектровых тематик? 🙂
7. встречаются явно дурацкие спекторвые слова – типа: “википедия”, “что такое”. Да, явно берется не из текстов, а из запросов.

продвижение сайтов – это:

(продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^ продвигаться::199208) &&/(-32768 32768) сайтов::410

Щито это? ))

В том числе и про это буду рассказывать на конференции нетпромоутера.

обнинск по России

завтра посмотрим, чо там с изменениями выдачи 🙂
«Обнинск» — новое ранжирование для гео-независимых запросов в России
1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.
2. "формула разрослась в два раза со 120 мб до 280 мб" – сперва я подумал, что не обошлось введением еще одного параметра типа "доля сеошных ссылок". Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.
Ну плюс там какой-нть параметр типа доли сеошных ссылок 🙂

Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

snippets – sitelinks в Я.ХМЛ

а между тем не только отменили релевантность в тестовом ХМЛ, но и перетащили кусочки в обычный, новый тег, перетащенный из тестового

<snippets>
<sitelinks>
<link name=”Контакты” url=”http://www.oknakomforta.ru/contacts/central-office/”>
<link name=”Расчет стоимости окна пвх” url=”http://www.oknakomforta.ru/service/calculation/”>
<link name=”Продукция” url=”http://www.oknakomforta.ru/production/”>
</sitelinks>
</snippets>

сделаю я пожалуй сервис по тестовому хмл )

Посчитал – всего пробита инфа по 42 тыс запросов и в результатах выдач встречается почти 2 млн. хостов, это примерно 1/5 яндекса по хостам.

Каждый сможет найти свой сайтег и позырить в цифру релевантности 🙂

Какие нужны фичи? поиск по каким параметрам?
Данных блин много, сорцы в архивах весят в сумме примерно 20ГБ.

ыыы, обманулово какое-то

сделали мне оценку бюджетов по примерно 2000 запросов, которые я взял с цифрами релевантности из 40 тыс. топовых.

бюджеты, конкурентность разные – от 100 рублей до 80 тыр.

корреляции ссылочного бюджета с цифиркой релевантности НЕТ НИКАКОЙ (если вычистить витальные и другие приоритетные результаты) и если не вычищать – даже наоборот: при большей взвешенной релевантности (где витальники есть и другие приоритетные) ссылочное бабло меньше. Ну, тоже логично – по витальникам продвигаться никому не надо.

Так что все с точностью до наоборот. 🙂
Я-то думал, что покуда принцип "берибольше-кидайдальше" работает, некая корреляция должна быть.
А ее нету (

***
Останется только изучать точечные случаи.
Точечные случаи –
* 4хх в реальности не витальный. И когда несколько витальных. (не знаю, есть ли такие)
* 2хх смотреть, чочо с ними. 3хх бесполезно, там по названию домена выдается. Повезло, кстати, сайту macbook.pro – за просто так в топе 🙂
* 2хх часто выдаются толпами – вся выдача забита 2хх. Смотреть за классификацию запросов.
* 0.1 убитые результаты смотреть, чо с ними
* смотреть случаи, когда релевантность группы (сгруппированного по домену) не равна релевантности первого результата (такие есть!)
* смотреть случаи полностью эквивалентных релевантностей (такие тоже есть, и для 2-3 страниц внутри группы одного домена, и между группами доменов – таких эквивалентных даже еще больше) Эквивалентность – наше всё.

уныло у них там в матрикснетах

во-первых, посоветуйте, что мне делать с напарсенной базой хмл – распродажу устроить? )

во-вторых, вот что.
яндекс все-таки уныл. уныние и ужос нах. вот
на серче пост

По запросу стоимость окон московская выдача. Выходит вот это:
http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213
Посмотрите 7ую позицию )

…смотрим 7ю позицию:

Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость
Закрыть окно.
www.vodohod.com/pages/image.php

Да! окно! и стоимость!
…нет, я бы мог снова разораться про релевантность all, но не буду пока 🙂

…гагага.
недавно Aik показывал аналогичный пример – где по запросу “аренда дизельгенераторов” нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню – кажется, в продажные ссылки вкрались )))

Таких примеров много.

Яндексоиды… в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах – приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.
***
На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов

да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на “узкий класс запросов”. Ну ищите тогда добровольцев, чо.

Которые любят бессмысленную активность.

********

Ладно, это их проблемы.
Тут еще один вопрос назрел – а вот если рассмотреть вид функций “слабых обучателей” и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.

Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень “точечные” функции.

А они, похоже, не придают значения этому – ну, считают, что любой вид функций этих слабых обучателей – одинаково рулит.
Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности – получится хуйня.

Тут отдельная тема – проверка самих себя. У них там никто не заморачивается оценкой – насколько ранжирование хорошее с точки зрения соответствия “предсказанных” моделью оценок и реальных асессорских оценок.

Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол “по примеру, по нашему образу и подобию провели”, хотя они (яндекс) реально-то никому на хуй не всрались).

И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.
И написали они презентацию, в которой написали, что “эксперты ошибаются”. 🙂
с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.

И iseg согласен, что все хорошо: “YetiRank shows that modeling uncertainty in judgments can improve model effectiveness”

Я как увидел – сразу возникла мысль, что плохому танцору яйца мешают.
Относительно чего ошибаются? Относительно их модели?

Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.
Блин, если эксперты ошибаются – меняйте экспертов, ни или там езжайте в гоа )

Просто модель очень точечная.
Предположим, я бы сделал модель, в которой вот эти самые “слабые обучатели” были… ну почти как функция дирихле ) Либо ноль, либо единица.

Удалось бы построить качественный матрикснет на таких “слабых обучателях”? Не верю в такое.
Но я-то ладно, я могу верить или нет, им это пох.
Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.

Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить – что эксперты ошибаются (эта фраза от них вообще радует – и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).

Ну и самое главное, конечно – не пытаться проверить качество модели.

И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.

И вы там это: наймите штат собиральщиков ошибок.

**
упарился писать.

сеошники – дебилы

чел кается, это он спалил… блин http://forum.searchengines.ru/showthread.php?t=523795 (дайте ему минус в репу, что ли. я уже 🙂 )
Короче, некоторое время назад в тестовом режиме ХМЛ http://xml.yandex.ru/test_query.xml появлялись интересные параметры:
1. релевантность показывалась цифрой. внутри тега relevance была цифра от 100 млн до 400+ млн (для витальных результатов). Но и меньше 100 млн были результаты – 10+ млн (по запросам типа порнухи, скачать, фильмы и вся такая тема). Я еще не разбирал результаты, это навскидку.
2. были теги geo и geoa с айди региона
3. был тег clon с айдишником, общим для всех клонов – аффилиаты
4. был тег FactorDocLen в интервале 0-1, это была целочисленная дробь вида N/255, зависела от длины (числа слов? пока не смотрел) документа.

***
ну и вообще – там многое изменилось, показывает теперь sitelinks, всякие источники описания сайта (дмоз, як), всякие темы наподобие блогов
***
уроды!
это ж цифры нам дали посмотреть, блять!
***
я сам-то скачал выдачу по топ1000 примерно 18 тыс сеорейтовских коммерческих запросов и по 26 тыс самых частотных рунетовских запросов – с цифирками, конечно.

Вот!!!

язык до Хунгари доведет

оператор lang="язык" позволяет искать по страницам с присвоенным языком. Я на этом как раз сделал различия в определялке апдейтов буржуйского и русского индекса.
Когда-то языков было шесть, и я думал, что так оно и останется:

Отбирает для поиска страницы, написанные на определенном языке:
* русском (ru)
* украинском (uk)
* белорусском (be)
* английском (en)
* французском (fr)
* немецком (de)

(цитата из копии старой страницы с языком запросов, к слову сказать: новая страница с "памяткой" по языку запросов – УГ, там нет примеров языков и примеров mime документов, а может, и еще чего-то нет).

Но таки их, языков, уже не шесть, а тридцать один. Или больше. Напротив каждого языка стоит число документов, взятое из парсинга первой тыщи результатов по 40 тыс. запросов:

ru 84613923
en 1436073
uk 101924
nl 85928
tr 42446
de 33869
it 21366
es 17899
fr 15524
be 13733
cs 9794
bg 8228
ro 7021
pl 7019
pt 4394
ca 3721
hu 3299
kk 3028
tt 2157
ka 1498
lt 1045
fi 765
lv 645
az 502
et 294
hy 148
ar 132
he 94
sr 89
ba 53
el 43

Запросы пробивались в основном русские – 20 тыс самых популярных по частотности и 18 тыс. отпарсенных из ашмановского сеорейта, тоже ничего себе популярные и в основном коммерческие.

Но тем не менее – английского языка мало, 1.7%, а в сумме число документов с нерусским языком – 2.1%. Это документы, которые встречались в выдаче при пробивке.

Конечно, если искать оператором lang="", будут другие числа, больше. Это может означать, что нерусские документы в русской выдаче давятся, что, конечно, логично.

Таки языков много. А нам и не сообщили.

буки готовятся

на серчах заметили открытие буки, и что там вылезают какие-то библиотеки, но яндексоиды поскакали и прикрыли.

Бета-версия поиска закрыта
Спасибо за тестирование. Мы постарались проанализировать все ваши отзывы и учтем их в следующих версиях.

Небось скоро покажут.
Как это за уши тягать – "показать Москву". Тут небось покажут Мадрид, или его уже показали, только никто не заметил? 🙂

ЗЫ Предсказываю, что "библиотечность" сайта будет являться одним из факторов в ранжировании.
Или не так: библиотечность, – это же типа некоммерческость. Как раз та самая мадридская тема с коммерческими и некоммерческими ссылками.
Только тут – не классификация ссылок, а классификация сайтов. Ну посмотрим.