во-первых, посоветуйте, что мне делать с напарсенной базой хмл – распродажу устроить? )
во-вторых, вот что.
яндекс все-таки уныл. уныние и ужос нах. вот
на серче пост
По запросу стоимость окон московская выдача. Выходит вот это:
http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213
Посмотрите 7ую позицию )
…смотрим 7ю позицию:
Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость…
Закрыть окно.
www.vodohod.com/pages/image.php
Да! окно! и стоимость!
…нет, я бы мог снова разораться про релевантность all, но не буду пока 🙂
…гагага.
недавно Aik показывал аналогичный пример – где по запросу “аренда дизельгенераторов” нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню – кажется, в продажные ссылки вкрались )))
Таких примеров много.
Яндексоиды… в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах – приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet
Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.
***
На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов
да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на “узкий класс запросов”. Ну ищите тогда добровольцев, чо.
Которые любят бессмысленную активность.
********
Ладно, это их проблемы.
Тут еще один вопрос назрел – а вот если рассмотреть вид функций “слабых обучателей” и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.
Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень “точечные” функции.
А они, похоже, не придают значения этому – ну, считают, что любой вид функций этих слабых обучателей – одинаково рулит.
Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности – получится хуйня.
Тут отдельная тема – проверка самих себя. У них там никто не заморачивается оценкой – насколько ранжирование хорошее с точки зрения соответствия “предсказанных” моделью оценок и реальных асессорских оценок.
Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол “по примеру, по нашему образу и подобию провели”, хотя они (яндекс) реально-то никому на хуй не всрались).
И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.
И написали они презентацию, в которой написали, что “эксперты ошибаются”. 🙂
с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.
И iseg согласен, что все хорошо: “YetiRank shows that modeling uncertainty in judgments can improve model effectiveness”
Я как увидел – сразу возникла мысль, что плохому танцору яйца мешают.
Относительно чего ошибаются? Относительно их модели?
Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.
Блин, если эксперты ошибаются – меняйте экспертов, ни или там езжайте в гоа )
Просто модель очень точечная.
Предположим, я бы сделал модель, в которой вот эти самые “слабые обучатели” были… ну почти как функция дирихле ) Либо ноль, либо единица.
Удалось бы построить качественный матрикснет на таких “слабых обучателях”? Не верю в такое.
Но я-то ладно, я могу верить или нет, им это пох.
Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.
Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить – что эксперты ошибаются (эта фраза от них вообще радует – и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).
Ну и самое главное, конечно – не пытаться проверить качество модели.
И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.
И вы там это: наймите штат собиральщиков ошибок.
**
упарился писать.