машинное обучение – Евгений Трофименко: SEO и не только

Сбербанк пришел на конкурсы Kaggle

https://www.kaggle.com/c/sberbank-russian-housing-market

Competition Launch: Can you predict realty prices in Russia’s volatile economy?

Yesterday we launched the Sberbank Russian Housing Market competition. In this challenge, Sberbank is turning to the Kaggle community for help in predicting realty prices. Even though Russia’s housing market is stable, property prices fluctuate in the country’s unstable economy.

+ тексты лекций К.Воронцова по ML

там же в ШАД проскакивал и сайт machinelearning.ru и вся программа Воронцова про ML с pdf-текстами, правда, часто презентация есть, а текста лекций нет.

Видеолекции Школы анализа данных будут выкаладываться

Школа анализа данных Яндекса начнет выкладывать видеолекции в открытый доступ.

Сейчас выложены две лекции Воронцова с презентациями по курсу "машинное обучение".

Матрикснет в Рекламной сети Яндекса – в каком периоде?

Матрикснет в Рекламной сети Яндекса

В августе Яндекс начал использовать систему машинного обучения Матрикснет для показа объявлений на тематических площадках рекламной сети, где реклама показывается пользователю в соответствии с его интересами и содержанием веб-страницы.

Новая формула отбора учитывает большее число факторов, в том числе особенности поведения пользователя в сети, что позволило отбирать для показа пользователям более интересные им рекламные объявления. В результате система точнее прогнозирует вероятность клика по объявлению — в течение первой недели после внедрения Матрикснета кликабельность объявлений выросла в среднем на 22%.

С внедрением новой формулы на сайтах рекламной сети средняя цена за клик понизилась на 12%, то есть размещать рекламу в РСЯ стало выгоднее. При этом выиграли и владельцы площадок — за счет увеличения количества кликов их доход в среднем по сети вырос на 10%.

Машинное обучение позволит и дальше совершенствовать формулу, добавляя в нее новые факторы. Таким образом можно будет ещё точнее определять, какая реклама нужна пользователю в данный момент.

-интересно, что именно является параметром, который оптимизируется. "Счастье пользователя (=бабло в долгосрочном периоде)" или "Счастье Яндекса / Директа (=бабло в краткосрочном периоде)"?

Рейкьявик – начинают персонализацию поиска, получается

Рейкьявик — новая поисковая платформа Яндекса
Ну так-то понятно, что по каждому пользователю возникает еще один параметр – "англоязычные ли сайты он ищет".
Т.е. если использовать наработанные методики с обучением, то уже на вход обучалке надо подавать не набор пар (запрос – результат), а набор троек (запрос – фактор языковых предпочтений – результат).
Я так понимаю, что это было бы слишком сильным изменением, если бы было так. Вряд ли это так.
Значит, просто формула делится на две половинки – одна для русскоязычных языковых предпочтений, другая – для западных. Интересно, откуда данные будут брать – это же нативных людей с запада брать нужно.
Ну, очевидно, что асессорских данных меньше и в формуле с англопредпочтениями будет адский адъ.
ЗЫ Кстати, странная должность Расковалова – что это еще за "отдел разработки качества поиска"? разрабатывают качество?

Интернет, 17 августа 2011 года. Яндекс запустил новую поисковую платформу — «Рейкьявик». Она учитывает языковые предпочтения пользователя. Теперь люди, которые чаще ищут англоязычные ресурсы, будут видеть в результатах поиска больше ссылок на них, и наоборот. Это первый шаг Яндекса в направлении персонализации поиска.

«По статистике Яндекса, большинство пользователей предпочитают ответы на родном языке. Но есть и те, кто ищет именно англоязычные ответы, — говорит Денис Расковалов, руководитель отдела разработки качества поиска. — Мы много экспериментировали, пытаясь найти наилучший способ удовлетворить потребности и тех, и других. В результате мы решили научить поиск учитывать языковые предпочтения пользователей и подстраиваться под них».

«Рейкьявик» обращает внимание только на запросы на английском языке. Он отфильтровывает латинскую транслитерацию русскоязычных запросов, адреса сайтов, ошибки раскладки клавиатуры и т.д. При этом сам англоязычный вопрос не всегда означает поиск такого же ответа, например, по запросам [beatles”> или [rothko”> человек может искать и русские сайты. «Рейкьявик» учитывает, часто ли пользователь открывает из результатов поиска веб-страницы на английском.

Информация о том, нужны ли пользователю англоязычные ресурсы, используется при ранжировании. И если нужны, человек видит среди первых результатов поиска больше ссылок на них. По данным «Рейкьявика», ответы на английском языке предпочитают около 8% пользователей Яндекса.

Матрикснет – pointwise, СПЕКТР – (list,pair)wise подходы?

Неожиданно получил возражения: что типа Спектр может основываться и на pfound-е.

Хрен с ними, с изменениями формул и возможностями, что что-то случайно размечено одинаково. Нет, Спектр должен быть основан на принципиально другом подходе к оценке качества выдачи. Судя по релизам.

Я слушал много разных записей про Матрикснет, и из них, и из услышанного на search-conf мне помнится следующее.

Есть типа три подхода к оценке качества выдачи – pointwise, pairwise и listwise.
pointwise, точечный – это когда каждый результат в выдаче просто имеет свою релевантность относительно запроса и она как-то взвешенно суммируется, и сумма = качество выдачи.
pairwise – это когда релевантность приписана упорядоченной паре результатов, дальше взвешиваем по всем парам.
listwise – это когда весь набор результатов в выдаче оценивается совокупно – хороший набор или плохой?

Мне помнится (общее впечатление), что яндексоиды вообще и Андрей Гулин в частности говорили, что мол, у них в Матрикснете листвайз подход.

Я и тогда в это не верил и не верю сейчас, по простым причинам –
1. Исходные данные – пойнтвайз. Оценки асессоров, на которых идет обучение – точечные и никак не завязаны ни на пары, ни на весь список.
2. Формула расчета релевантности щетает релевантность для отдельного документа = тоже пойтвайз.
Итого – матрикснет – пойнтвайз подход.

А со СПЕКТРом должно быть несколько другое. Если он должен учитывать разнообразие выдачи, то суммой по точкам оценивать ее качество нельзя. Это должен быть либо пресловутый листвайз, либо по парам. Типа для начала, для попробовать.

Другое дело, что если исходные данные – пойнтвайз, то ничего не получится. А систему оценок асессоров, насколько я понимаю, так просто не изменишь, раз, и оценки надо накапливать приличное время (ну хоть полгода) – два.

Но общая идея такова, что спектр должен быть или листвайз, или, на худой конец, пэйрвайз (кстати, результаты с разными поисковыми потребностями иногда чередуются, что наводит на мысль о пэйрвайз).

Не знаю уж, что за метрики и что за формулы используются, но качество выдачи тут должно зависеть не только от отдельных результатов, но от набора результатов.

Что, конечно, не вписывается в озвученную раньше метрику качества выдачи – pfound, хоть как ее не меняй.

ЗЫ с другой стороны, т.к. исходных данных, кроме пойнтвайз, нету – значит, используются какие-то костыли в виде поиска набора слов по сайту и использования этого при переранжировании.

уныло у них там в матрикснетах

во-первых, посоветуйте, что мне делать с напарсенной базой хмл – распродажу устроить? )

во-вторых, вот что.
яндекс все-таки уныл. уныние и ужос нах. вот
на серче пост

По запросу стоимость окон московская выдача. Выходит вот это:
http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213
Посмотрите 7ую позицию )

…смотрим 7ю позицию:

Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость…
Закрыть окно.
www.vodohod.com/pages/image.php

Да! окно! и стоимость!
…нет, я бы мог снова разораться про релевантность all, но не буду пока 🙂

…гагага.
недавно Aik показывал аналогичный пример – где по запросу “аренда дизельгенераторов” нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню – кажется, в продажные ссылки вкрались )))

Таких примеров много.

Яндексоиды… в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах – приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.
***
На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов

да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на “узкий класс запросов”. Ну ищите тогда добровольцев, чо.

Которые любят бессмысленную активность.

********

Ладно, это их проблемы.
Тут еще один вопрос назрел – а вот если рассмотреть вид функций “слабых обучателей” и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.

Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень “точечные” функции.

А они, похоже, не придают значения этому – ну, считают, что любой вид функций этих слабых обучателей – одинаково рулит.
Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности – получится хуйня.

Тут отдельная тема – проверка самих себя. У них там никто не заморачивается оценкой – насколько ранжирование хорошее с точки зрения соответствия “предсказанных” моделью оценок и реальных асессорских оценок.

Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол “по примеру, по нашему образу и подобию провели”, хотя они (яндекс) реально-то никому на хуй не всрались).

И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.
И написали они презентацию, в которой написали, что “эксперты ошибаются”. 🙂
с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.

И iseg согласен, что все хорошо: “YetiRank shows that modeling uncertainty in judgments can improve model effectiveness”

Я как увидел – сразу возникла мысль, что плохому танцору яйца мешают.
Относительно чего ошибаются? Относительно их модели?

Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.
Блин, если эксперты ошибаются – меняйте экспертов, ни или там езжайте в гоа )

Просто модель очень точечная.
Предположим, я бы сделал модель, в которой вот эти самые “слабые обучатели” были… ну почти как функция дирихле ) Либо ноль, либо единица.

Удалось бы построить качественный матрикснет на таких “слабых обучателях”? Не верю в такое.
Но я-то ладно, я могу верить или нет, им это пох.
Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.

Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить – что эксперты ошибаются (эта фраза от них вообще радует – и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).

Ну и самое главное, конечно – не пытаться проверить качество модели.

И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.

И вы там это: наймите штат собиральщиков ошибок.

**
упарился писать.

турецкие асессоры

вакансии асессоров в Яндексе: http://spb.hh.ru/vacancy/2515886

знание английского, казахского (или татарского) языка (владение турецким языком является плюсом);

-чо, казахское и татарское ранжирования надвигаются? И турецкое еще.
белорусское сделали, вот теперь казахское будут ))
Матрикснет, как там: способен узкие темы обрабатывать.

мне, кстати, кто-то на конференциях жаловался про татарский интернет, что-то там с морфологией какие-то сложняки были.

10 тыс оценок асессоров

по мотивам отчота про визит Яндекса в Беларусь, в частности:

• На yandex.by будет стоять специально модифицированный вариант поискового алгоритма;
• Для поиска на yandex.by было собрано порядка 10 000 оценок асессоров;

Непонятно:
1. в чем модифицированность, вроде как тот же Матрикснет выкатить проще?
2. Десять тысяч оценок асессоров! Маловато будет!!! 🙂 скажем, на ашмановском семинаре Гулин говорил про 2 млн. оценок за два года, Садовский на конфе раньше говорил про 1 млн. оценок по не-помню-скольки запросам, но получалось по 100 оцененных результатов на запрос.

Если так же считать, для Беларуси оценили 100 запросов 🙂
Может, для того и модифицирован алгоритм, чтобы меньше статистики жрал? Скажем, факторов меньше использовать?

Вот интересно. В 100-200 раз меньше оценок, а интересов у юзера примерно столько же. Ну, допустим, чисто белорусские геозависимые запросы оценивали. Но не в сто раз меньше! Это ж коммерческие запросы, типа окон.

Ладно, будем искать разное интересное на yandex.by для сравнения и искать отжиги. Я только не понял, уже вроде как yandex.by уже тот самый, особенный, или только собираются выкатить.

И вот – даже по геонезависимым запросам бу-выдача тоже отличается от рушной.

___
PS А тут свежее пишут с яндекс-студня – что 4 млн документов и 100 тыс запросов оценено.

а у Яху 500-600 поисковых факторов

а у Яху 500-600 поисковых факторов, по сравнению с яндексовыми ~250:
http://learningtorankchallenge.yahoo.com/datasets.php

# features 519 596

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30