Андрей Плахов / 16 октября, Политехнический музей

http://il.rsuh.ru/section.html?id=9800#plakhov

16 октября, 19:00
Андрей Плахов
Cистемы поиска в интернете: как обрабатывается запрос пользователя

Современный интернет непредставим без поисковых систем (таких, как Яндекс, Google или Bing). За 20 с лишним лет их существования ожидания пользователей сильно возросли, и современный интернет-поиск требует гораздо более глубокого понимания естественных языков, нежели простой «поиск по ключевым словам». От поисковика требуется знание синонимов, устойчивых оборотов и онтологических рядов, умение понять запрос на одном естественном языке, но результаты найти на другом, и даже умение восстанавливать и учитывать желания пользователя, не указанные им в запросе явно.

А. Плахов – руководитель группы функциональности поиска компании Яндекс. Закончил с отличием механико-математический факультет МГУ, защитил кандидатскую диссертацию по 05.13.11 (программирование, точнее – алгоритмы управления роботами) в Институте прикладной математики им. Келдыша РАН. Несколько лет работает в Яндексе над повышением качества веб-поиска, автор поискового релиза «Спектр». Внерабочие интересы: теория алгоритмической сложности, квантовые вычисления, генеративная лингвистика, системная биология, рисование слонов шариковой ручкой.

19:00 в Лектории Политехнического музея (Политехнический музей, Новая Площадь 3/4, 9-й подъезд, ст.м. «Лубянка», «Китай-город»). Стоимость билета – 200 р. (полный)/100 р. (льготный).

+ тексты лекций К.Воронцова по ML

там же в ШАД проскакивал и сайт machinelearning.ru и вся программа Воронцова про ML с pdf-текстами, правда, часто презентация есть, а текста лекций нет.

Видеолекции Школы анализа данных будут выкаладываться

Школа анализа данных Яндекса начнет выкладывать видеолекции в открытый доступ.

Сейчас выложены две лекции Воронцова с презентациями по курсу "машинное обучение".

лекции Расковалова в Екатеринбурге

http://habrahabr.ru/blogs/study/128882/ и http://compsciclub.ru/courses/informationretrieval

С 30 сентября по 2 октября 2011 года в Computer Science клубе в Екатеринбурге Ден Расковалов (Яндекс), один из ведущих российских специалистов по поисковым системам и вопросам качества поиска, прочтёт бесплатный курс лекций «Информационный поиск изнутри».
***
На сайте http://uralcsclub.onwebinar.ru/ будет организована живая интернет трансляция.

1. Архитектура поискового кластера (30.09.2011 – 18:00 – 19:20)
2. Архитектура поискового кластера (30.09.2011 – 19:30 – 20:50)
3. Современные методы улучшения релевантности информационного поиска (01.10.2011 – 18:00 – 19:20)
4. Современные методы улучшения релевантности информационного поиска (01.10.2011 – 19:30 – 20:50)
5. Современные методы увеличения производительности информационного поиска (02.10.2011 – 18:00 – 19:20)
6. Современные методы увеличения производительности информационного поиска (02.10.2011 – 19:30 – 20:50)

Посоветуйте мануалы про модели просмотра веб-страницы юзером

Есть ли что-то по возможным моделям просмотра страниц пользователем? Куда он смотрит, в каком порядке просматривает части страницы, как принимает решение о дальнейших действиях?

Посоветуйте мануалы по байес-фильтрам

?
Что-нибудь коротенькое, простенькое и понятное.
Собственно, интересует не фильтрация спама, а работа с вероятностями, условными вероятностями и т.п. в плане классификации.

[closed] Куплю инструкцию для асессоров Яндекса

{написанное ниже – ТЕПЕРЬ НЕАКТУАЛЬНО, ПРЕДЛОЖЕНИЕ ЗАКРЫТО!}
Если вы работаете в теме "обеспечения качества поиска" в Яндексе, оцениваете соответствие сайтов запросам (т.н. асессор), то в качестве обучения вам должны были присылать инструкцию, в которой говорится, какие сайты являются хорошими, как их оценивать и по каким критериям.

Вот эту-то инструкцию я и хочу получить. Оплата – от 1000 WMZ, цена может быть повышена по соглашению. Конфиденциальность гарантирую, пишите на [email protected] или [email protected]

Партнерка: если вы перепубликуете у себя это или ссылку на это, и продавец инструкции укажет вас как источник информации, то 2 уровня источников (блоггеров) выше продавца получат по 150 WMZ в случае успешной продажи.

Хочу купить лично я, информацию передавать никому не собираюсь.
Я знаю, что примерно должно быть в инструкции, будьте готовы прислать ТТХ (число картинок, знаков и т.п.) или маленькие кусочки инструкции, цитаты. Я буду проверять.

Теперь разговор за мораль.
Я хочу уметь делать качественные сайты. А в инструкции написано, какие сайты качественные, а какие-нет. Так что реального секрета здесь быть не может, по крайненй мере, вреда в этом нет.

А сайты будут в интернете гораздо качественнее 🙂

PS Если считаете, что мало денег, я могу с кем-нть скинуться и купить вскладчину. Все возможно.

XSS (или не xss?) уязвимости

Навеяно этой темой форума searchengines.ru (и еще одной, где о знакомых упоминается :)).
Не знаю уж, называется ли это xss-уязвимостью, или не называется, но. Приведен пример, в котором в поиске спец. строки она вставляется в тайтл, а если туда засунуть теги (закрывающий тег тайтл, например, и хеад, и дальше ссылку), то будет ссылка с выдуманной страницы. Иногда запрос вставляется просто в текст страницы. Если есть проверка на <и> – то можно использовать UTF-7 (но не всегда: когда вставка идет в тайтл и указание кодировки идет далеко) В общем, люди вставили через поиск свои ссылки, которые качают клиентов.

Ту тему почистили, примеры:

1. Ищем в Яндексе $title(+a href http) и идем на 5-6 страницу. Видим кучу страниц, в урлах которых хтмл-код, типа http://www.cci.ru/showall.asp?t_id=1&query=%22%3E%3Ca+href%3Dhttp%3A%2F%2Finterfaks%2Ekiev%2Eua%2F%3E%E0%F0%E5%ED%E4%E0+%EA%EE%F2%F2%E5%E4%E6%E0+%ED%E0+%ED%EE%E2%FB%E9+%E3%EE%E4%3C%2Fa%3E%3Ca+alt%3D%22&page=33 . При вставке в текст страницы они дают ссылки на "клиента". Только осталось их качнуть с доноров.

2. Среди этих сайтов я нашел и сайт, который когда-то делал и продвигал – ultraslim.ru. Ссылки с него люди получают через поиск: $title(+a href http) на сайте: ultraslim.ru . Коллекция из 160 украинских (в основном!) сайтов – акцепторов. В общем, получить тИЦ 90-140 реально за счет этого метода…

3. Похожая вещь на сайте cottage.ru: #url="www.cottage.ru/search/index.php?q=*"– аж 415 проиндексированных страниц с поиском 🙂 http://www.yandex.ru/yandsearch?text=%23url%3D%22www.cottage.ru%2Fsearch%2Findex.php%3Fq%3D*%22&stype=www

4. Можно найти "заказчиков" – сайты, с которых "качаются" доноры. Надо думать, что они связаны с заказчиками… Если на странице
[убрано по просьбе beroot”> ссылка "источник" выгладит как http://www.aurore-nissan.ru/search/search.html?searchString=%22%3E%3Ca+href%3D%22http%3A%2F%2Fallautoalarm.ru%2F%22%3E%F3%F1%F2%E0%ED%EE%E2%EA%E0+%F1%E8%E3%ED%E0%EB%E8%E7%E0%F6%E8%E9%3C%2Fa%3E%3Ca+alt%3D%22 – просто качают люди доноров…

5. Реально существует около 200 известных сайтов с дырками: [убрано по просьбе beroot] – 194 сайта… Пройтись по всем и собрать коллекцию уязвимых сайтов 🙂 [убрано по просьбе beroot] Тут – 110 сайтов и т.д.

Понятно, что сделать такую ссылку проще, чем взращивать сателлит. 🙂 Прооиндексировать ее каким-нибудь фрихостом – для низкочастотки, действительно, подойдет 🙂

Литература:
http://hack-expo.void.ru/groups/antichat/html/rutxtutf7.html
http://www.securitylab.ru/analytics/274302.php
http://barushev.net/archive/2005/wordpress-xss.html
http://www.dsec.ru/about/articles/web_xss/

Неужели у Сегаловича в статье ошибка?

В статье Яндекс на РОМИП-2004 у Сегаловича приведена формула доли веса пассажа, которую нужно преодолеть, чтобы пассаж был найденным:

“где Softness соответствует величина от 0 до 1, а QL — длина запроса в словах”
***
Проверяю. Не сходится…
Беру одно значащее слово и N разных абракадабр с весом ::1, разделенных оператором поиска в документе &&.
Типа такого: окна::1479 && semhfwj1::1 && semhfwj2::1 && semhfwj3::1 && semhfwj4::1 && semhfwj5::1 && semhfwj6::1 && semhfwj7::1 && semhfwj8::1 && semhfwj9::1 && semhfwj10::1 && semhfwj11::1 && semhfwj12::1 && semhfwj13::1 && semhfwj14::1 && semhfwj15::1
И получаю такие веса слова “окна”, при которых еще ничего не найдено, но если прибавить единицу – будет найдено:

Термов	Вес "окон"	Доля веса по кворуму
2	1395	0.9400
3	790	0.8632
4	726	0.8029
5	742	0.7550
6	785	0.7158
16	1478	0.5163

По формуле – не выходит… По формуле QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) доли веса получаются:

Термов	Доля веса по кворуму=QuorumWeight=(1-0.06)^(1/SQRT(QL-1))
2	0.9400
3	0.9572
4	0.9649
5	0.9695
6	0.9727
16	0.9842

…что даже не соотвествует тому, что написано в статье:

В частности, при равных по весу словах запроса и коэффициенте мягкости 0.06 (того, что использовался при выполнении заданий РОМИП), в пятисловном запросе достаточно 4-х слов (или 76% веса), а в 16-словном всего лишь 8 слов (или 52% веса) для преодоления кворума.

А у меня как раз-таки соотвествует.
После небольшого метода тыка приходим к выводу, что формула выглядит так:
QuorumWeight=1-Softness^(1/SQRT(QL-1))
…ну, короче, скобочками Сегалович ошибся… 🙂 1-Softness не надо в скобочки ставить…

PS блин, а я чуть голову не сломал…

Длинные слова

По мотивам того, что у artlebedev на хомяке в тайтле есть слово экстраультрагиперпупервротебупермегасупернадежный и Яндекс с Рамблером его не находят (ноль результатов), хотя знают (статистика слов: 49). via Aik и itman.
Больше всего мне нравится коммент itman, а точнее третья версия -вторая часть:

Во-первых, некоторые поисковые машины игнорируют слова, которые есть только в тайтле. Во-вторых, они могут игнорировать слишком длинные тайтлы. В-третьих, они могут игнорировать слишком длинные слова. И тут могут быть варианты. То есть слово может обрезаться, а может и просто не индексироваться. Насколько я проверил, Яндекс слово не обрезает, хотя в закешированной текстовой версии слово есть, значит Яндекс новую версию странички сжевал.

-думаю, что Яндекс не ищет по длинным словам и не обрезает. Может, ему просто западло показывать эти длинные слова в поиске? Они длинные и неудобные… И, соотвественно, искать по ним неудобно. Пример:
по запросу студия артемия лебедева ваш && партнер показывается тайтл:

Студия Артемия Лебедева – ваш …

А по запросу поиска внутри сайта слова партнер показывается:

Студия Артемия Лебедева – … партнер

Т.е., слова до и после длинного яндекс знает, ему просто западло его в выдачу отгружать. При малейшем добавлении в запрос слов из тех, что ДО экстраультрагиперпупервротебупермегасупернадежный – конец обрезается многоточием.
UPD.
Рамблер тоже – слова не находит, но в выдаче показывает и болдом что надо выделяет:

Студия Артемия Лебедева — ваш экстраультрагиперпупервротебупермегасупернадежный партнер