Поисковые технологии 2010

Закончился ашмановский закрытый семинар Поисковые технологии 2010.
Я там был как участник, мы такие когда пришли – Ашманов такой – во, типа, оптимизатор пришел – а я такой – я, типа, разработчик поисковых систем 🙂
Конечно, изначально знали как оптимизатора, а вот еще один сильно секретный оптимизатор тоже был :), мы его с трудом спалили. В заявке я привел www.a-gde.ru – помеленьку определяем коммерческость запроса. Пытается мнения и отзывы отделить, но там плохо, а коммерческость ничего себе определяется.

Итак.

19:00 – 21:00 заезд, расселение, шашлык, глинтвейн, ночное катание.




============Первый день 26 февраля. Будущее поисковых машин

_________________
“Табличный поиск” – Виктор Лавренко (Нигма)

В общем, Нигма, оказывается, умный поисковик.
1. использует движок FF с добавками, чтобы оценивать, какие слова визуально близко друг к другу.
2. группирует страницы по маске урла в смысловые группы – типа страницы фильмов отдельно, актеров отдельно и т.д. и использует этот смысл в показе.
3. смысл этот – не смысл, а название ключа. Для разных страниц в группе смотрится (с анализм хтмл шаблона), какие тексты остаются и какие меняются в пределах группы, и те, что меняются – значение ключа, а что остаются – название ключа. Из этих ключей и значений и получается табличный поиск.
_________________
“Рейтинг онлайн-СМИ на основе дублирования новостей” – Александр Антонов (Корпорация Галактика)

_________________
“Лексический анализ: от шаблонов к семантике” – Даниил Скатов (Диктум)

Много всего про разбор предложения с определением частей речи, согласования и прочего. Я, правда, не понял, применимо ли это к коротким текстам (типа запросов) и предполагается ли, что текст изначально правильный (или умеет ошибки анализировать). Выясню отдельно.
_________________
“Некоторые подходы в задачах классификации запросов” – Марина Хоруженко (Рамблер)

Доклад о выделении специфических запросов – поиск цитат, навигационные запросы для того, чтобы по разному их отрабатывать. 3-5 из тысячи – цитаты. Для каждого запроса есть список факторов, на которых обучаются обучалки. Факторы вроде – длина запроса, число заглавных букв, число знаков препинания, стоп-слова, т.д. Еще используется аналих поведения юзера.
_________________
“Группировка результатов поиска по тематике, определение тематики документа” – Андрей Коваленко (Meta.ua)

Они пристегнули свой каталог к определению тематики запроса. В результате по каждому запросу выдача группируется по по тематикам. То, чего я всегда хотел 🙂 на момент доклада новая выдача не была выложена. Кроме того, сбоку открывается рубрикатор, где каждая ссылка ограничивает поиск тематикой (только уж очень широкий список тематик :)). Но самые основные тематики определяет качественно. Урл там есть специальный, по которому все показывается 🙂
_________________
“Реферирование одного документа, найденного по запросу, нескольких документов, ранжированный реферат поисковой выдачи” – Андрей Калинин (Поисковые технологии)

Ничего не запомнил, но подробный обзор всех методов реферирования, начиная с самых древних. Всем разработчикам поиска втыкать!
_________________
Круглый стол “Будущее поиска”


Анатолий Орлов, получается, был с презентацией 🙂

Ночью можно кататься

===========Второй день 27 февраля. Проблемы индексации и релевантности

_________________
“Анализ графа ссылок для фильтрации нецензурных изображений” – Евгений Харитонов (Яндекс)

Есть метод определения дублей картинок, нечувствительный к слабым изменениям каринки. Он склеивает копии. Дальше есть граф хтмл-страниц, где картинки вставлены, и сами картинки. Если в контенте страниц есть порно – это дает плюс в классификацию картинки как порно. Если на странице есть порно-картинка (а порно текстов нет) – это дает плюс в классификацию страницы как порно. И так много раз. Я так понял, что они обучались на том же множестве, что и определяли точность с полнотой. Учитывая при этом, что точность и полнота около 60% – я так понял, что никаких реальных результатов не достингнуто. И еще линейная зависимость между точностью и полнотой.
Да, спалил темку про продвижение по картикам 🙂
_________________
“Архитектура краулера вертикального (тематического) поиска” – Михаил Долинин (Рамблер)

Мне абсолютно неинтересно, как там чего индексируется.
_________________
“Виды поискового спама” – Михаил Волович (Ашманов и Партнеры)

Боян в части сателлитов и дорвеев. Рассмативает серьезно сателлиты и сайты несуществующих фирм. Но все равно поисковики их не могут реально детектить.
_________________
“Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet” – Андрей Гулин (Яндекс)

Выложена, как я понял, исправленная презентация (участники Гулину указали на какие-то ошибки в формулах). Самое интересное для меня, я понял, что Матрикснет понимал не так, как надо. Я думал, что статистики в 1 млн. асессорских оценок мало, а ее на самом деле много. Сегалович на пальцах объяснял, что много матриц, руками показывал 🙂
Лекции Воронцова
_________________
“Синтаксический анализ по-нижегородски” – Владимир Окатьев (Диктум)

Примерно на ту же тему, что и первый доклад от Диктума. Мне не близко.
_________________
“Метрики для интегральной оценки качества поиска” – Андрей Иванов (Ашманов и Партнеры)
Андрей показал свои индикаторы на analyzethis. Я, правда, думаю, что на общий анализатор типа “по гамбургскому счету” поисковики не согласятся. Рассказали о накрутках этих анализаторов, среди поисковиков тоже есть накрутчики 🙂
_________________
“Интернет-математика. Конкурс по машинному обучению” – Павел Карпович (Яндекс)

Рассказал про новый конкурс за 2010 – про предсказание пробок на дорогах. Да, спалил, какие участники в ИМ-2009 были алгоритмами Яндекса – это Joker, -F, alexeigor и Победа. Я уже забыл, какие из них соответтсвовали каким алгоритмам. 🙂
_________________
“10 неправильных способов сравнивать качество поисковиков” – Сергей Протасов (Рамблер)

Сергей показал, почему каждый их способов не годится для анализа качества поиска 🙂 При этом как один из методов анализа – показ чужих результатов (других СЕ) в своем дизайне – чтобы нивелировать влияние дизайна.
У Рамблера, кстати, ожидается выкатка нового алгоритма, и нынешний Рамблер отстает от лидеров на 10%, а вот новый алгоритм лучше, чем лидеры на 5%.
В презентации про это есть, значит, можно говорить 🙂
_________________
Круглый стол “Измерение качества поиска”

******
Презентации выложены на http://www.search-conf.ru/programm2010 .

Поисковые технологии 2010: 2 комментария

  1. Я презентацию нахерачил за 15 минут во время выступления Кевы. Очень сложно объяснять как будет круто не показывая как это выглядит. Остальным участникам ничего не мешало сделать то же самое.

    Про порно картинки, это реально используемый алгоритм. Он работающий. Та точка на графике это реально используемый алгоритм обычных искалок(например по любому рамблер и мейл именно так и делают, т.к. у них нет алгоритма нечеткого сравнения картинок)

  2. Про порно картинки, это реально используемый алгоритм. Он работающий. Та точка на графике это реально используемый алгоритм обычных искалок

    -понятно, что та точка еще хуже.
    Но вот по группе графиков на презентации точность 0.4, полнота 0.45-0.5 (я в посте перехвалил :)) – имхо значит, что не особо оно работает. По мне, так не работает.
    И плюс к этому – что изменение параметра альфа а эти соотношения практически не влияет.

    Ну, а то, что он реально включен в боевом режиме – ваше дело, не наши проблемы 🙂

Комментарии запрещены.