Яндекс – как образуются темы дня

Выложили презентацию доклада Темы дня в блогах: Как это работает на конференции Russir2008 (Андрей Мищенко, Антон Волнухин)
Интересная статистика:

• Около 200 тысяч записей блогах каждый день
• Около 400 тысяч комментариев в день
• Более 380 миллионов записей всего
• Более 400 миллионов комментариев
• Более 5 миллионов блогов

-получается, в средний блог пишут раз в 25 дней, и у одной записи в среднем 2 каммента. 🙂 Маловато.
Я раньше думал, что каким-то образом классифицируют записи и ссылки в камментах, когда выделяются массовые ссылки или признаки, рассматривают их подробнее. А оказывается, гипотезу человек выдумывает:

• Источники гипотез являются внешними по отношению к системе определения тем дня.
• Записи в блогах работают не как источник тем, а как фильтр гипотез.

Источники гипотез тем дня
• Яндекс.Афиша – названия фильмов, идущих сейчас в кинотеатрах,
• Яндекс.Открытки – названия праздников, недавно прошедших и скоро наступающих,
• НИНИ (Непостоянство Интересов Населения Интернета) запросы к Яндексу,
• Яндекс.Новости – заголовки сюжетов.

Что интересно – показали формулу скорости роста (X=записей сегодня, Y=за предыдущее время) параметр "темовитости": ln(x/y)*(x − y)

Формула «темовитости»
• Вычитание? Плохо. Например, 100 -> 200 и 10000 -> 10500
• Деление? Тоже плохо. Например, 10 -> 30 и 1000 -> 2000
• Нужно подобрать «золотую середину».
ln(x/y)*(x − y)

Склейка разных тем делается через похожесть списков записей в блогах по этим темам:

• Как установить связь между двумя гипотезами, не имеющими ничего общего в смысле текста? Снова с помощью поискового индекса.
• Если две гипотезы тем дня часто встречаются в одних и тех же записях, – это с большой вероятностью об одном и том же

via