Почему-то узнавать об этом пришлось из блога Яндекса! :madd:
Мое вот: Е.А. Трофименко. Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска. Надо бы его в хтмл-виде выложить.
Вот здесь список отчетов: http://company.yandex.ru/grant/list.xml
Как говорится, фсем фтыкать. 🙂
отчеты по гранту Яндекса опубликованы: 20 комментариев
Комментарии запрещены.
Занятно: написано, что стипендии получили 34 заявки, а отчетов 24. 🙂 То ли часть людей ниасилила, то ли засекретили 🙂
Целый трактат 🙂 очень интересно. Таким образом можно получить условный коэффициент ценности ресурса (который в виде дополнительной цыферьки выводить возле каждой ссылки в результатах поиска). Саппорт – он когда еще отсмотрит, а пользователям будет ясно – сюда – не кликать, накручено…
Да, там есть грамматичексие ошибки, я знаю. 🙂
А что такое "master of science"?
Жень, не хочу тебя обижать, но они это всё выложили в открытый доступ потому что не будут применять?
Интересное исследование. Один вопрос (я задавал его раньше) – как предполагается бороться с неперекрёстным обменом? Очевидно, неперекрёстный обмен целиком войдёт в меру purepr.
почему применено слово "Следовательно"?
minaton, это типа человек, защитивший диплом. А вот насчет того, кто, как и что будет применять – это неизвестно. Вообще, авторское право никто не отменял, и я, хотя не вчитывался в бумаги, уверен, что они не обладают исключительным правом на публикацию.
Там еще я прочитал – это не просто отчеты, опубликованные, а отчеты, "вошедшие в сборник Интернет-математика".
E0LiN, это точно. Я пробовал считать тройные кольца, это дольше гораздо :), но тут как бы такая фишка – если обменные ссылки и сейчас имеют тот же вес, что и обычные, то еще нескоро дело дойдет до учета колец… 🙂
Николай Попков, потому, что договоренность предполагает меньшую разборчивость в расстановке ссылок.
по поводу гиротезы №3
1. она в работе похоже не используется
2. она неверна, поскольку интегральная ценность ссылки уже зашита в вероятности перехода по ссылке.
Пример:
договорная ссылка наверху страницы и безвозмезная – в подвале. Пусть даже по договорной ссылке пользователь (в силу гипотезы №1) переходит с меньшей вероятностью P1 (при прочих равных условиях, например – обе вверху), чем по добровольной – P2. Прочие то условия не равны – нижнюю ссылку пользователь может совсем не увидеть, точнее увидеть с вероятностью P3 (авторитетность верхней и "подвальной" ссылки тоже разные, но для простоты этого не учитываем). Все вероятности нормированы на 1.
По условиям гипотезы №3 вероятности перехода равны
P1= P2*P3
Тематичность и "разборчивость в расстановке ссылок" уже учли тем, что P1<P2
И почему же теперь ценность для ранжирования нижней "разборчивой" ссылки с вероятностью перехода P2*P3 выше ценности верхней ссылки с такой же вероятностью перехода P1?
Николай, надо бы сначала там как-то прочитать работу, что ли 🙂
Идея работы: расчет пейджранков ОТДЕЛЬНО по подсистемам обменных (взаимных) и добровольных (невзаимных) ссылок. А уже дальше каждый из них можно использовать в алгоритмах ранжирования с разными весами.
А, в этом смысле. 🙂
Ну, на самом деле поздновато убирать, кроме того – самое интересное – проверить, даст такое разделение реальный эффект или только увеличит уровень шума. 🙂
Видимо, автор очень хочет попасть в разработчики Яндекса. Иначе зачем было делать эту работу?
Глупый вопрос. А деньги уже не считаются ?
Автору хочется, в-самых-главных, поиграться с реальной базой ссылок между хостами.
А я бы по другому попробовал бы учитывать ссылки. Через словари страниц или сайтов (прошу простить за назойливость =). Если словари ссылающегося и того, на кого ссылаются, пересекаются сильно – значить ссылка тематическая, сильная и т.д., а если слабо пересекаются или не пересекаются вообще – значит ферма или как-то левак.
В хостграфе нет данных о текстах страниц.
Я догадывался =)
Вот меня интересует, а кому-нибудь удалось скачать работы размером более 500кб? А то за одну сессию оно нифига не получается, а сервак не соглашается поддерживать закачку.
Я сначала думал, это просто из-за моего диалапа, да вроде бы нет. Скорость отдачи тоже ограничивается со стороны сервака яндекса, а не с моей (по крайней мере с других серваков скорость скачивания в 2-3 раза выше). Естественно скачивание идет в один поток по одному файлу (регет 1.8).
Да не получается скачать некторые доклады! Я уж писал об этом где-то….
Может найдется кто-то добрый и выложит на сервак с возможностью докачки?