отчеты по гранту Яндекса опубликованы

Почему-то узнавать об этом пришлось из блога Яндекса! :madd:
Мое вот: Е.А. Трофименко. Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска. Надо бы его в хтмл-виде выложить.
Вот здесь список отчетов: http://company.yandex.ru/grant/list.xml
Как говорится, фсем фтыкать. 🙂

отчеты по гранту Яндекса опубликованы: 20 комментариев

  1. Целый трактат 🙂 очень интересно. Таким образом можно получить условный коэффициент ценности ресурса (который в виде дополнительной цыферьки выводить возле каждой ссылки в результатах поиска). Саппорт – он когда еще отсмотрит, а пользователям будет ясно – сюда – не кликать, накручено…

  2. Жень, не хочу тебя обижать, но они это всё выложили в открытый доступ потому что не будут применять?

  3. Интересное исследование. Один вопрос (я задавал его раньше) – как предполагается бороться с неперекрёстным обменом? Очевидно, неперекрёстный обмен целиком войдёт в меру purepr.

  4. В общем случае, почти любой обмен ссылками предполагает договоренность
    между ссылающимися сайтами. Следовательно, ценность таких ссылок в
    алгоритме ранжирования должна быть более низкой, нежели ценность
    «добровольных», односторонних ссылок.

    почему применено слово "Следовательно"?

  5. minaton, это типа человек, защитивший диплом. А вот насчет того, кто, как и что будет применять – это неизвестно. Вообще, авторское право никто не отменял, и я, хотя не вчитывался в бумаги, уверен, что они не обладают исключительным правом на публикацию.
    Там еще я прочитал – это не просто отчеты, опубликованные, а отчеты, "вошедшие в сборник Интернет-математика".
    E0LiN, это точно. Я пробовал считать тройные кольца, это дольше гораздо :), но тут как бы такая фишка – если обменные ссылки и сейчас имеют тот же вес, что и обычные, то еще нескоро дело дойдет до учета колец… 🙂
    Николай Попков, потому, что договоренность предполагает меньшую разборчивость в расстановке ссылок.

  6. по поводу гиротезы №3

    1. она в работе похоже не используется

    2. она неверна, поскольку интегральная ценность ссылки уже зашита в вероятности перехода по ссылке.

    Пример:
    договорная ссылка наверху страницы и безвозмезная – в подвале. Пусть даже по договорной ссылке пользователь (в силу гипотезы №1) переходит с меньшей вероятностью P1 (при прочих равных условиях, например – обе вверху), чем по добровольной – P2. Прочие то условия не равны – нижнюю ссылку пользователь может совсем не увидеть, точнее увидеть с вероятностью P3 (авторитетность верхней и "подвальной" ссылки тоже разные, но для простоты этого не учитываем). Все вероятности нормированы на 1.

    По условиям гипотезы №3 вероятности перехода равны
    P1= P2*P3

    Тематичность и "разборчивость в расстановке ссылок" уже учли тем, что P1<P2

    И почему же теперь ценность для ранжирования нижней "разборчивой" ссылки с вероятностью перехода P2*P3 выше ценности верхней ссылки с такой же вероятностью перехода P1?

  7. Николай, надо бы сначала там как-то прочитать работу, что ли 🙂
    Идея работы: расчет пейджранков ОТДЕЛЬНО по подсистемам обменных (взаимных) и добровольных (невзаимных) ссылок. А уже дальше каждый из них можно использовать в алгоритмах ранжирования с разными весами.

  8. расчет пейджранков ОТДЕЛЬНО по подсистемам обменных (взаимных) и добровольных (невзаимных) ссылок

    по поводу гиротезы №3

    1. она в работе похоже не используется

    так и уберите её.

    Впрочем, это был совет для улучшения работы

  9. А, в этом смысле. 🙂
    Ну, на самом деле поздновато убирать, кроме того – самое интересное – проверить, даст такое разделение реальный эффект или только увеличит уровень шума. 🙂

  10. Видимо, автор очень хочет попасть в разработчики Яндекса. Иначе зачем было делать эту работу?

  11. Глупый вопрос. А деньги уже не считаются ?

  12. А я бы по другому попробовал бы учитывать ссылки. Через словари страниц или сайтов (прошу простить за назойливость =). Если словари ссылающегося и того, на кого ссылаются, пересекаются сильно – значить ссылка тематическая, сильная и т.д., а если слабо пересекаются или не пересекаются вообще – значит ферма или как-то левак.

  13. Вот меня интересует, а кому-нибудь удалось скачать работы размером более 500кб? А то за одну сессию оно нифига не получается, а сервак не соглашается поддерживать закачку.

    Я сначала думал, это просто из-за моего диалапа, да вроде бы нет. Скорость отдачи тоже ограничивается со стороны сервака яндекса, а не с моей (по крайней мере с других серваков скорость скачивания в 2-3 раза выше). Естественно скачивание идет в один поток по одному файлу (регет 1.8).

  14. Да не получается скачать некторые доклады! Я уж писал об этом где-то….

    Может найдется кто-то добрый и выложит на сервак с возможностью докачки?

Комментарии запрещены.