Кстати, о damping factor-е в формуле PageRank

В формуле расчета пейджранка используется некий коэффициент затухания (damping factor), который отражает вероятность того, что посетитель, попавший на страницу сайта, кликнет на одну из ссылок со страницы.
Его в какой-то из классических работ взяли равным 0.85, с тех пор число и мусолится… 🙂
Мне все-таки хочется его как-то определять. От балды брать неохота. Идея следующая:
Свяжем d с числом просмотренных страниц на сайте!
1) Если человек попал на сайт, он просмотрел 1 страницу.
2) Дальше он кликнет с вероятностью d (перейдя, очевидно, на другую страницу)
3) А дальше – с вероятностью d^2

N) А дальше – с вероятностью d^N
—–
Просуммируем всю эту чепуху – получим среднее количество хитов на хост:
hit/host=1 плюс d плюс d^2 … плюс d^N
Математику я забыл, но ряд должен сходиться. Методом научного тыка в Excel я получил, что сумма этого ряда равна:
hit/host=1/(1-d)


Вуаля! Тырим данные по хит/хост из того же Рамблер-Топ100, считаем d по каждому сайту, выбрасываем мусор, усредняем.
Кстати, при d=0.75 получается 4 хита на хост. А при d=0.85 – 6.66 хитов на хост. А при d=0.9 – 10 хитов на хост…
4 мне кажется более правильным… Кстати, метод для Рамблера – можно легко считать индивидуальные d по доменам 🙂

Кстати, о damping factor-е в формуле PageRank: 6 комментариев

  1. 4 ИМХО маловато. Посмотрев сайты, с которыми работаю, вижу скорее от 4-х до 10-ти хитов на пометителя (в инет-магазинах 4, в остальных выше).

  2. А если сайт с фотками голых женщин? Представляете, сколько хитов на хост? А трафика там много. И счетчик Рамблера такие сайты не ставят… 🙂

  3. Ай, как стыдно-то 🙂 Ряд вида ∑(1/n) (не знаю, как вставится ли значок суммы) не сходится по определению 🙂

  4. Сорри, сам был невнимателен 🙁
    Ряд вида 1/(d^n) таки сходится, но только по-моему только при d > 1.
    Сам блин всё забыл 🙁 Ушёл учится 🙂

Комментарии запрещены.