число входящих ссылок на сайт

Вот рисунок по данным Яндекс-грантов 2004. Нарисовано “число сайтов в группе в зависимости от числа входящих ссылок на сайт” в логарифмических координатах. Т.е., группа хостов, имеющих 1 входящую ссылку, состоит из N1 хостов и т.д.

Довольно приличная линейность. Расколбас в области больших цитируемостей – из-за того, что мне было лениво выбирать представительные интервалы (от и до).
В среднем по больнице PR (нелогарифмированное значение) коррелирует с числом входящих ссылок на сайт.
Дальше: пилим этот треугольник по горизонтальной оси на 10 частей, и делаем ступеньки PageRank.

число входящих ссылок на сайт: 20 комментариев

  1. Перелезаем, значит, сюда.

    А ты построй того же самого только по мордам. Картина обязана измениться
    за счет самоцитирования

    И почему нет в распределении страниц с нулем ссылок ? А, у Яндекса этих данных нет!
    (я к тому, что выборка тоже смещенная, хотя и иначе)

  2. Это выборка по хостам, все ссылки "с хоста на хост" (неважно, между мордами или между внутренними). Только эти данные были, выделить "только по мордам" я не могу.
    Да и зачем выделять "то же самое, только по мордам"?

  3. У тебя прикольно еще коррелируют пиары с тицами в области низких значений. Но ведь это не по интернету, а по части доменов, да еще и доменов второго уровня. Но это просто может означать, что домены второго уровня люди стремятся продвигать и ссылки на них ставят :), а вовсе не естественное распределение.
    И во-вторых, у тебя есть лесенка диапазонов значений тица, по которой приписывается "класс". Каждый следующий максимум в 3.96 раза меньше предыдущего. 236800-59870-15130-3820
    Но как раз степень, которую ты выбрал (3.95) и влияет на крутизну графика по оси Х! выберешь больше, чем 3.95 – кривая тыца будет падать быстрее, чем ПР. Выберешь меньше – будет падать медленнее. Мне кажется, ты вывод сделал исходя только из числа, которое сам почти случайно выбрал. 🙂

  4. 1) Я сильно подозреваю, что распределение PR по страницам вообще
    будет другим. Собственно, не подозреваю, а график из статьи на которую
    я ссылаюсь это подтверждает.

    2) Степень выбрана из очень простых соображений – нужно было получить
    столько же логарифмических классов, сколько есть у PR.

    3) Графики в логарифмических координатах нефига не прямые. Т.е. если
    последовательно убирать по значению из регрессии (начиная с PR0 и далее),
    то значимо меняется наклон. Почти вдвое и всегда в одну сторону
    (увеличения наклона). Т.е. никакая это не прямая.

  5. >Я сильно подозреваю, что распределение PR по страницам вообще будет другим
    -у тебя нет страниц, у меня нет страниц. О каких страницах мы говорим?
    >Степень выбрана из очень простых соображений – нужно было получить столько же логарифмических классов, сколько есть у PR.
    -а почему именно так? И даже если так, ты получил 8 классов, а пиаров 11 (от 0 до 10).
    Я на самом деле думаю, что степень стоит выбирать не из этих соображений (количества классов). А из соображений соотвествия между тицами и пиарами. Например, по моим прикидкам эта степень (соответствия между пиаром и тицом для цитируемых сайтов) около 5.
    >Графики в логарифмических координатах нефига не прямые.
    -чьи графики? 🙂 Мои или твои? мои – вроде как прямые. Твои – да, непрямые. Думаю, за счет меньшего количества малоцитируемых сайтов. Так какие графики ты имеешь в виду?

  6. > -у тебя нет страниц, у меня нет страниц. О каких страницах мы говорим?
    Сходи по ссылке. Я ее дал в статье, дал в прошлых коментах. И тут вот дам: http://citeseer.ist.psu.edu/newman03structure.html

    >-а почему именно так? И даже если так, ты получил 8 классов, а пиаров 11 (от 0 до 10).
    Я получил 9 классов – столько же, сколько разных PR-ов в моей выборке

    >Я на самом деле думаю, что степень стоит выбирать не из этих соображений (количества классов). А из соображений соотвествия между тицами и пиарами. Например, по моим прикидкам эта степень (соответствия между пиаром и тицом для цитируемых сайтов) около 5.
    Я не понимаю про степень соответствия. Поясни.

    Графики непрямые – мои. У твоих есть легкий загиб, но там нету точки с нулем
    ссылок, а она довольно интересная.

  7. >У твоих есть легкий загиб, но там нету точки с нулем ссылок, а она довольно интересная.
    -ну это все понятно, нулевые сайты – они и по пиару, и по тицу нулевые. А что интересного? Ну много нулевых доменов, да.
    >Я не понимаю про степень соответствия. Поясни.
    -я имею в виду: у тебя по всем доменам есть пиар и тиц. Так нарисуй зависимость PR от LogCY точечками. Если там будет линейно, это будет сразу видно. И не надо будет заморачиваться с классами и прочим. (предполааем, что CY~кол-ву ссылок)

  8. А ты думаешь я не рисовал ?

    Получаются так любимые тобой графики из точек. Только разных значений
    PR у меня – 9 штук (8, если без нуля), значит имеем набор вертикальных облаков
    из точек. Из них непонятно вообще ничего, не то что линейности
    (тем более, что линейность есть где-то до PR5, а потом нету – и это прекрасно
    видно из моих картинок)

  9. а покажи график из точек? Конечно, когда дискретные ПР, трудно там что-то увидеть, но по-хорошему для каждого фиксированного ПР там должно быть распределение тицов с максимумом. Вот если этот максимум взять, что будет?

  10. Про нули – интересно где они окажутся. Они могут лечь на продолжение прямой,
    а могут и не лечь. И если не лягут – это очень весомый аргумент против
    линейности всего графика.

  11. Если взять медиану (а она и есть максимум в каком-то смысле),
    то получится последняя табличка из моего текста.

    График несколько мучительно сейчас строить,
    с полумиллионом точек то (если нарисовать тупо все, то график смысла не имеет)

    BTW, возвращаясь к началу вопроса про "логарифмичность PR". Тебе это типа два года как очевидно :), но тот график что тут выше – это распределение количества внешних ссылок.

    А теперь берем распределение PR-ов (1-й график из моей статьи, http://www.rukv.ru/pr-sites.png) – ничего общего с твоим графиком. И если завал в PR1 еще можно как-то разумно объяснить, то весь график целиком на твою прямую в логарифмах вообще не похож нисколечки.

    Т.е. из просто двух графиков логарифмичность вообще никак не следует.
    А вот процедура которая из линейно-масштабных CY делает такой же график (логарифмированием) несколько более показательна.

  12. >BTW, возвращаясь к началу вопроса про "логарифмичность PR". Тебе это типа два года как очевидно :), но тот график что тут выше – это распределение количества внешних ссылок.
    -ну да, а чем больше в среднем по больнице внешних ссылок, тем больше PR. Так что все нормально с выводом. 🙂
    >А теперь берем распределение PR-ов (1-й график из моей статьи, http://www.rukv.ru/pr-sites.png) – ничего общего с твоим графиком. И если завал в PR1 еще можно как-то разумно объяснить, то весь график целиком на твою прямую в логарифмах вообще не похож нисколечки
    -а у тебя выборка смещенная, а у меня все хосты рунета по версии яндеса 🙂 во-вторых, если откусить первые 2-3 точки от твоего графика – очень неплохо похож.

    Я уже действительно задумался – о чем мы спорим? О том, что из моего графика нельзя сделать вывода о логарифмичности ПР, а из твоего можно? 🙂

  13. Мы спорим о твоем наезде :), который ты потом стер, но я раскопал.

    На твоем графике нету PR, сделать о нем какой-то вывод, следовательно, никак нельзя.

  14. Мужики, а кроме вывода го логарифмичности тулбарного индикатора PR из ваших изысканий какую-нибудь практическую ценность можно вынести? 😉

  15. wolf, йоптыть, тут, как я понял – главный вопрос – кто чего раскопал и когда это было – 2 года назад или позже 🙂
    Alex Tutubalin
    >Мы спорим о твоем наезде :), который ты потом стер, но я раскопал.
    -дык нечего было копать 🙂
    >На твоем графике нету PR, сделать о нем какой-то вывод, следовательно, никак нельзя.
    -э, нет, у меня хоть разумные числа входящих ссылок, связанные со средним по больнице пиаром.
    А на твоем графике тулбарное значение PR, которое вообще непонятно (до доказательства) как считается, и сделать никакой вывод ну никак нельзя 🙂

  16. Я, конкретно, не понял, где на твоем графике пиар.

  17. Ну это тот пиар, который "внутренний". Т.е. используется при ранжировании.

    А еще есть Toobar PR – и как он смасштабирован глядя на этот вот график и не скажешь: http://www.rukv.ru/pr-sites.png)

  18. >А еще есть Toobar PR
    -ну я, в отличие от тебя, не говорил "наконец-то это доказано". Я говорил: "очевидно". Если бы меня попросили разбить этот треугольник на 11 частей по числу пиаров, я бы ОЧЕВИДНЫМ образом это сделал.

    И у тебя такая же ситуация. Ты сказал "доказано", а на самом деле вывод сделан исходя из ПОХОЖЕСТИ графика пиара на график тица. Т.е., и у тебя это ОЧЕВИДНО, а не доказано… 🙂

  19. Такой коэффициент корреляции для первых пяти точек это ПОХОЖЕ ?

    Что же такое тогда ДОКАЗАНО ?

Комментарии запрещены.