Вот рисунок по данным Яндекс-грантов 2004. Нарисовано “число сайтов в группе в зависимости от числа входящих ссылок на сайт” в логарифмических координатах. Т.е., группа хостов, имеющих 1 входящую ссылку, состоит из N1 хостов и т.д.
Довольно приличная линейность. Расколбас в области больших цитируемостей – из-за того, что мне было лениво выбирать представительные интервалы (от и до).
В среднем по больнице PR (нелогарифмированное значение) коррелирует с числом входящих ссылок на сайт.
Дальше: пилим этот треугольник по горизонтальной оси на 10 частей, и делаем ступеньки PageRank.
число входящих ссылок на сайт: 20 комментариев
Комментарии запрещены.
Перелезаем, значит, сюда.
А ты построй того же самого только по мордам. Картина обязана измениться
за счет самоцитирования
И почему нет в распределении страниц с нулем ссылок ? А, у Яндекса этих данных нет!
(я к тому, что выборка тоже смещенная, хотя и иначе)
Это выборка по хостам, все ссылки "с хоста на хост" (неважно, между мордами или между внутренними). Только эти данные были, выделить "только по мордам" я не могу.
Да и зачем выделять "то же самое, только по мордам"?
У тебя прикольно еще коррелируют пиары с тицами в области низких значений. Но ведь это не по интернету, а по части доменов, да еще и доменов второго уровня. Но это просто может означать, что домены второго уровня люди стремятся продвигать и ссылки на них ставят :), а вовсе не естественное распределение.
И во-вторых, у тебя есть лесенка диапазонов значений тица, по которой приписывается "класс". Каждый следующий максимум в 3.96 раза меньше предыдущего. 236800-59870-15130-3820
Но как раз степень, которую ты выбрал (3.95) и влияет на крутизну графика по оси Х! выберешь больше, чем 3.95 – кривая тыца будет падать быстрее, чем ПР. Выберешь меньше – будет падать медленнее. Мне кажется, ты вывод сделал исходя только из числа, которое сам почти случайно выбрал. 🙂
1) Я сильно подозреваю, что распределение PR по страницам вообще
будет другим. Собственно, не подозреваю, а график из статьи на которую
я ссылаюсь это подтверждает.
2) Степень выбрана из очень простых соображений – нужно было получить
столько же логарифмических классов, сколько есть у PR.
3) Графики в логарифмических координатах нефига не прямые. Т.е. если
последовательно убирать по значению из регрессии (начиная с PR0 и далее),
то значимо меняется наклон. Почти вдвое и всегда в одну сторону
(увеличения наклона). Т.е. никакая это не прямая.
>Я сильно подозреваю, что распределение PR по страницам вообще будет другим
-у тебя нет страниц, у меня нет страниц. О каких страницах мы говорим?
>Степень выбрана из очень простых соображений – нужно было получить столько же логарифмических классов, сколько есть у PR.
-а почему именно так? И даже если так, ты получил 8 классов, а пиаров 11 (от 0 до 10).
Я на самом деле думаю, что степень стоит выбирать не из этих соображений (количества классов). А из соображений соотвествия между тицами и пиарами. Например, по моим прикидкам эта степень (соответствия между пиаром и тицом для цитируемых сайтов) около 5.
>Графики в логарифмических координатах нефига не прямые.
-чьи графики? 🙂 Мои или твои? мои – вроде как прямые. Твои – да, непрямые. Думаю, за счет меньшего количества малоцитируемых сайтов. Так какие графики ты имеешь в виду?
> -у тебя нет страниц, у меня нет страниц. О каких страницах мы говорим?
Сходи по ссылке. Я ее дал в статье, дал в прошлых коментах. И тут вот дам: http://citeseer.ist.psu.edu/newman03structure.html
>-а почему именно так? И даже если так, ты получил 8 классов, а пиаров 11 (от 0 до 10).
Я получил 9 классов – столько же, сколько разных PR-ов в моей выборке
>Я на самом деле думаю, что степень стоит выбирать не из этих соображений (количества классов). А из соображений соотвествия между тицами и пиарами. Например, по моим прикидкам эта степень (соответствия между пиаром и тицом для цитируемых сайтов) около 5.
Я не понимаю про степень соответствия. Поясни.
Графики непрямые – мои. У твоих есть легкий загиб, но там нету точки с нулем
ссылок, а она довольно интересная.
>У твоих есть легкий загиб, но там нету точки с нулем ссылок, а она довольно интересная.
-ну это все понятно, нулевые сайты – они и по пиару, и по тицу нулевые. А что интересного? Ну много нулевых доменов, да.
>Я не понимаю про степень соответствия. Поясни.
-я имею в виду: у тебя по всем доменам есть пиар и тиц. Так нарисуй зависимость PR от LogCY точечками. Если там будет линейно, это будет сразу видно. И не надо будет заморачиваться с классами и прочим. (предполааем, что CY~кол-ву ссылок)
А ты думаешь я не рисовал ?
Получаются так любимые тобой графики из точек. Только разных значений
PR у меня – 9 штук (8, если без нуля), значит имеем набор вертикальных облаков
из точек. Из них непонятно вообще ничего, не то что линейности
(тем более, что линейность есть где-то до PR5, а потом нету – и это прекрасно
видно из моих картинок)
а покажи график из точек? Конечно, когда дискретные ПР, трудно там что-то увидеть, но по-хорошему для каждого фиксированного ПР там должно быть распределение тицов с максимумом. Вот если этот максимум взять, что будет?
Про нули – интересно где они окажутся. Они могут лечь на продолжение прямой,
а могут и не лечь. И если не лягут – это очень весомый аргумент против
линейности всего графика.
Если взять медиану (а она и есть максимум в каком-то смысле),
то получится последняя табличка из моего текста.
График несколько мучительно сейчас строить,
с полумиллионом точек то (если нарисовать тупо все, то график смысла не имеет)
BTW, возвращаясь к началу вопроса про "логарифмичность PR". Тебе это типа два года как очевидно :), но тот график что тут выше – это распределение количества внешних ссылок.
А теперь берем распределение PR-ов (1-й график из моей статьи, http://www.rukv.ru/pr-sites.png) – ничего общего с твоим графиком. И если завал в PR1 еще можно как-то разумно объяснить, то весь график целиком на твою прямую в логарифмах вообще не похож нисколечки.
Т.е. из просто двух графиков логарифмичность вообще никак не следует.
А вот процедура которая из линейно-масштабных CY делает такой же график (логарифмированием) несколько более показательна.
>BTW, возвращаясь к началу вопроса про "логарифмичность PR". Тебе это типа два года как очевидно :), но тот график что тут выше – это распределение количества внешних ссылок.
-ну да, а чем больше в среднем по больнице внешних ссылок, тем больше PR. Так что все нормально с выводом. 🙂
>А теперь берем распределение PR-ов (1-й график из моей статьи, http://www.rukv.ru/pr-sites.png) – ничего общего с твоим графиком. И если завал в PR1 еще можно как-то разумно объяснить, то весь график целиком на твою прямую в логарифмах вообще не похож нисколечки
-а у тебя выборка смещенная, а у меня все хосты рунета по версии яндеса 🙂 во-вторых, если откусить первые 2-3 точки от твоего графика – очень неплохо похож.
Я уже действительно задумался – о чем мы спорим? О том, что из моего графика нельзя сделать вывода о логарифмичности ПР, а из твоего можно? 🙂
Мы спорим о твоем наезде :), который ты потом стер, но я раскопал.
На твоем графике нету PR, сделать о нем какой-то вывод, следовательно, никак нельзя.
Мужики, а кроме вывода го логарифмичности тулбарного индикатора PR из ваших изысканий какую-нибудь практическую ценность можно вынести? 😉
wolf, йоптыть, тут, как я понял – главный вопрос – кто чего раскопал и когда это было – 2 года назад или позже 🙂
Alex Tutubalin
>Мы спорим о твоем наезде :), который ты потом стер, но я раскопал.
-дык нечего было копать 🙂
>На твоем графике нету PR, сделать о нем какой-то вывод, следовательно, никак нельзя.
-э, нет, у меня хоть разумные числа входящих ссылок, связанные со средним по больнице пиаром.
А на твоем графике тулбарное значение PR, которое вообще непонятно (до доказательства) как считается, и сделать никакой вывод ну никак нельзя 🙂
Я, конкретно, не понял, где на твоем графике пиар.
пиар коррелирует с числом входящих ссылок. в среднем по больнице – очень хорошо должен коррелировать.
Ну это тот пиар, который "внутренний". Т.е. используется при ранжировании.
А еще есть Toobar PR – и как он смасштабирован глядя на этот вот график и не скажешь: http://www.rukv.ru/pr-sites.png)
>А еще есть Toobar PR
-ну я, в отличие от тебя, не говорил "наконец-то это доказано". Я говорил: "очевидно". Если бы меня попросили разбить этот треугольник на 11 частей по числу пиаров, я бы ОЧЕВИДНЫМ образом это сделал.
И у тебя такая же ситуация. Ты сказал "доказано", а на самом деле вывод сделан исходя из ПОХОЖЕСТИ графика пиара на график тица. Т.е., и у тебя это ОЧЕВИДНО, а не доказано… 🙂
Такой коэффициент корреляции для первых пяти точек это ПОХОЖЕ ?
Что же такое тогда ДОКАЗАНО ?