Начал смотреть на хостграф, полученный от Яндекса. Пока пользуюсь Perl, вроде кряхтит не сильно… Но считать на Сях все равно придется.
Итак, график распределения числа доменов по числу внешних ссылающихся хостов:
Т.е. – это группы хостов, на каждый из которых ссылается 1, 2, 3… N внешних хостов (по горизонтали).
По вертикали – число хостов в этих группах. Координаты логарифмические.
Т.к. среди хостов присутствуют “внешние”, еще не скачанные, и часть сайтов есть в ЯК – я разделил их на 3 группы.
День: 27.05.2005
Запугал меня Яндекс
Я пугался, когда слышал от Сегаловича, что у них в хостграфе 380 млн. доменов. Это если SiteRank каждому посчитать на 6 байт (число типа real) – будет 4 с лишним гига (как считал, не помню, сейчас получается 2.2). В оперативку не засунешь…
Сейчас посчитал. Оказалось, в хостграфе 4.9 млн. хостов. Жить можно – 30 Мб на хранение ранков.