Сделал выкачку всех морд в Рунете с разбором хтмл-кодов.
Нужно это как-то употребить. Рабочая версия лендинга http://helpwith.tilda.ws/codespy
Дадите новые полезные идеи, детали – что можно и хочется делать, с деталями? А я вам супер-мега-доступ в сервис.
Сейчас есть задача – определение “сетей сайтов” в Рунете (например, созданных под продажу ссылок или под сбор трафика или под дорвеи)
Они могут иметь общие параметры – кроме IP и подсети, особенности движка (строки со скриптами и meta link теги), похожесть доменных имен, софт и настройки сервера.
Однако, есть и просто парковки доменов, которые не являются сетями в этом смысле.
Есть данные – по 5.7 млн главных страниц в Рунете все перечисленное + даты создания доменов + заголовки title, Hx + число сайтов на IP + неймсервера
Кому охота поиграться с таким определением?
Если есть – то можно обсудить формат передаваемых данных.
Напишите на [email protected]
Если не хотите сами – посоветуйте методы?
kN соседей, возможно?
Байес?
КДПВ – популярность IP и Зипф со степенью -1