правильный график с запросами

По вертикальной оси – сколько раз запрос попал в базу, ~частотности
По горизонтальной – номер запроса при упорядочении по убыванию.
Без морфологии, первая тысяча

На частотных запросах (начало графика, первые 50) отклонения вниз от прямой (прямая должна была бы быть Зипфом, но степень не -1, а -0.7).
Т.е. частотные запросы спрашивают меньше, чем должны были бы по Зипфу.

Если аппроксимацию нарисовать по номерам от 50 до 1000, то все равно не Зипф, степень -0.75:

правильный график с запросами: 8 комментариев

  1. самое интересное отрезал, вдруг там всё резко заваливается 🙂
    таки ласт20 фильтруется на дубли 😮

    ну и с морфологией пожадничал, конечно 🙂

  2. я просто не делал дальше 1000, можно сделать, конечно.

    а морфологию лениво, да и зачем – это же человеческие запросы, сырой материал, люди же задают запросы как попало.

  3. таки ласт20 фильтруется на дубли 😮

    -что ты имеешь в виду? что в одной странице ласт20 не может быть двух одинаковых запросов?

  4. То что ты видишь в поисковой среде нынче модно называть "power law".
    У нас почти все по нему распределено

  5. таки ласт20 фильтруется на дубли 😮

    -что ты имеешь в виду? что в одной странице ласт20 не может быть двух одинаковых запросов?

    есть такие варианты:
    – отсутствие дублей в last20
    – некорректность выборки из-за длинного промежутка времени, в который появились провалившиеся запросы (одноклассники, в контакте)

    можешь отдельно этот блок запросов показать?

    вообще если 1/x где то чётко доказана (специально не искал), то может быть интересно получить её искусственно через сокращение количества запросов посредством морфологии, приведения к базовой форме +/- унификация представления запросов

    неизвестно также на каких данных формула была получена, т.е. если она для английского языка, то для русского она может подойти только после упрощения словаря

    То что ты видишь в поисковой среде нынче модно называть "power law".
    У нас почти все по нему распределено

    удивительно, никто не ожидал 🙂

  6. То что ты видишь в поисковой среде нынче модно называть "power law".
    У нас почти все по нему распределено

    -в это верим, а почему степень не -1?
    Зипф негодует!

  7. – отсутствие дублей в last20
    – некорректность выборки из-за длинного промежутка времени, в который появились провалившиеся запросы (одноклассники, в контакте)

    можешь отдельно этот блок запросов показать?

    -ну, все-таки вероятность того, что попадется на одной странице "одноклассники" < 260854 / 94305239 = 0.0027
    (260854 – частота (число попаданий) точного запроса "одноклассники", 94305239 – сумма всех частот по запросам с частотой 2+)
    Если бы "одноклассники" было частотнее в 10 раз, (как следует из второй линейки) все равно вероятность парного попадания близка к нулю.

    Период – с начала 2008 года, тогда они уже вовсю рулили, пропадать им не с чего, ну и другие частотные запросы тоже ниже.

    Вот число попаданий топ100-
    номер попаданий запрос
    1 130270 одноклассники
    2 74525 в контакте
    3 67821 вконтакте
    4 65936 vkontakte.ru
    5 65333 контакт
    6 62289 mail.ru
    7 62285 погода
    8 56752 odnoklassniki.ru
    9 47066 одноклассники.ru
    10 42425 яндекс
    11 41099 http://www.vkontakte.ru
    12 40757 mail
    13 39285 google
    14 38697 зайцев нет
    15 38647 рамблер
    16 36351 http://www.odnoklassniki.ru
    17 34525 знакомства
    18 34166 youtube
    19 34152 майл.ру
    20 33851 http://www.mail.ru
    21 33173 сонник
    22 32564 однокласники
    23 32425 гороскоп
    24 31945 мой мир
    25 31090 vkontakte
    26 30288 авто ру
    27 30203 переводчик
    28 30109 переводчик онлайн
    29 29464 игры
    30 29324 rambler
    31 28757 почта
    32 28607 игры для девочек
    33 28175 работа
    34 27716 в контакте вход
    35 27436 из рук в руки
    36 25939 новости
    37 25671 одноклассники.ru моя страница
    38 25252 в
    39 25074 скачать музыку бесплатно
    40 24632 онлайн переводчик
    41 24029 адрес гу гцжс раи онов москвы
    42 23272 yandex
    43 22443 поздравления с днем рождения
    44 22367 дом 2
    45 21890 картинки
    46 21683 музыка
    47 21633 inetshoping
    48 21044 ютуб
    49 21015 auto.ru
    50 20859 википедия
    51 20587 торрент
    52 20558 мамба
    53 20362 спорт экспресс
    54 20044 темы игры для nokia бесплатно
    55 19802 мтс
    56 19141 фильмы онлайн
    57 19003 билайн
    58 18828 игры онлайн
    59 18799 torrents.ru
    60 18403 футбол
    61 17619 мой мир mail.ru
    62 17605 zaycev.net
    63 17550 mamba
    64 17382 loveplanet
    65 17309 мегафон
    66 16973 майл
    67 16824 скачать фильмы бесплатно
    68 16721 анекдоты
    69 16502 маил
    70 16351 вконтакте вход на сайт
    71 16345 www.
    72 16310 mail.ru почта
    73 15988 телепрограмма
    74 15937 фильмы онлайн смотреть бесплатно
    75 15655 программа передач
    76 15547 гугл
    77 15377 yandex.ru
    78 15144 смотреть фильмы онлайн
    79 14964 погода на неделю
    80 14256 расписание электричек
    81 14188 погода в москве
    82 14183 обои для рабочего стола
    83 14172 майл ру
    84 14005 кинопоиск
    85 13735 музыка скачать бесплатно
    86 13604 игры бесплатно
    87 13544 vkontakte.ru вход
    88 13383 бесплатные игры
    89 13333 прогноз погоды
    90 13028 одноклассники моя страница
    91 12966 одноклассник
    92 12895 mail.ru мой мир
    93 12884 фото
    94 12631 youtube.com
    95 12623 одноклассники.ру
    96 12614 гороскоп на сегодня
    97 12456 кино онлайн
    98 12455 тут зайцев нет
    99 12144 почта mail.ru
    100 12139 темы для nokia

  8. Вот число попаданий топ100-

    таки да, нужны доп преобразования, чтоб подогнать к 1/x

Комментарии запрещены.