кстати, для частотности запросов

по горизонтальной оси – сколько раз встретился запрос в базе (уникальность).
по вертикальной – сколько таких запросов было.

Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.

кстати, для частотности запросов: 4 комментария

  1. таки распределение Яндекса-Ципфа-Трофименко 🙂

  2. таки распределение Яндекса-Ципфа-Трофименко 🙂

    Ципф тут вообще ни при чем, да и Яндекс скорее всего тоже. Не думаю, что у гугла распределение иное.

    Забавно было бы посчитать IDF по базе вопросов и применить в колдунщике, может оно и даст какой-то бонус. Только не очевидно, за какой период считать частотность, учитывая сезонность одних запросов, новизну других и стабильность третьих. 🙂

    З.Ы. Что касается Ципфа, то на рандоме такое распределение вроде строго доказано. Т.о., посчитав частотность по всему индексу языка, можно посмотреть, на сколько распределение близко к 1/х, т.е. на сколько индекс близок к рандому. И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка. Пузомерка крутая может получится и несколько дисеров. 😀

  3. Да, забавно выглядит, но это нечестный фокус с моей стороны про сравнение с Зипфом. 🙂

    С Зипфом надо было бы сравнивать топовые запросы, не хвост. Типа брать 1 = самый частотный, смотреть – сколько в месяц, 2= второй по частоте, сколько в месяц и т.д., и смотреть, какая функция.

    А так-то зависимость 1/x^2 – имхо (я еще не уверен), следует из закона Зипфа, только тут надо анализировать хвост, а не топ. Надо обдумать. 🙂

    ***
    dima5ty, я бы согласился в одну компанию с Зипфом 🙂

    Забавно было бы посчитать IDF по базе вопросов и применить в колдунщике, может оно и даст какой-то бонус. Только не очевидно, за какой период считать частотность, учитывая сезонность одних запросов, новизну других и стабильность третьих. 🙂

    З.Ы. Что касается Ципфа, то на рандоме такое распределение вроде строго доказано. Т.о., посчитав частотность по всему индексу языка, можно посмотреть, на сколько распределение близко к 1/х, т.е. на сколько индекс близок к рандому. И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка. Пузомерка крутая может получится и несколько дисеров. 😀

    -давай сделаем, чо 🙂

    несколько дисеров

    -куплю ботанические корочки, сразу профессорские 🙂

  4. таки распределение Яндекса-Ципфа-Трофименко 🙂

    Ципф тут вообще ни при чем

    ну само собой, вероятность двух слов встретится подряд в одном словосочетании тоже не при чём, "сингулярность асимметрии" просто слово-паразит какое-то

    да и Яндекс скорее всего тоже. Не думаю, что у гугла распределение иное.

    пусть гугль статистику откроет сначала, а там подумаем включать ли его в цифровое наследие 🙂

    И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка.

    вон оно чё Исландия обанкротилась 🙂

    кстати интересно было бы посмотреть на график, после приведения запросов к какой-нибудь унифицированной форме с выкидыванием предлогов 🙂

Комментарии запрещены.