по горизонтальной оси – сколько раз встретился запрос в базе (уникальность).
по вертикальной – сколько таких запросов было.
Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.
кстати, для частотности запросов: 4 комментария
Комментарии запрещены.
таки распределение Яндекса-Ципфа-Трофименко 🙂
Ципф тут вообще ни при чем, да и Яндекс скорее всего тоже. Не думаю, что у гугла распределение иное.
Забавно было бы посчитать IDF по базе вопросов и применить в колдунщике, может оно и даст какой-то бонус. Только не очевидно, за какой период считать частотность, учитывая сезонность одних запросов, новизну других и стабильность третьих. 🙂
З.Ы. Что касается Ципфа, то на рандоме такое распределение вроде строго доказано. Т.о., посчитав частотность по всему индексу языка, можно посмотреть, на сколько распределение близко к 1/х, т.е. на сколько индекс близок к рандому. И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка. Пузомерка крутая может получится и несколько дисеров. 😀
Да, забавно выглядит, но это нечестный фокус с моей стороны про сравнение с Зипфом. 🙂
С Зипфом надо было бы сравнивать топовые запросы, не хвост. Типа брать 1 = самый частотный, смотреть – сколько в месяц, 2= второй по частоте, сколько в месяц и т.д., и смотреть, какая функция.
А так-то зависимость 1/x^2 – имхо (я еще не уверен), следует из закона Зипфа, только тут надо анализировать хвост, а не топ. Надо обдумать. 🙂
***
dima5ty, я бы согласился в одну компанию с Зипфом 🙂
-давай сделаем, чо 🙂
-куплю ботанические корочки, сразу профессорские 🙂
ну само собой, вероятность двух слов встретится подряд в одном словосочетании тоже не при чём, "сингулярность асимметрии" просто слово-паразит какое-то
пусть гугль статистику откроет сначала, а там подумаем включать ли его в цифровое наследие 🙂
вон оно чё Исландия обанкротилась 🙂
кстати интересно было бы посмотреть на график, после приведения запросов к какой-нибудь унифицированной форме с выкидыванием предлогов 🙂