кстати, для частотности запросов

по горизонтальной оси – сколько раз встретился запрос в базе (уникальность).
по вертикальной – сколько таких запросов было.

Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.

кстати, для частотности запросов: 4 комментария

dima5ty:

06.09.2010 в 10:05

таки распределение Яндекса-Ципфа-Трофименко 🙂
G00DMAN:

06.09.2010 в 11:56

таки распределение Яндекса-Ципфа-Трофименко 🙂

Ципф тут вообще ни при чем, да и Яндекс скорее всего тоже. Не думаю, что у гугла распределение иное.

Забавно было бы посчитать IDF по базе вопросов и применить в колдунщике, может оно и даст какой-то бонус. Только не очевидно, за какой период считать частотность, учитывая сезонность одних запросов, новизну других и стабильность третьих. 🙂

З.Ы. Что касается Ципфа, то на рандоме такое распределение вроде строго доказано. Т.о., посчитав частотность по всему индексу языка, можно посмотреть, на сколько распределение близко к 1/х, т.е. на сколько индекс близок к рандому. И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка. Пузомерка крутая может получится и несколько дисеров. 😀
Евгений Трофименко:

06.09.2010 в 16:13

Да, забавно выглядит, но это нечестный фокус с моей стороны про сравнение с Зипфом. 🙂

С Зипфом надо было бы сравнивать топовые запросы, не хвост. Типа брать 1 = самый частотный, смотреть – сколько в месяц, 2= второй по частоте, сколько в месяц и т.д., и смотреть, какая функция.

А так-то зависимость 1/x^2 – имхо (я еще не уверен), следует из закона Зипфа, только тут надо анализировать хвост, а не топ. Надо обдумать. 🙂

***
dima5ty, я бы согласился в одну компанию с Зипфом 🙂

Забавно было бы посчитать IDF по базе вопросов и применить в колдунщике, может оно и даст какой-то бонус. Только не очевидно, за какой период считать частотность, учитывая сезонность одних запросов, новизну других и стабильность третьих. 🙂

З.Ы. Что касается Ципфа, то на рандоме такое распределение вроде строго доказано. Т.о., посчитав частотность по всему индексу языка, можно посмотреть, на сколько распределение близко к 1/х, т.е. на сколько индекс близок к рандому. И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка. Пузомерка крутая может получится и несколько дисеров. 😀

-давай сделаем, чо 🙂

несколько дисеров

-куплю ботанические корочки, сразу профессорские 🙂
dima5ty:

07.09.2010 в 05:37

таки распределение Яндекса-Ципфа-Трофименко 🙂

Ципф тут вообще ни при чем

ну само собой, вероятность двух слов встретится подряд в одном словосочетании тоже не при чём, "сингулярность асимметрии" просто слово-паразит какое-то

да и Яндекс скорее всего тоже. Не думаю, что у гугла распределение иное.

пусть гугль статистику откроет сначала, а там подумаем включать ли его в цифровое наследие 🙂

И, типа, чем дальше, тем менее хаотичная культура у носителей данного языка.

вон оно чё Исландия обанкротилась 🙂

кстати интересно было бы посмотреть на график, после приведения запросов к какой-нибудь унифицированной форме с выкидыванием предлогов 🙂

Комментарии запрещены.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30