05.09.2010 – Евгений Трофименко: SEO и не только

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.
И накопилось около 40 млн. уникальных запросов.
Из которых только 10 млн. запросов попали в базу 2 и больше раза.
Из которых 4.7 млн. запросов попали в базу 3 и больше раза
Из которых 3.3 млн. запросов попали в базу 4 и больше раза
и т.д.
Очевидно, что те запросы, которые попали в базу один раз – не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться – но узнать это можно только потом.
Но и те запросы, которые попали в базу пару раз – не очень хорошо соответствуют вордстату.
Те, которые три раза – получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.
***
И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.
***
И думаю: может, задача-то стандартная и уже давно решена?

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Авг				Окт »
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

День: 05.09.2010

задачка про вероятности