задачка про вероятности

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.
И накопилось около 40 млн. уникальных запросов.
Из которых только 10 млн. запросов попали в базу 2 и больше раза.
Из которых 4.7 млн. запросов попали в базу 3 и больше раза
Из которых 3.3 млн. запросов попали в базу 4 и больше раза
и т.д.
Очевидно, что те запросы, которые попали в базу один раз – не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться – но узнать это можно только потом.
Но и те запросы, которые попали в базу пару раз – не очень хорошо соответствуют вордстату.
Те, которые три раза – получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.
***
И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.
***
И думаю: может, задача-то стандартная и уже давно решена?