задачка про вероятности

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.
И накопилось около 40 млн. уникальных запросов.
Из которых только 10 млн. запросов попали в базу 2 и больше раза.
Из которых 4.7 млн. запросов попали в базу 3 и больше раза
Из которых 3.3 млн. запросов попали в базу 4 и больше раза
и т.д.
Очевидно, что те запросы, которые попали в базу один раз – не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться – но узнать это можно только потом.
Но и те запросы, которые попали в базу пару раз – не очень хорошо соответствуют вордстату.
Те, которые три раза – получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.
***
И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.
***
И думаю: может, задача-то стандартная и уже давно решена?

задачка про вероятности: 9 комментариев

dima5ty:

06.09.2010 в 07:09

1. есть fastkeywords.biz с базой побольше

2. яндексоиды где то говорили о типа 70%, которые каждый день (месяц?) меняются

3. учитывая случайную по времени выборку с эфира и дополнительную фильтрацию в самом вордстате проще принять полученные цифры без каких-либо преобразований, так они будут понятней (ну можно на количество месяцев/дней разделить, если уж очень захочется)

4. когда самых_мелких_запросов достаточно много – по ним видна картина как надо писать контент, т.е. оптимальные предложения строятся сами собой практически + удобно пользовать в качестве анкоров при НЧ-продвижении
Евгений Трофименко:

06.09.2010 в 08:46

1. слыхал о многих разных базах, но, во-первых, она не моя :), во-вторых, а правильно ли там-мне неизвестно (мало ли, вдруг по вордстату), и как там с морфологией быть – непонятно, и в третьих – а побольше быть не должно, т.к. повторяющиеся запросы должны быть одинаковые у всех, а случайные не считаем.

2. у меня так же получилось – 75% встретились по одному разу.

3. в вордстате фильтрация по порнухе, ну порнуху не учитываем. Не, чисто пропорционально цифры выводить правильно, но еще и самому хотелось бы знать, какому вероятному диапазону частот соответствует цифирка "3", например.

4. когда самых_мелких_запросов достаточно много – по ним видна картина как надо писать контент, т.е. оптимальные предложения строятся сами собой практически + удобно пользовать в качестве анкоров при НЧ-продвижении

-да, вот хорошее применение – для спамных анкоров 🙂
dima5ty:

06.09.2010 в 09:02

1. ну повторяющиеся – уже те же вч, которые есть в любой статистике, с них толк небольшой, если только впаривать сео кому-то

3. тогда встаёт дополнительный вопрос – считать ли частоту с перестановками или только прямое вхождение 🙂 Ну а готовое число просто делим на количество месяцев парсинга и умножаем на коэффициент, отвечающий за % отловленных запросов в общей массе

у меня просто остаются числа, которые насчитались, потому как их смысл как-то понятен + при подготовке к оптимизации считаю дурку из "количества_поглощённых_запросов"[1] и "мощность_запроса"[2]
[1] – количество более коротких запросов, которые можно составить из слов текущего
[2] – аля вордстат без операторов

что-то более интересное оттуда дёрнуть не придумалось
Евгений Трофименко:

06.09.2010 в 09:13

Я как раз хочу сделать базу для "впаривания сео", ну там, анализировать, каким запросам страница соотвествует. Типа вводишь урл, а оно само тебе запросы подбирает.

А ты анализировал этот самый огромный хвост НЧ в плане – каковы алгоритмы генерации запросов людьми? Есть ли результаты?
dima5ty:

06.09.2010 в 09:53

Я как раз хочу сделать базу для "впаривания сео", ну там, анализировать, каким запросам страница соотвествует. Типа вводишь урл, а оно само тебе запросы подбирает.

как правило страницы никаким запросам не соответствуют, пока их там не пропишешь 🙂

есть у меня перелинковщик, аналогичный вики, в чистом тексте от копирайтеров попадается крайне мало адекватных вариантов для простановки ссылок, другими словами – нефиг искать то, что ещё не сделано

А ты анализировал этот самый огромный хвост НЧ в плане – каковы алгоритмы генерации запросов людьми? Есть ли результаты?

в общей ситуации там бред и маразм, но на очень_больших_списках можно выделить какую-то картину, например по унифицированным тройкам слов (топовые наборы):

с заменой на условные обозначения – автозапчасти:
ЗАПЧАСТЬ ИНТЕРНЕТ МАГАЗИН
GRAND БРЕНД МОДЕЛЬ
БРЕНД ЗАПЧАСТЬ МОДЕЛЬ
БРЕНД ЗАПЧАСТЬ КАТАЛОГ
БРЕНД БУШНОЙ ЗАПЧАСТЬ
БРЕНД ЗАПЧАСТЬ МАГАЗИН
БРЕНД ВЫПУСК ГОД
ЗАПЧАСТЬ ЛИСТ ПРАЙС
ИНСТРУКЦИЯ ПО РЕМОНТ
БРЕНД ДИЛЕР ОФИЦИАЛЬНЫЙ

без замены – финансы
БУМАГА РЫНОК ЦЕННЫЙ
НА НАЛОГ ПРИБЫЛЬ
В ВАЛЮТА КУРС
ВАЛЮТА КУРС НА
ЕВРО КУРС НА
БАНКА ВАЛЮТА КУРС
БАНКА В ВАЛЮТА
ВАЛЮТА КУРС ОБМЕН
В ЕВРО КУРС
ДОХОД И РАСХОД

+
телефоны не нашёл, но там бывают моменты когда очень красиво по сортированному непреобразованному списку строятся фразы типа "модель_телефона нужная_хрень"

в целом очень много мусора из неправильных падежей и предлогов на концах
вот как пример ~5к запросов по "наследству" http://adsem.ru/inst/keyword_chain/?sernum=9613cea7e70cf8f93531c36c9dc28339 (больше 5К хостинг отказывается обрабатывать)

* при проходе по дереву внизу остаётся хвост из мелочей, который часто некуда сунуть и здесь не виден весь ужас, т.к. в скрипте есть какая-то морфология

+ на запросах длиннее 5 слов начинается просто ад
Евгений Трофименко:

06.09.2010 в 16:33

dima5ty, это вот как бы группы запросов, шаблоны, объединенные общим смыслом?
Если да – а какие доли таких шаблонов в общей массе?
dima5ty:

07.09.2010 в 04:36

dima5ty, это вот как бы группы запросов, шаблоны, объединенные общим смыслом?

кажется, мы потеряли связь 😀

если смотреть по тематикам и выстроить шаблоны по частотности, то основная масса запросов выглядит как:
[хрень] – [параметр|уточнение] – [действие|место] – [дополнение]
по ссылке ходил? там если по самым частотным словам пройтись, то эта цепочка видна как раз, модель повторяется в каждой теме

по всему корпусу такой разбор не делал, но, по идее там цепочка получится типа:
[действие|место] – [хрень] – [параметр|уточнение] – [дополнение]

какие доли таких шаблонов в общей массе?

100% 🙂 если убрать неадекватный мусор, но я его не трогал
Евгений Трофименко:

07.09.2010 в 09:12

Опс, сходил по ссылке.
У меня похожая есть тулза для работы с большими массами низкочастотки 🙂

Но вот на adsem.ru, как я понял, не упорядоченные цепочки.
для
ОФОРМЛЕНИЕ => НАСЛЕДСТВО
и
НАСЛЕДСТВО => ОФОРМЛЕНИЕ
-результаты, число слов в подзапросах одинаковое, так же не должно быть.
dima5ty:

07.09.2010 в 09:31

-результаты, число слов в подзапросах одинаковое, так же не должно быть.

там идёт пересечение подмножеств по каждому из слов, т.е. пофиг в каком порядке идти
для моих задач был нужен именно такой функционал, да я и не понимаю зачем он нужен другой 🙂

Комментарии запрещены.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31