Об анализе выдачи.
Вот есть, например, несколько факторов – например, в простейшем случае, % в тексте и ссылки со словами.
И есть вся выкачанная выдача по этому запросу.
Тогда разбиваем каждый фактор на диапазоны значений и смотрим, как распределены сайты в выдаче целиком – получается этакая таблица значений:
0 ссылок | 1-5 ссылок | 5-10 ссылок | … | |
0 % частота | Ni% | Ni% | Ni% | Ni% |
0.01-1.99 % частота | Ni% | Ni% | Ni% | Ni% |
2-5 % частота | Ni% | Ni% | Ni% | Ni% |
… | Ni% | Ni% | Ni% | Ni% |
В ячейках – доля сайтов, попадающих в этот диапазон. Это получается общая статистика по всей выдаче по слову. Конечно, диапазонов может быть много, да и факторов – больше двух.
И так же выбираем “верхушку выдачи”, делаем аналогичный анализ и смотрим, как отличаются % сайтов, попавшие в разные ячейки. Можно делать “срезы” по выдаче, уходя в ее глубину.
Тогда вероятно, можно приблизиться к оптимальным значениям…
Но…
Сколько данных нужно? Положим, вся выдача Яндекса – 5000 результатов. Допустим, у нас 10 диапазонов каждого из 2-х параметров – итого 100. А нужно, чтобы статистика еще как-то существовала… Здесь в среднем получается по 50 результатов на ячейку (собственно, сами диапазоны надо выбирать именно так, чтобы внутри них статистика была приличной – где-то участить, где-то проредить).
Ну а если взяли, например, первые 500? По 5 результатов в клетке в среднем? Фигня, а не статитика. А если первые 100 анализируем? 🙂
Т.е., получается – либо отдельные гипотезы проверять остается, выбирая минимальное число диапазонов (2-3, например, в произведении 4-9), либо фигня получится.
Да и факторов млжет быть гораздо больше.
Хотя для выискивания зависимостей может подойти… Сначала предположить зависимость, потом напридумывать гениальных 🙂 гипотез и их проверять…
Иначе данных маловато получается.
Работать оно должно, вопрос: какие еще параметры так можно проверить?
> По 5 результатов в клетке в среднем
если так, то вряд ли этот фактор влияет 🙂 если где-то 30, а где-то пусто – тогда да.
более 5 диапазонов при первом приближении не требуется, если распределние близко к нормальному. А потом можно попробовать уточнить.
И вообще – с Новым Годом 🙂 !
>если так, то вряд ли этот фактор влияет 🙂 если где-то 30, а где-то пусто – тогда да
-ну мы же рассматриваем верхушку выдачи, а она протяженная и могут быть не такие экстремальные значения. Про 5 я только про общую статистику говорю. В среднем 5 на ячейку если получится – маловато.
Эх, Женя !! что ж тебе не празднуется !!!