Теоретически…

Об анализе выдачи.
Вот есть, например, несколько факторов – например, в простейшем случае, % в тексте и ссылки со словами.
И есть вся выкачанная выдача по этому запросу.
Тогда разбиваем каждый фактор на диапазоны значений и смотрим, как распределены сайты в выдаче целиком – получается этакая таблица значений:

0 ссылок 1-5 ссылок 5-10 ссылок
0 % частота Ni% Ni% Ni% Ni%
0.01-1.99 % частота Ni% Ni% Ni% Ni%
2-5 % частота Ni% Ni% Ni% Ni%
Ni% Ni% Ni% Ni%

В ячейках – доля сайтов, попадающих в этот диапазон. Это получается общая статистика по всей выдаче по слову. Конечно, диапазонов может быть много, да и факторов – больше двух.
И так же выбираем “верхушку выдачи”, делаем аналогичный анализ и смотрим, как отличаются % сайтов, попавшие в разные ячейки. Можно делать “срезы” по выдаче, уходя в ее глубину.
Тогда вероятно, можно приблизиться к оптимальным значениям…
Но…
Сколько данных нужно? Положим, вся выдача Яндекса – 5000 результатов. Допустим, у нас 10 диапазонов каждого из 2-х параметров – итого 100. А нужно, чтобы статистика еще как-то существовала… Здесь в среднем получается по 50 результатов на ячейку (собственно, сами диапазоны надо выбирать именно так, чтобы внутри них статистика была приличной – где-то участить, где-то проредить).
Ну а если взяли, например, первые 500? По 5 результатов в клетке в среднем? Фигня, а не статитика. А если первые 100 анализируем? 🙂
Т.е., получается – либо отдельные гипотезы проверять остается, выбирая минимальное число диапазонов (2-3, например, в произведении 4-9), либо фигня получится.
Да и факторов млжет быть гораздо больше.
Хотя для выискивания зависимостей может подойти… Сначала предположить зависимость, потом напридумывать гениальных 🙂 гипотез и их проверять…
Иначе данных маловато получается.

Теоретически…: 3 комментария

  1. Работать оно должно, вопрос: какие еще параметры так можно проверить?
    > По 5 результатов в клетке в среднем
    если так, то вряд ли этот фактор влияет 🙂 если где-то 30, а где-то пусто – тогда да.
    более 5 диапазонов при первом приближении не требуется, если распределние близко к нормальному. А потом можно попробовать уточнить.

    И вообще – с Новым Годом 🙂 !

  2. >если так, то вряд ли этот фактор влияет 🙂 если где-то 30, а где-то пусто – тогда да
    -ну мы же рассматриваем верхушку выдачи, а она протяженная и могут быть не такие экстремальные значения. Про 5 я только про общую статистику говорю. В среднем 5 на ячейку если получится – маловато.

Комментарии запрещены.