Перемножать или складывать?

Волнует вопрос: как учитывается совокупность параметров страницы поисковиками.
Пусть есть один параметр, например, частота слова в тексте. Пусть есть другой, например, частота слова в тайтле.
Конечно, зависимость от частоты может быть очень грубой, может быть интервал “одинаковооптимальных” значений частоты.
Но пусть есть 2 параметра (текстовых) релевантности. Скажем, “релевантность по тексту” (x) и “релевантность по тайтлу” (y).
Как они должны комбинироваться при расчете релевантности документа, имеющего и то, и другое?
Первый вариант – перемножить. Но тогда документы с нулевым значением одного из параметров будут в дауне. Если мы ориентируемся на этот вариант, надо набрать максимальное количество “разных” параметров и каждому придать ненулевое значение, а лучше оптимальное. Оптимизировать, типа.
Второй вариант – сложить. Этот вариант плох тем (с т.зр. качества поиска), что действительно релевантные документы, имеющие и то, и другое, не получают преимуществ перед документами, имеющими что-нибудь одно. Если мы ориентируемся на этот вариант, методика действий – выбрать действенный (наиболее) параметр и размножать его. Хотя это напрямую не следует.
***
Отвлечемся.
В каждом из параметров релевантности могут быть намешаны интенсивные (частота слова, f) и экстенсивные (число слов, n) величины. И экстенсивные реально есть. Поэтому тут возможна такая ситуация, что “оптимальности” нет – грубо говоря, возьми страницу в 2 раза больше с такой же частотой слова и получи в 1.89 раза больше релевантности по этому слову. И так далее, пока фантазии хватит.
По-хорошему, здесь зависимость могла бы быть чем-то вроде “колокола” по интенсивной величине, умноженное на экстенсивную величину с затуханием на некоем ее размере.
Что-то вроде:
x=exp(-(1-f/f0)^2)*[1 плюс (n-1)*exp(1-(n/nmax))]
***
Вроде как нужна комбинация первого и второго варианта. Что-то вроде:
R=ax плюс bxy плюс cy

Перемножать или складывать?: 18 комментариев

  1. >R=ax плюс bxy плюс cy
    А почему нельзя еще сильнее упростить: R=ax cy?
    Аргумента:
    >Этот вариант плох тем (с т.зр. качества поиска), что действительно релевантные документы, имеющие и то, и другое, не получают преимуществ перед документами, имеющими что-нибудь одно
    я не понял. Вариант R=ax cy имеет преимущество перед R=ax bxy cy в том, что коэффициенты а и с имеют ясную "физическую природу". Что может значит коэффициент b в
    оригинальной формуле лично мне представить сложно.

  2. а почему в моем постинге пропали плюсы? euhenio, ты знал об этой фиче:
    >Вроде как нужна комбинация первого и второго варианта. Что-то вроде: R=ax плюс bxy плюс cy

  3. Это бага, не фича 🙂
    >А почему нельзя еще сильнее упростить
    -Ну, тогда мы отказываемся от произведения вовсе. А мне все-таки хочется, чтобы произведение было…

  4. >А мне все-таки хочется, чтобы произведение было…
    Тогда какой смысл будет нести коэффициент b?
    А если ты будешь рассматривать 20 факторов ранжирования, сколько у тебя будет таких произведений?

  5. >Тогда какой смысл будет нести коэффициент b?
    -а какой, например, физический смысл релевантности? Размерность ее какая? Число оно и есть число.
    Физический смысл в том, что можно обойтись или только водкой, или только пивом, например, но от их сочетания эффект будет больше, чем от удвоенной порции того или другого. 🙂
    >20 факторов ранжирования, сколько у тебя будет
    -а это уже совсем другой вопрос. К тому же, чудится мне, что их (умножабельных) много не должно быть…

  6. >-а какой, например, физический смысл релевантности? Размерность ее какая?Число оно и есть число.
    Ну не скажи. Подкрутили коэффициент а возле параметра x (релевантность по тексту) – опустили или подняли кейворды, подкрутили с возле y – изменили влияние тайтла.
    >мне все-таки хочется, чтобы произведение было…
    >чудится мне, что их (умножабельных) много не должно быть…
    Хочется, чудится … прикольная математика =)

  7. Но про пиво с водкой – неужели и это неверно? 🙂
    Например, как ты сам оцениваешь релевантность статьи, например, некой теме, описанной запросом? В статье должно говориться о предмете запроса. И заголовок статьи – содержать запрос. Какая статья более тематическая для тебя?
    На выбор: 1) Слово есть и в заголовке , и в тексте, 2) Слово 2 раза в загоовке, но нет в тексте, 3) Слова нет в заголовке, но есть 2 раза в тексте. Какая релевантнее? 🙂
    >Хочется, чудится
    -ну, перефразируем: мне чудится, что есть не очень много настолько важных факторов, чтобы их можно было "перемножать". А именно, тайтл, хедеры h, и весь остальной текст. Всего три. А, как теперь?

  8. >Какая релевантнее? 🙂
    Та, у которой 3 слова в тексте и 3 слова в тайтле. Шутка. Мне кажется, что это уже вопрос из области личных предпочтений. Лично я считаю, что все 3 варианта в такой постановке с точки зрения релевантности абсолютно одинаковы и как их расположить на SERP должны уже определять другие факторы ранжирования.

  9. >А пиво с водкой … ???
    У всякой аналогии есть свой горизонт, по-моему, пиво с водкой уже за горизонтом

  10. Ну, в общем, я к тому, что есть такое понятие – синергизм, кажется, называется. Это когда влияние двух параметров, примененных одновременно, больше, чем сумма влияний каждого из этих параметров.

  11. Ну вот у нас так поисковик и должон работать примерно:

    – Центр колокола на 2K текста.
    – Этот же колокол влияет и на вычисление релевантности с коэффициентом 2, но в обратку (в начале и в конце важнее)
    – Запрос в H1 – считаем что в начало страницы добавили ключевой запрос 7 раз
    – Запрос в Тайтле – считаем что в начало страницы добавили ключевой запрос 14 раз

    Еще бы PR, ссылочное и морфолгию – и будет свой Яndex.Server.

  12. Alexander Kirillin, а у вас – это у кого? 🙂
    >Центр колокола на 2K текста
    -я имел в виду под "колоколом" убывание релевантности при отклонении от оптимального значения. Что-то вроде exp(-(F-Fopt)^2), зависимость достаточно "плоская" вблизи оптимума.
    >Запрос в H1 – добавили ключевой запрос 7 раз – Запрос в Тайтле – добавили ключевой запрос 14 раз
    -вот это и есть самое натуральное суммирование.

  13. а почему колокол? а если это "хребет", причем пики хребтов есть функции от других переменных?

  14. Нет, ну мы же про одну переменную говорим. А все зависимости более хитрые – это уже надо потом навернуть, уровнем выше.
    Ну и "колокол", потому что должны быть области "почти одинаковой релевантности", где ф-я "почти горизонтальная".
    Хотя в принципе неважно. Я-то про перемножение.
    В принципе, если взглянуть на трехмерный график зависимости позиции – от двух параметров, то на глзок можно будет увидеть, сложение там или перемножение. Но где его взять? 🙂

  15. Alexander Kirillin, а у вас – это у кого? 🙂

    Эээ? У фирмы нашей. Индексирующий локальный бот, сколько-то там релевантная выдача, все дела. Доделывать надо еще. Вот сейчас обновим ядро АТВ, туды и залимоним.

  16. На мой взгляд должны быть и экспоненциальные "колокола" и умножения и сложения факторов. То есть, буквально, высчитанная только-текстовая релевантность должна с неким экспоненицальным коэффициентом множиться на прямой числовой вес страницы к нему плюсуется ссылочное, также вычисляемое суммой, но с экспоненциальным коэфициентом, если на странице более одной ссылки на домен или на домене более 1 ссылки с текстом запроса на искомую страницу, c такой же затухащей экспонетой множиться на коэффициент сидения доменов на одном ip-шнике и вся этабатва множится на некий затухающий экспоенециальный коэффициент по тематике.

Комментарии запрещены.