Волнует вопрос: как учитывается совокупность параметров страницы поисковиками.
Пусть есть один параметр, например, частота слова в тексте. Пусть есть другой, например, частота слова в тайтле.
Конечно, зависимость от частоты может быть очень грубой, может быть интервал “одинаковооптимальных” значений частоты.
Но пусть есть 2 параметра (текстовых) релевантности. Скажем, “релевантность по тексту” (x) и “релевантность по тайтлу” (y).
Как они должны комбинироваться при расчете релевантности документа, имеющего и то, и другое?
Первый вариант – перемножить. Но тогда документы с нулевым значением одного из параметров будут в дауне. Если мы ориентируемся на этот вариант, надо набрать максимальное количество “разных” параметров и каждому придать ненулевое значение, а лучше оптимальное. Оптимизировать, типа.
Второй вариант – сложить. Этот вариант плох тем (с т.зр. качества поиска), что действительно релевантные документы, имеющие и то, и другое, не получают преимуществ перед документами, имеющими что-нибудь одно. Если мы ориентируемся на этот вариант, методика действий – выбрать действенный (наиболее) параметр и размножать его. Хотя это напрямую не следует.
***
Отвлечемся.
В каждом из параметров релевантности могут быть намешаны интенсивные (частота слова, f) и экстенсивные (число слов, n) величины. И экстенсивные реально есть. Поэтому тут возможна такая ситуация, что “оптимальности” нет – грубо говоря, возьми страницу в 2 раза больше с такой же частотой слова и получи в 1.89 раза больше релевантности по этому слову. И так далее, пока фантазии хватит.
По-хорошему, здесь зависимость могла бы быть чем-то вроде “колокола” по интенсивной величине, умноженное на экстенсивную величину с затуханием на некоем ее размере.
Что-то вроде:
x=exp(-(1-f/f0)^2)*[1 плюс (n-1)*exp(1-(n/nmax))]
***
Вроде как нужна комбинация первого и второго варианта. Что-то вроде:
R=ax плюс bxy плюс cy
…
Перемножать или складывать?: 18 комментариев
Комментарии запрещены.
>R=ax плюс bxy плюс cy
А почему нельзя еще сильнее упростить: R=ax cy?
Аргумента:
>Этот вариант плох тем (с т.зр. качества поиска), что действительно релевантные документы, имеющие и то, и другое, не получают преимуществ перед документами, имеющими что-нибудь одно
я не понял. Вариант R=ax cy имеет преимущество перед R=ax bxy cy в том, что коэффициенты а и с имеют ясную "физическую природу". Что может значит коэффициент b в
оригинальной формуле лично мне представить сложно.
а почему в моем постинге пропали плюсы? euhenio, ты знал об этой фиче:
>Вроде как нужна комбинация первого и второго варианта. Что-то вроде: R=ax плюс bxy плюс cy
Это бага, не фича 🙂
>А почему нельзя еще сильнее упростить
-Ну, тогда мы отказываемся от произведения вовсе. А мне все-таки хочется, чтобы произведение было…
>А мне все-таки хочется, чтобы произведение было…
Тогда какой смысл будет нести коэффициент b?
А если ты будешь рассматривать 20 факторов ранжирования, сколько у тебя будет таких произведений?
>Тогда какой смысл будет нести коэффициент b?
-а какой, например, физический смысл релевантности? Размерность ее какая? Число оно и есть число.
Физический смысл в том, что можно обойтись или только водкой, или только пивом, например, но от их сочетания эффект будет больше, чем от удвоенной порции того или другого. 🙂
>20 факторов ранжирования, сколько у тебя будет
-а это уже совсем другой вопрос. К тому же, чудится мне, что их (умножабельных) много не должно быть…
>-а какой, например, физический смысл релевантности? Размерность ее какая?Число оно и есть число.
Ну не скажи. Подкрутили коэффициент а возле параметра x (релевантность по тексту) – опустили или подняли кейворды, подкрутили с возле y – изменили влияние тайтла.
>мне все-таки хочется, чтобы произведение было…
>чудится мне, что их (умножабельных) много не должно быть…
Хочется, чудится … прикольная математика =)
Но про пиво с водкой – неужели и это неверно? 🙂
Например, как ты сам оцениваешь релевантность статьи, например, некой теме, описанной запросом? В статье должно говориться о предмете запроса. И заголовок статьи – содержать запрос. Какая статья более тематическая для тебя?
На выбор: 1) Слово есть и в заголовке , и в тексте, 2) Слово 2 раза в загоовке, но нет в тексте, 3) Слова нет в заголовке, но есть 2 раза в тексте. Какая релевантнее? 🙂
>Хочется, чудится
-ну, перефразируем: мне чудится, что есть не очень много настолько важных факторов, чтобы их можно было "перемножать". А именно, тайтл, хедеры h, и весь остальной текст. Всего три. А, как теперь?
>Какая релевантнее? 🙂
Та, у которой 3 слова в тексте и 3 слова в тайтле. Шутка. Мне кажется, что это уже вопрос из области личных предпочтений. Лично я считаю, что все 3 варианта в такой постановке с точки зрения релевантности абсолютно одинаковы и как их расположить на SERP должны уже определять другие факторы ранжирования.
А пиво с водкой на тебя что, тоже не действует??? 🙂
>А пиво с водкой … ???
У всякой аналогии есть свой горизонт, по-моему, пиво с водкой уже за горизонтом
Ну, в общем, я к тому, что есть такое понятие – синергизм, кажется, называется. Это когда влияние двух параметров, примененных одновременно, больше, чем сумма влияний каждого из этих параметров.
Ну вот у нас так поисковик и должон работать примерно:
– Центр колокола на 2K текста.
– Этот же колокол влияет и на вычисление релевантности с коэффициентом 2, но в обратку (в начале и в конце важнее)
– Запрос в H1 – считаем что в начало страницы добавили ключевой запрос 7 раз
– Запрос в Тайтле – считаем что в начало страницы добавили ключевой запрос 14 раз
Еще бы PR, ссылочное и морфолгию – и будет свой Яndex.Server.
Alexander Kirillin, а у вас – это у кого? 🙂
>Центр колокола на 2K текста
-я имел в виду под "колоколом" убывание релевантности при отклонении от оптимального значения. Что-то вроде exp(-(F-Fopt)^2), зависимость достаточно "плоская" вблизи оптимума.
>Запрос в H1 – добавили ключевой запрос 7 раз – Запрос в Тайтле – добавили ключевой запрос 14 раз
-вот это и есть самое натуральное суммирование.
а почему колокол? а если это "хребет", причем пики хребтов есть функции от других переменных?
Нет, ну мы же про одну переменную говорим. А все зависимости более хитрые – это уже надо потом навернуть, уровнем выше.
Ну и "колокол", потому что должны быть области "почти одинаковой релевантности", где ф-я "почти горизонтальная".
Хотя в принципе неважно. Я-то про перемножение.
В принципе, если взглянуть на трехмерный график зависимости позиции – от двух параметров, то на глзок можно будет увидеть, сложение там или перемножение. Но где его взять? 🙂
Эээ? У фирмы нашей. Индексирующий локальный бот, сколько-то там релевантная выдача, все дела. Доделывать надо еще. Вот сейчас обновим ядро АТВ, туды и залимоним.
А есть ли, по твоему, в реальных поисковиках такое "перемножение" разных факторов?
На мой взгляд должны быть и экспоненциальные "колокола" и умножения и сложения факторов. То есть, буквально, высчитанная только-текстовая релевантность должна с неким экспоненицальным коэффициентом множиться на прямой числовой вес страницы к нему плюсуется ссылочное, также вычисляемое суммой, но с экспоненциальным коэфициентом, если на странице более одной ссылки на домен или на домене более 1 ссылки с текстом запроса на искомую страницу, c такой же затухащей экспонетой множиться на коэффициент сидения доменов на одном ip-шнике и вся этабатва множится на некий затухающий экспоенециальный коэффициент по тематике.