Матрикснет – pointwise, СПЕКТР – (list,pair)wise подходы?

Неожиданно получил возражения: что типа Спектр может основываться и на pfound-е.

Хрен с ними, с изменениями формул и возможностями, что что-то случайно размечено одинаково. Нет, Спектр должен быть основан на принципиально другом подходе к оценке качества выдачи. Судя по релизам.

Я слушал много разных записей про Матрикснет, и из них, и из услышанного на search-conf мне помнится следующее.

Есть типа три подхода к оценке качества выдачи – pointwise, pairwise и listwise.
pointwise, точечный – это когда каждый результат в выдаче просто имеет свою релевантность относительно запроса и она как-то взвешенно суммируется, и сумма = качество выдачи.
pairwise – это когда релевантность приписана упорядоченной паре результатов, дальше взвешиваем по всем парам.
listwise – это когда весь набор результатов в выдаче оценивается совокупно – хороший набор или плохой?

Мне помнится (общее впечатление), что яндексоиды вообще и Андрей Гулин в частности говорили, что мол, у них в Матрикснете листвайз подход.

Я и тогда в это не верил и не верю сейчас, по простым причинам –
1. Исходные данные – пойнтвайз. Оценки асессоров, на которых идет обучение – точечные и никак не завязаны ни на пары, ни на весь список.
2. Формула расчета релевантности щетает релевантность для отдельного документа = тоже пойтвайз.
Итого – матрикснет – пойнтвайз подход.

А со СПЕКТРом должно быть несколько другое. Если он должен учитывать разнообразие выдачи, то суммой по точкам оценивать ее качество нельзя. Это должен быть либо пресловутый листвайз, либо по парам. Типа для начала, для попробовать.

Другое дело, что если исходные данные – пойнтвайз, то ничего не получится. А систему оценок асессоров, насколько я понимаю, так просто не изменишь, раз, и оценки надо накапливать приличное время (ну хоть полгода) – два.

Но общая идея такова, что спектр должен быть или листвайз, или, на худой конец, пэйрвайз (кстати, результаты с разными поисковыми потребностями иногда чередуются, что наводит на мысль о пэйрвайз).

Не знаю уж, что за метрики и что за формулы используются, но качество выдачи тут должно зависеть не только от отдельных результатов, но от набора результатов.

Что, конечно, не вписывается в озвученную раньше метрику качества выдачи – pfound, хоть как ее не меняй.

ЗЫ с другой стороны, т.к. исходных данных, кроме пойнтвайз, нету – значит, используются какие-то костыли в виде поиска набора слов по сайту и использования этого при переранжировании.

Матрикснет – pointwise, СПЕКТР – (list,pair)wise подходы?: 14 комментариев

  1. Неожиданно получил возражения

    Неожиданно ты написал херню и получил ожидаемые возражения. 😀

    Хрен с ними, с изменениями формул и возможностями, что что-то случайно размечено одинаково. Нет, Спектр должен быть основан на принципиально другом подходе к оценке качества выдачи. Судя по релизам.

    Хз, логики в твоем "судя" пока я не вижу.

    Я слушал много разных записей про Матрикснет, и из них, и из услышанного на search-conf мне помнится следующее.

    Есть типа три подхода к оценке качества выдачи – pointwise, pairwise и listwise.
    pointwise, точечный – это когда каждый результат в выдаче просто имеет свою релевантность относительно запроса и она как-то взвешенно суммируется, и сумма = качество выдачи.
    pairwise – это когда релевантность приписана упорядоченной паре результатов, дальше взвешиваем по всем парам.
    listwise – это когда весь набор результатов в выдаче оценивается совокупно – хороший набор или плохой?

    Мне помнится (общее впечатление), что яндексоиды вообще и Андрей Гулин в частности говорили, что мол, у них в Матрикснете листвайз подход.

    Вот нах ты сюда эти бусурманские слова приплел? Есть нормальный, естественный язык, который для людей, а не для бусурман. 🙂

    Яндекс оценивает весь список, чтобы это понять, достаточно посмотреть на формулу pFound. Про другие метрики качества тоже полезно почитать: Официальные метрики РОМИП’2010.

    Я и тогда в это не верил и не верю сейчас, по простым причинам –
    1. Исходные данные – пойнтвайз. Оценки асессоров, на которых идет обучение – точечные и никак не завязаны ни на пары, ни на весь список.
    2. Формула расчета релевантности щетает релевантность для отдельного документа = тоже пойтвайз.
    Итого – матрикснет – пойнтвайз подход.

    А посмотреть на описание метрик влом? Типа проще верить, ага? 😉

    А со СПЕКТРом должно быть несколько другое. Если он должен учитывать разнообразие выдачи, то суммой по точкам оценивать ее качество нельзя. Это должен быть либо пресловутый листвайз, либо по парам. Типа для начала, для попробовать.

    Оценивается весь список, дык это давно уже так, скорее всего еще с Арзамаса. 🙂

    Другое дело, что если исходные данные – пойнтвайз, то ничего не получится. А систему оценок асессоров, насколько я понимаю, так просто не изменишь, раз, и оценки надо накапливать приличное время (ну хоть полгода) – два.

    Почему не получишь? Описание метрик позырь, там много оценок списка, в Graded-метриках.

    Не знаю уж, что за метрики и что за формулы используются, но качество выдачи тут должно зависеть не только от отдельных результатов, но от набора результатов.

    Дык – оно и зависит. В pFound. 😀

    Что, конечно, не вписывается в озвученную раньше метрику качества выдачи – pfound, хоть как ее не меняй.

    Ага-ага…

    ЗЫ с другой стороны, т.к. исходных данных, кроме пойнтвайз, нету – значит, используются какие-то костыли в виде поиска набора слов по сайту и использования этого при переранжировании.

    Хз про костыли, но переранжирование после матрикснета должно быть, т.к. в матрикснет разнообразие выдачи не всунуть. Разнообразие зависит от всей десятки целиком, а метрикснет оценивает релевантность документа не зависимо от других. Так что получаем ралевантность, перемешиваем по разнообразию (если есть чего подмешать в топ) а потом оцениваем с помощью pFound качество топа, а не отдельные позиции. Все замечательно. 🙂

  2. Яндекс оценивает весь список, чтобы это понять, достаточно посмотреть на формулу pFound. Про другие метрики качества тоже полезно почитать: Официальные метрики РОМИП’2010.
    ***
    А посмотреть на описание метрик влом? Типа проще верить, ага?
    ***
    Оценивается весь список, дык это давно уже так, скорее всего еще с Арзамаса.

    -во-первых, к чему ты показываешь все время на РОМИП? Асессорские оценки яндекса к РОМИПу какое отношение имеют?

    Никакого.

    Ты согласен с тем, что асессор Яндекса оценивает по релевантности пару запрос-документ? Что и как из этого считается в выдаче – дело десятое.

    Если согласен, то тут нельзя в принципе получить "оценку всей выдачи", это будет типа не оценка списка полностью, а типа взвешенной суммы по отдельным результатам.

    Если не согласен – то у тебя должна быть информация о полной перестройке работы асессоров в яндексе. Чтобы они оценивали не отдельные документы, а пары или списки результатов. У меня нет такой информации. Думаю, что у тебя тоже нет.

    Учитывая вот эту формулу, которую ты привел, сумму по точкам, по отдельным результатам – чтобы самому себе не противоречить – ты должен быть согласен, что асессор в Яндексе оценивает "запрос-результат", а не "запрос-пара результатов" и не "запрос-выдача".

    Дык – оно и зависит. В pFound.

    -зависит как сумма по результатам, ты не отличаешь никак? От того, об чем речь – от оценки пар или списка целиком?
    Хватит тупки уже.

  3. т.к. в матрикснет разнообразие выдачи не всунуть. Разнообразие зависит от всей десятки целиком, а метрикснет оценивает релевантность документа не зависимо от других.

    -охуенно!!! Сначала был против, а потом сказал все ровно то же самое, что и я.
    Ты хоть читай раньше, чем писать.

  4. -во-первых, к чему ты показываешь все время на РОМИП? Асессорские оценки яндекса к РОМИПу какое отношение имеют?

    Никакого.

    Я ссылаюсь не на РОМИП, а на конкретный документ, в котором метрики описаны понятным языком. Просто так уж вышло, что он лежит на сайте РОМИПа. 🙂

    Оценки асессоров на РОМИПе отличаются от оценок в Яндексе, но это к твоему вопросу не относится. Это отличие в оценках влияет только на значения метрик качества для участников РОМИПа.

    Ты согласен с тем, что асессор Яндекса оценивает по релевантности пару запрос-документ? Что и как из этого считается в выдаче – дело десятое.

    Если согласен, то тут нельзя в принципе получить "оценку всей выдачи", это будет типа не оценка списка полностью, а типа взвешенной суммы по отдельным результатам.

    Если не согласен – то у тебя должна быть информация о полной перестройке работы асессоров в яндексе. Чтобы они оценивали не отдельные документы, а пары или списки результатов. У меня нет такой информации. Думаю, что у тебя тоже нет.

    Учитывая вот эту формулу, которую ты привел, сумму по точкам, по отдельным результатам – чтобы самому себе не противоречить – ты должен быть согласен, что асессор в Яндексе оценивает "запрос-результат", а не "запрос-пара результатов" и не "запрос-выдача".

    Асессор оценивает пару (запрос, документ), конечно я с этим согласен. Ну и? 😀

    Мы имеем оценки для каждого документа в выдаче и на их основании оцениваем весь список. Хз, почему ты такую простую хрень не можешь понять. Посмотри описание Graded-метрик, ту же pFound, например. Там оценивается качество списка целиком, а не каждой позиции в отдельности. Т.е. оценка для документа на позиции N прямо зависит от того, что было в выдаче на предыдущих позициях. Например – если мы выдали в топ-1 витальный ответ, то нам похуй, что там будет ниже, pFound у выдачи будет максимальным. 🙂

    -зависит как сумма по результатам, ты не отличаешь никак? От того, об чем речь – от оценки пар или списка целиком?
    Хватит тупки уже.

    Как сумма зависимых результатов, а не независимых – попробуй понять разницу. 🙂

    т.к. в матрикснет разнообразие выдачи не всунуть. Разнообразие зависит от всей десятки целиком, а метрикснет оценивает релевантность документа не зависимо от других.

    -охуенно!!! Сначала был против, а потом сказал все ровно то же самое, что и я.
    Ты хоть читай раньше, чем писать.

    Не то же самое. Ты сказал хуйню, а я тебя поправил. 🙂

  5. Мы имеем оценки для каждого документа в выдаче и на их основании оцениваем весь список. Хз, почему ты такую простую хрень не можешь понять.

    -хватит тупки!

    ТЫ НЕ ОЦЕНИВАЕШЬ ВЕСЬ СПИСОК, ОЦЕНИВАЮТ АСЕССОРЫ И КАЖДЫЙ РЕЗУЛЬТАТ ОТДЕЛЬНО, А ТЫ СЧИТАЕШЬ РЕЛЕВАНТНОСТЬ СПИСКА ФОРМУЛОЙ ПО ОТДЕЛЬНЫМ РЕЗУЛЬТАТАМ!

    Модельную релевантность, не настоящую.
    Прикидывешь релевантность списка по модели пфаунд, которая разнообразие выдачи не описывает и поэтому эта модель для СПЕКТРа не годится.

    всё?

  6. -хватит тупки!

    Дык, а я о чем? 🙂

    ТЫ НЕ ОЦЕНИВАЕШЬ ВЕСЬ СПИСОК, ОЦЕНИВАЮТ АСЕССОРЫ И КАЖДЫЙ РЕЗУЛЬТАТ ОТДЕЛЬНО, А ТЫ СЧИТАЕШЬ РЕЛЕВАНТНОСТЬ СПИСКА ФОРМУЛОЙ ПО ОТДЕЛЬНЫМ РЕЗУЛЬТАТАМ!

    Я оцениваю весь список с помощью pFound. Это такая специальная метрика для оценки именно списка. 😀

    Не каждого документа в выдаче по отдельности, а списка целиком, т.к. оценка очередной позиции зависит от того, что было выше. Впрочем, это я уже писал.

    Оценки документам (по отдельности) ставят асессоры. Матрикснет как-то там считает релевантность документов и ранжирует. pFound оценивает качество полученного списка. Хуле непонятного-то?

    Модельную релевантность, не настоящую.
    Прикидывешь релевантность списка по модели пфаунд, которая разнообразие выдачи не описывает и поэтому эта модель для СПЕКТРа не годится.

    всё?

    Тока вот давай про список отдельно, а про "Спектр" отдельно? А то у тебя каша в голове.

    Про список, я надеюсь, понятно? Или никуя? 🙂

    Что касается "Спектра" – то меняются только вероятности в метрике, т.к. вместо одного юзера у нас их теперь иногда несколько с разными целями, от запроса зависит. С этими новыми вероятностями так же расчитывается pFound, которая определяет качество списка.

    Причем, в случае разнотипных ответов в выдаче оценки асессоров в том виде, который мы знаем, уже не катят – к ним нужно добавить еще категорию ответа. Как они размечают эти категории – хз, Плахов как-то наловчился, может быть даже и не плохо в среднем. А pFound скорее всего проще считать по всем вариантам отдельно, а потом суммировать.

  7. Я оцениваю весь список с помощью pFound. Это такая специальная метрика для оценки именно списка.

    -Илья, ты задолбал.
    Неужели то, что я много раз, в том числе и тебе, написал, тебе непонятно?

    Я использую слово ОЦЕНКА для обозначения ОЦЕНКИ ЧЕЛОВЕКОМ, АСЕССОРОМ. Оценки (относительно запроса) релевантности выдачи в целом, оценки пары результатов, оценки одного результата.

    Из этих оценок (исходных данных) происходит обучение, но при обучении оптимизируется параметр, пусть и связанный с качеством общей выдачи, но РАССЧИТЫВАЕМЫЙ по цифиркам.

    Есть исходные данные (человеческие оценки) и рассчитываемое качество (конечно, по всей выдаче целиком), которое оптимизируется. Ты различаешь эти вещи?

    Ты специально типа "не понимаешь", что мы используем разные термины для исходных оценок и рассчитываемого качества, или специально не хочешь понять.
    Любой бы давно понял.

    {отредактировано}

  8. Неужели то, что я много раз, в том числе и тебе, написал, тебе непонятно?

    Один косяк за мной есть. 🙂
    Я зацепился за твое бредовое утверждение, что pFound больше не катит и мысля вокруг этого болталась. Про listwise я до этого не читал никогда, а щас небрежно решил, что это списковая оценка. А это не так, теперь я почитал, да. 😀

    Хотя слово listwise я в своих постах не употреблял, так что придраться не просто. 😉

    Я использую слово ОЦЕНКА для обозначения ОЦЕНКИ ЧЕЛОВЕКОМ, АСЕССОРОМ. Оценки (относительно запроса) релевантности выдачи в целом, оценки пары результатов, оценки одного результата.

    При listwise не оценивается релевантность вообще, набор документов строго ранжируется и оценивается совпадение модели именно с этим ранжированием, жестко. На релевантности всякие пох, чтоб ты знал. 🙂
    listwise – это не "оценка в целом", это полная куйня, а не определение. При listwise оценка работает тупо по принципу совпадает-не совпадает, а не "в целом". В целом может быть и зашибись, а по listwise будет говно, потому что не точно совпало с мнением кетайского асессора. 😀

    И с какого хрена подход listwise будет лучше оценивать качество Спектра? Это вообще ни разу не очевидно, я например уверен, что pFound его порвет, как Тузик грелку. 🙂

    В listwise в топ должны попасть именно 10 негритят, выбранных асессорами (да еще и именно в том порядке!), а если у нас несколько вариантов ответа, и по каждому 10 релевантных документов, то listwise будет косячить при отличной выдаче.

    Методу listwise развивают кетайцы, чего от них требовать креатива? Я пока не вижу там перспектив, а я редко ошибаюсь.

    Из этих оценок (исходных данных) происходит обучение, но при обучении оптимизируется параметр, пусть и связанный с качеством общей выдачи, но РАССЧИТЫВАЕМЫЙ по цифиркам.

    Если бы данные оценивались по-кетайски (т.е. по listwise ), то конечно pFound бы не рулил, там совершенно другие метрики. Но я надеюсь, что такого говна в Яндексе не будут реализовывать.

    Ты специально типа "не понимаешь", что мы используем разные термины для исходных оценок и рассчитываемого качества, или специально не хочешь понять.
    Любой бы давно понял.

    Я в обеих ветках пытался тебе на пальцАх втолковать, что pFound при спектре отлично работает. Но похоже не вышло, или все таки дошло? 😉

    Хотя то, что pFound работает, не говорит о том, что именно он сейчас применяется. Скорее всего он, но не факт, т.к. метрик разных много.

  9. Про listwise я до этого не читал никогда, а щас небрежно решил, что это списковая оценка. А это не так, теперь я почитал, да
    Хотя слово listwise я в своих постах не употреблял, так что придраться не просто

    -а, т.е. ты не читал, но осуждаешь. Отлично, я щетаю. Нахуй вообще с тобой что-то обсуждать )))

    И с какого хрена подход listwise будет лучше оценивать качество Спектра?

    -такого, что только он и pairwise хоть как-то могут быть связаны с "разнообразием" выдачи.

    Я в обеих ветках пытался тебе на пальцАх втолковать, что pFound при спектре отлично работает.

    -а ты сам ту формулу, которую сюда копипастил, тоже "ничетал"?
    Она вся завязана на точечные "релевантности" в отдельности по каждому результату в выдаче.
    Никакого разнообразия выдачи там не учтено в принципе. Вероятность, что пользователь "удовлетворится" Н-ым результатом в ней не зависит от разнообразия выдачи.
    В ней про разнообразие выдачи нет вообще ничего.

    Так понятно?

  10. Про listwise я до этого не читал никогда, а щас небрежно решил, что это списковая оценка. А это не так, теперь я почитал, да
    Хотя слово listwise я в своих постах не употреблял, так что придраться не просто

    -а, т.е. ты не читал, но осуждаешь. Отлично, я щетаю. Нахуй вообще с тобой что-то обсуждать )))

    Ну во-первых я признал косяк, хотя он к нашей дискусии не особо относился. 🙂
    Во-вторых я про listwise и не писал.
    В-третьих – listwise я осуждаю, да. Херня кетайская. 😀

    И с какого хрена подход listwise будет лучше оценивать качество Спектра?

    -такого, что только он и pairwise хоть как-то могут быть связаны с "разнообразием" выдачи.

    Ну listwise связано, но на него нада забить, как на бредовый подход. pairwise практически никак не связано. При Спектре множества разных ответов на вопрос вообще между собой никак не связаны, пох на релевантности между множествами, нет ее. Есть только релевантность внутри множества ответов в категории и знание о необходимости количества ответов каждого типа в топе.

    Я в обеих ветках пытался тебе на пальцАх втолковать, что pFound при спектре отлично работает.

    -а ты сам ту формулу, которую сюда копипастил, тоже "ничетал"?
    Она вся завязана на точечные "релевантности" в отдельности по каждому результату в выдаче.
    Никакого разнообразия выдачи там не учтено в принципе. Вероятность, что пользователь "удовлетворится" Н-ым результатом в ней не зависит от разнообразия выдачи.
    В ней про разнообразие выдачи нет вообще ничего.

    Так понятно?

    Дык, я же тебе уже писал, как считать pFound в таких случаях. Щас попробую проще объяснить, без свертки всех категорий в одну формулу, чтобы моск не выносить. Мы посчитаем pFound по каждой категории, а потом сложим.

    Возьмем запрос "пушкин". У нас есть две категории ответа – поэт и город. Спектр об этом знает, более того, он знает, что эти категории имеют вероятности примерно p1 = 90% и p2 = 10% соответственно и все ответы он автоматом разбил по этим категориям.

    Что происходит дальше? В матрикснет втыкают например 10К документов, для которых он считает модельные релевантности, на категории ему пох, их не прикольно внутрь матрикснета засовывать. После матрикснета нам нужно сформировать "спектральную" выдачу, т.е. вставить в топ ответы разных категорий в соответствии с вероятностями. Мы берем отранжированное матрикснетом, бьем его на два списка (по поэту и по городу) и смотрим, что у нас получилось в топе. Если соотношение в топе не катит (или места ответов для какой-то категории), то искусственно меняем выдачу матрикснета, при необходимости втыкая ответы нужного типа, как-то (не важно как) определяя, на каких позициях они должны быть. Модельные релевантности между ответами разных категорий при этом не сравниваются, в этом нет смысла.

    Теперь нам нужно посчитать качество полученной выдачи по pFound, я же утверждаю, что метрика рулит. 🙂
    Мы в данном случае разбиваем выдачу на две – отдельно поэты и отдельно город. И считаем для них pFound1 и pFound2, как будто ответов из другой категории нет вовсе. После чего значение pFound для выдачи будет равно pFound = p1*pFound1 + p2*pFound2. Все отлично считается.

    Теперь по поводу твоего утверждения, что pFound ухудшится. Это ваще хз, может и улучшиться. Дело в том, что матрикснет ранжирует документы по модельным вероятностям, которые не всегда совпадают с оценками асессора. Т.е. у любой документ, попавший в топ и в оценку pFound может как улучшить, так и ухудшить эту оценку. В Спектре мы часть документов одной категории заменили на достаточно релевантные (по модельной релевантности матрикснета) документы других категорий. Релевантность которых может быть смоделирована матрикснетом гораздо лучше. В таком случае pFound улучшится. 🙂

  11. Мы берем отранжированное матрикснетом, бьем его на два списка (по поэту и по городу) и смотрим, что у нас получилось в топе
    ***
    После чего значение pFound для выдачи будет равно pFound = p1*pFound1 + p2*pFound2. Все отлично считается.
    ***
    Теперь по поводу твоего утверждения, что pFound ухудшится. Это ваще хз, может и улучшиться.

    -нет-нет!
    Ты считаешь пфаунд линейной комбинацией просто для того, чтобы ее посчитать и показать мне? 🙂

    Вот, ты взял два разных оттюненных пфаунда (им, между прочим, отдельно друг от друга взяться неоткуда) и комбинируешь их – как? По твоей формуле получается, что ты размазываешь тонким слоем две выдачи.

    В реальности невозможно размазывать, есть только отдельные позиции, которые надо как-то расставить.
    Кроме того, у тебя получилось слишком упрощенно. Каждый отдельный результат может относиться на какую-то часть к одной потребности, на какую-то часть к другой.

    ***
    Но даже если мы добавляем вероятности того, что каждый результат относится к той и к иной поисковой потребности, и напишем новую формулу (учитывающую вероятности по разным потребностям) – ЭТО БУДЕТ УЖЕ ДРУГАЯ МЕТРИКА. Определение, понимаешь.

    Во-вторых, исходные данные – в известных яндексовых оценках НЕТ ДАННЫХ по разным спектровым потребностям. А если нет данных, то и использовать их невозможно. Это к вопросу, откуда берутся твои

    Спектр об этом знает, более того, он знает, что эти категории имеют вероятности примерно p1 = 90% и p2 = 10%

    -Спектр, основываясь на статистике запросов, может об этом и знать, а вот по каждому конкретному результату выдачи данных по спектровым потребностям тупо нет.
    Поэтому по каждому результату выдачи (как это необходимо) считать невозможно, а размазывать тонким слоем, считая линейную комбинацию, как ты написал – вообще противоестественно, результаты выдачи не масло, чтобы его намазывать. 🙂

    В общем, для меня это очевидно – если исходных данных (по соответствию запрос-документ-поисковая потребность) нет, то посчитать кошерным методом ничего нельзя. У меня и у тебя нет информации, что эти данные асессорами собираются.

    И даже если бы эти данные и были – то формула подверглась бы существенному изменению, это был бы уже не пфаунд. Определение, понимаешь.

  12. Мы берем отранжированное матрикснетом, бьем его на два списка (по поэту и по городу) и смотрим, что у нас получилось в топе
    ***
    После чего значение pFound для выдачи будет равно pFound = p1*pFound1 + p2*pFound2. Все отлично считается.
    ***
    Теперь по поводу твоего утверждения, что pFound ухудшится. Это ваще хз, может и улучшиться.

    -нет-нет!
    Ты считаешь пфаунд линейной комбинацией просто для того, чтобы ее посчитать и показать мне? 🙂

    Не, не только для этого. 🙂
    Для меня такая метрика просто очевидна, я бы и в реале так считал качество Спектра, если бы его нужно было оценивать с помощью pFound. Т.е. если бы я чего-то считал для статьи про Спектр на русском – я бы и pFound использовал, т.к. у нас его понимают. Если на английском, то там такая метрика не прокатит, она пока не общепринята.

    Вот, ты взял два разных оттюненных пфаунда (им, между прочим, отдельно друг от друга взяться неоткуда) и комбинируешь их – как? По твоей формуле получается, что ты размазываешь тонким слоем две выдачи.

    Ну почему им взяться неоткуда? Если ответы разбиты на категории то есть откуда. И комбинирую я их тупо по данным из статистики запросов, хз, это же вроде очевидная комбинация.

    В реальности невозможно размазывать, есть только отдельные позиции, которые надо как-то расставить.
    Кроме того, у тебя получилось слишком упрощенно. Каждый отдельный результат может относиться на какую-то часть к одной потребности, на какую-то часть к другой.

    Про размазывать – ниасилил, что ты имел ввиду. Ответ может относиться к разным категориям одновременно, только вряд ли они так считают. Я подозреваю, что пока разбили строго, или туда, или сюда.

    Но даже если мы добавляем вероятности того, что каждый результат относится к той и к иной поисковой потребности, и напишем новую формулу (учитывающую вероятности по разным потребностям) – ЭТО БУДЕТ УЖЕ ДРУГАЯ МЕТРИКА. Определение, понимаешь.

    Ну хз, если ты считаешь, что предложенная сумма pFound – это новая метрика, уже не pFound, то я не против. В первом своем ответе в предыдущей теме я ее назвал pFound+. 🙂

    Во-вторых, pFound можно легко доработать до pFound+, учитывая еще вероятности, с которыми ищется тот или иной вариант ответа и аналогично откалибровав обучающую выборку.

    Во-вторых, исходные данные – в известных яндексовых оценках НЕТ ДАННЫХ по разным спектровым потребностям. А если нет данных, то и использовать их невозможно. Это к вопросу, откуда берутся твои

    Спектр об этом знает, более того, он знает, что эти категории имеют вероятности примерно p1 = 90% и p2 = 10%

    -Спектр, основываясь на статистике запросов, может об этом и знать, а вот по каждому конкретному результату выдачи данных по спектровым потребностям тупо нет.
    Поэтому по каждому результату выдачи (как это необходимо) считать невозможно, а размазывать тонким слоем, считая линейную комбинацию, как ты написал – вообще противоестественно, результаты выдачи не масло, чтобы его намазывать. 🙂

    В известных оценках разбивки на категории нет. Но, как я понял, они научились разбивать на категории автоматом, т.е. без участия асессора. Иначе как бы они разнообразили? Вручную откалибровать выдачу по категориям – неподъемная какая-то задача.

    В общем, для меня это очевидно – если исходных данных (по соответствию запрос-документ-поисковая потребность) нет, то посчитать кошерным методом ничего нельзя. У меня и у тебя нет информации, что эти данные асессорами собираются.

    Я тоже думаю, что не собираются. Или начали как-то собираться для отладки авторазбиения. Разбивается на категории автоматом. И не по всем запросам скорее всего, а только по тем, где сть смысл в таком разбиении.

    И даже если бы эти данные и были – то формула подверглась бы существенному изменению, это был бы уже не пфаунд. Определение, понимаешь.

    Изменения минимальные, а не существенные, я же это показал. Вместо одного pFound считаем их сумму с весами. Ну и если ты не хочешь называть это pFound, то я сразу предлагал назвать pFound+. 🙂

  13. я заебался обо одном и том же.
    пора уже заканчивать.

    Ну почему им взяться неоткуда? Если ответы разбиты на категории то есть откуда. И комбинирую я их тупо по данным из

    -данным про соответствие разных результатов поиска разным поисковым потребностям взяться тупо неоткуда потому, что по моей и по твоей информации асессоры это не оценивают.

    Про размазывать – ниасилил, что ты имел ввиду. Ответ может относиться к разным категориям одновременно, только вряд ли они

    -я имею в виду – ты взял линейную комбинацию от данных, которых
    1. по-первых, их нет, т.к. их асессоры не оценивают
    2. ЛИНЕЙНАЯ КОМБИНАЦИЯ НЕ КАТИТ!!! это я и имею в виду под "размазыванием тонким слоем". Каждый результат должен относиться отдельно к поисковым потребностям спектра.

    Ну хз, если ты считаешь, что предложенная сумма pFound – это новая метрика, уже не pFound, то я не против. В первом своем ответе в предыдущей теме я ее назвал pFound+.

    ну да, назвал по-другому, значит, другая метрика. И не только назвал – она принципиально должна отличаться от пфаунд (то, что ты привел в пример с линейной комбинацией – не работает, т.к. в ней не учтены точечно разные спектровые потребности.)

    и да, в любом случае это должно называться другой метрикой, но в случае спектра – она и идеологически принципиально должна отличаться.

    а про линейные комбинации метрик вообще не стоит говорить.

Комментарии запрещены.