обнинск по России

завтра посмотрим, чо там с изменениями выдачи 🙂
«Обнинск» — новое ранжирование для гео-независимых запросов в России
1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.
2. "формула разрослась в два раза со 120 мб до 280 мб" – сперва я подумал, что не обошлось введением еще одного параметра типа "доля сеошных ссылок". Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.
Ну плюс там какой-нть параметр типа доли сеошных ссылок 🙂

Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

обнинск по России: 8 комментариев

  1. 1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.

    При чем тут определение сео-ссылок через тематичность? Оно было бы важно для геонезависимых, если бы сео-составляющая сильно ухудшала ранжирование по таким запросам, а это скорее всего не так.

    Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.

    Скорее всего просто сильно увеличили обучающую выборку геонезависимыми. Добавление нескольких новых факторов в обучение не приведет к росту формулы, может даже к сжатию привести, от факторов зависит.

    Кстати да, любопытно, что эффективнее – обучать две формулы по разным типам запросов, или все же одну по общей базе? Теоретический ответ не очевиден, тут нужно прогонять оба варианта в реале и смотреть на итог. Две формулы быстрее обучить на меньших базах, так что может их и на самом деле две. Хотя я бы делал одну, так надежнее. 🙂

  2. При чем тут определение сео-ссылок через тематичность? Оно было бы важно для геонезависимых, если бы сео-составляющая сильно ухудшала ранжирование по таким запросам, а это скорее всего не так.

    -сео-ссылки важно отделять для некоммерческих запросов, "несеошных". Связь геозависимости с коммерческостью есть явная. Коррелируют они, да 🙂
    Я сомневаюсь, что у Яндекса есть отдельная классификация коммерческости запроса, а геоклассификация есть и видна. Поэтому думаю, что просто гео использовали как указатель на коммерческость.

    Скорее всего просто сильно увеличили обучающую выборку геонезависимыми.

    -сомневаюсь, они вроде накапливают оценки и дело это долгое, вот так с наскоку взять и увеличить вряд ли можно )

    Добавление нескольких новых факторов в обучение не приведет к росту формулы, может даже к сжатию привести, от факторов зависит.
    Кстати да, любопытно, что эффективнее – обучать две формулы по разным типам запросов, или все же одну по общей базе?

    -ну типа да, добавление еще одного параметра типа в общую кучу и все. Но, видимо, влияние параметра было сильным, и получились 2 формулы в одной, так вторая еще и в 1.5 раза больше первой )
    А может, действительно, обучили для ГЗ и ГНЗ отдельно, а потом слили в одну.

    Насчет скорости обучения – они как раз хвастаются, что это все быстро и тут проблем нет.

  3. -сео-ссылки важно отделять для некоммерческих запросов, "несеошных". Связь геозависимости с коммерческостью есть явная. Коррелируют они, да 🙂

    Согласен, корреляция в среднем есть, но не все так просто, величина среднего КК не очевидна. Может и не особо она большая.

    Я сомневаюсь, что у Яндекса есть отдельная классификация коммерческости запроса, а геоклассификация есть и видна. Поэтому думаю, что просто гео использовали как указатель на коммерческость.

    И это сильно усилило качество у независимых? С чего бы?

    Скорее всего просто сильно увеличили обучающую выборку геонезависимыми.

    -сомневаюсь, они вроде накапливают оценки и дело это долгое, вот так с наскоку взять и увеличить вряд ли можно )

    Может и так, хотя можно было оценки тупо копить без добавления в обучалово.

    -ну типа да, добавление еще одного параметра типа в общую кучу и все. Но, видимо, влияние параметра было сильным, и получились 2 формулы в одной, так вторая еще и в 1.5 раза больше первой )
    А может, действительно, обучили для ГЗ и ГНЗ отдельно, а потом слили в одну.

    Слабо верится в большое увеличение формулы при добавлении нескольких новых факторов. Могли по разному обучать, сделав две тестовые выборки для ГЗ и ГНЗ и разные факторы в обучении. При этом обучающие могли быть и общие или сильно пересекающиеся. Но все равно у мну не особо сходится в башке, как можно было увеличить качество без увеличения обучающей выборки.

    Тема "Обнинска" скорее всего возникла, когда догадались померять качество отдельно по ГЗ и ГНЗ. И оно оказалось разным.

    Насчет скорости обучения – они как раз хвастаются, что это все быстро и тут проблем нет.

    По сравнению с прошлыми методами – да. Но со временем оно падает, любопытно, на сколько.

  4. И это сильно усилило качество у независимых? С чего бы?

    -считаем, что ГНЗ = некоммерческий, и дальше смотрим в мадридский доклад. Я, конечно, не держал сввечку – насколько там качество повысилось.

    Тема "Обнинска" скорее всего возникла, когда догадались померять качество отдельно по ГЗ и ГНЗ. И оно оказалось разным

    -ну это примерно одно и то же, что "померять качество отдельно по коммерческим и некоммерческим".
    Догадались, как я понимаю, еще во времена мадридского доклада )

  5. -считаем, что ГНЗ = некоммерческий, и дальше смотрим в мадридский доклад. Я, конечно, не держал сввечку – насколько там качество повысилось.

    С чего мы так считаем? Во-первых есть куча сео-накрученных ГНЗ – всякие "порно", "фильмы онлайн", "пластиковые окна москва" и т.д.. А во-вторых, если мы посмотрим глобальный сео-анкор файл, то, поверь, анкоров, соответствующих ГНЗ-запросам, там будет далеко не 5%. Как по стоимости, так и по цене. Более-менее точно посчитать будет тяжко, если анкор-файл еще можно выцепить, то спарсить много миллионов запросов уже труднее. 🙂

    Догадались, как я понимаю, еще во времена мадридского доклада )

    Я думаю, что гораздо позже. 🙂

  6. С чего мы так считаем?

    -с того, что 1. гео и коммерческость сильно коррелируют, 2. и я думаю, что у яндекса нет отдельной классификации коммерческости (вообще же, любой запрос может стать коммерческим), а они вместо нее пользуются в данном случае гео.

    во-вторых, если мы посмотрим глобальный сео-анкор файл, то, поверь, анкоров, соответствующих ГНЗ-запросам, там будет далеко не 5%. Как по стоимости, так и по цене.

    -в смысле больше или меньше? а причем тут, кстати, "сео-анкор-файл" – давай посмотрим лучше в вообще глобальный анкор-файл. 🙂

  7. -с того, что 1. гео и коммерческость сильно коррелируют, 2. и я думаю, что у яндекса нет отдельной классификации коммерческости (вообще же, любой запрос может стать коммерческим), а они вместо нее пользуются в данном случае гео.

    А я вот думаю, что у Яндекса может тестироваться даже не один такой классификатор, а несколько. Вариантов напридумывать не очень сложно, было бы желание. 🙂

    -в смысле больше или меньше?

    В смысле явно больше.

    а причем тут, кстати, "сео-анкор-файл" – давай посмотрим лучше в вообще глобальный анкор-файл. 🙂

    О, давай посмотрим! Думаешь дадут нам с тобой его в Яндексе? 😀

    Где-то в башке отложилась фраза кого-то из яндексоидов о том, что размер сео-анкор файла гораздо больше 50% от глобального. Точнее не помню, склероз, типа. Потому его вполне можно изучать и шансы на такое изучения пока что видятся выше, чем на изучение глобального. 🙂

  8. Потому его вполне можно изучать и шансы на такое изучения пока что видятся выше, чем на изучение глобального. 🙂

    Тогда стоит торопиться, пока школоло не пронюхало про бонус с исходящих ссылок 🙂

Комментарии запрещены.