завтра посмотрим, чо там с изменениями выдачи 🙂
«Обнинск» — новое ранжирование для гео-независимых запросов в России
1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.
2. "формула разрослась в два раза со 120 мб до 280 мб" – сперва я подумал, что не обошлось введением еще одного параметра типа "доля сеошных ссылок". Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.
Ну плюс там какой-нть параметр типа доли сеошных ссылок 🙂
Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.
Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.
Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).
Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).
При чем тут определение сео-ссылок через тематичность? Оно было бы важно для геонезависимых, если бы сео-составляющая сильно ухудшала ранжирование по таким запросам, а это скорее всего не так.
Скорее всего просто сильно увеличили обучающую выборку геонезависимыми. Добавление нескольких новых факторов в обучение не приведет к росту формулы, может даже к сжатию привести, от факторов зависит.
Кстати да, любопытно, что эффективнее – обучать две формулы по разным типам запросов, или все же одну по общей базе? Теоретический ответ не очевиден, тут нужно прогонять оба варианта в реале и смотреть на итог. Две формулы быстрее обучить на меньших базах, так что может их и на самом деле две. Хотя я бы делал одну, так надежнее. 🙂
-сео-ссылки важно отделять для некоммерческих запросов, "несеошных". Связь геозависимости с коммерческостью есть явная. Коррелируют они, да 🙂
Я сомневаюсь, что у Яндекса есть отдельная классификация коммерческости запроса, а геоклассификация есть и видна. Поэтому думаю, что просто гео использовали как указатель на коммерческость.
-сомневаюсь, они вроде накапливают оценки и дело это долгое, вот так с наскоку взять и увеличить вряд ли можно )
-ну типа да, добавление еще одного параметра типа в общую кучу и все. Но, видимо, влияние параметра было сильным, и получились 2 формулы в одной, так вторая еще и в 1.5 раза больше первой )
А может, действительно, обучили для ГЗ и ГНЗ отдельно, а потом слили в одну.
Насчет скорости обучения – они как раз хвастаются, что это все быстро и тут проблем нет.
Согласен, корреляция в среднем есть, но не все так просто, величина среднего КК не очевидна. Может и не особо она большая.
И это сильно усилило качество у независимых? С чего бы?
Может и так, хотя можно было оценки тупо копить без добавления в обучалово.
Слабо верится в большое увеличение формулы при добавлении нескольких новых факторов. Могли по разному обучать, сделав две тестовые выборки для ГЗ и ГНЗ и разные факторы в обучении. При этом обучающие могли быть и общие или сильно пересекающиеся. Но все равно у мну не особо сходится в башке, как можно было увеличить качество без увеличения обучающей выборки.
Тема "Обнинска" скорее всего возникла, когда догадались померять качество отдельно по ГЗ и ГНЗ. И оно оказалось разным.
По сравнению с прошлыми методами – да. Но со временем оно падает, любопытно, на сколько.
-считаем, что ГНЗ = некоммерческий, и дальше смотрим в мадридский доклад. Я, конечно, не держал сввечку – насколько там качество повысилось.
-ну это примерно одно и то же, что "померять качество отдельно по коммерческим и некоммерческим".
Догадались, как я понимаю, еще во времена мадридского доклада )
С чего мы так считаем? Во-первых есть куча сео-накрученных ГНЗ – всякие "порно", "фильмы онлайн", "пластиковые окна москва" и т.д.. А во-вторых, если мы посмотрим глобальный сео-анкор файл, то, поверь, анкоров, соответствующих ГНЗ-запросам, там будет далеко не 5%. Как по стоимости, так и по цене. Более-менее точно посчитать будет тяжко, если анкор-файл еще можно выцепить, то спарсить много миллионов запросов уже труднее. 🙂
Я думаю, что гораздо позже. 🙂
-с того, что 1. гео и коммерческость сильно коррелируют, 2. и я думаю, что у яндекса нет отдельной классификации коммерческости (вообще же, любой запрос может стать коммерческим), а они вместо нее пользуются в данном случае гео.
-в смысле больше или меньше? а причем тут, кстати, "сео-анкор-файл" – давай посмотрим лучше в вообще глобальный анкор-файл. 🙂
А я вот думаю, что у Яндекса может тестироваться даже не один такой классификатор, а несколько. Вариантов напридумывать не очень сложно, было бы желание. 🙂
В смысле явно больше.
О, давай посмотрим! Думаешь дадут нам с тобой его в Яндексе? 😀
Где-то в башке отложилась фраза кого-то из яндексоидов о том, что размер сео-анкор файла гораздо больше 50% от глобального. Точнее не помню, склероз, типа. Потому его вполне можно изучать и шансы на такое изучения пока что видятся выше, чем на изучение глобального. 🙂
Тогда стоит торопиться, пока школоло не пронюхало про бонус с исходящих ссылок 🙂