обнинск по России

завтра посмотрим, чо там с изменениями выдачи 🙂
«Обнинск» — новое ранжирование для гео-независимых запросов в России
1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.
2. "формула разрослась в два раза со 120 мб до 280 мб" – сперва я подумал, что не обошлось введением еще одного параметра типа "доля сеошных ссылок". Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.
Ну плюс там какой-нть параметр типа доли сеошных ссылок 🙂

Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

обнинск по России: 8 комментариев

G00DMAN:

14.09.2010 в 03:40

1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.

При чем тут определение сео-ссылок через тематичность? Оно было бы важно для геонезависимых, если бы сео-составляющая сильно ухудшала ранжирование по таким запросам, а это скорее всего не так.

Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.

Скорее всего просто сильно увеличили обучающую выборку геонезависимыми. Добавление нескольких новых факторов в обучение не приведет к росту формулы, может даже к сжатию привести, от факторов зависит.

Кстати да, любопытно, что эффективнее – обучать две формулы по разным типам запросов, или все же одну по общей базе? Теоретический ответ не очевиден, тут нужно прогонять оба варианта в реале и смотреть на итог. Две формулы быстрее обучить на меньших базах, так что может их и на самом деле две. Хотя я бы делал одну, так надежнее. 🙂
Евгений Трофименко:

14.09.2010 в 09:39

При чем тут определение сео-ссылок через тематичность? Оно было бы важно для геонезависимых, если бы сео-составляющая сильно ухудшала ранжирование по таким запросам, а это скорее всего не так.

-сео-ссылки важно отделять для некоммерческих запросов, "несеошных". Связь геозависимости с коммерческостью есть явная. Коррелируют они, да 🙂
Я сомневаюсь, что у Яндекса есть отдельная классификация коммерческости запроса, а геоклассификация есть и видна. Поэтому думаю, что просто гео использовали как указатель на коммерческость.

Скорее всего просто сильно увеличили обучающую выборку геонезависимыми.

-сомневаюсь, они вроде накапливают оценки и дело это долгое, вот так с наскоку взять и увеличить вряд ли можно )

Добавление нескольких новых факторов в обучение не приведет к росту формулы, может даже к сжатию привести, от факторов зависит.
Кстати да, любопытно, что эффективнее – обучать две формулы по разным типам запросов, или все же одну по общей базе?

-ну типа да, добавление еще одного параметра типа в общую кучу и все. Но, видимо, влияние параметра было сильным, и получились 2 формулы в одной, так вторая еще и в 1.5 раза больше первой )
А может, действительно, обучили для ГЗ и ГНЗ отдельно, а потом слили в одну.

Насчет скорости обучения – они как раз хвастаются, что это все быстро и тут проблем нет.
G00DMAN:

14.09.2010 в 12:20

-сео-ссылки важно отделять для некоммерческих запросов, "несеошных". Связь геозависимости с коммерческостью есть явная. Коррелируют они, да 🙂

Согласен, корреляция в среднем есть, но не все так просто, величина среднего КК не очевидна. Может и не особо она большая.

Я сомневаюсь, что у Яндекса есть отдельная классификация коммерческости запроса, а геоклассификация есть и видна. Поэтому думаю, что просто гео использовали как указатель на коммерческость.

И это сильно усилило качество у независимых? С чего бы?

Скорее всего просто сильно увеличили обучающую выборку геонезависимыми.

-сомневаюсь, они вроде накапливают оценки и дело это долгое, вот так с наскоку взять и увеличить вряд ли можно )

Может и так, хотя можно было оценки тупо копить без добавления в обучалово.

-ну типа да, добавление еще одного параметра типа в общую кучу и все. Но, видимо, влияние параметра было сильным, и получились 2 формулы в одной, так вторая еще и в 1.5 раза больше первой )
А может, действительно, обучили для ГЗ и ГНЗ отдельно, а потом слили в одну.

Слабо верится в большое увеличение формулы при добавлении нескольких новых факторов. Могли по разному обучать, сделав две тестовые выборки для ГЗ и ГНЗ и разные факторы в обучении. При этом обучающие могли быть и общие или сильно пересекающиеся. Но все равно у мну не особо сходится в башке, как можно было увеличить качество без увеличения обучающей выборки.

Тема "Обнинска" скорее всего возникла, когда догадались померять качество отдельно по ГЗ и ГНЗ. И оно оказалось разным.

Насчет скорости обучения – они как раз хвастаются, что это все быстро и тут проблем нет.

По сравнению с прошлыми методами – да. Но со временем оно падает, любопытно, на сколько.
Евгений Трофименко:

14.09.2010 в 12:39

И это сильно усилило качество у независимых? С чего бы?

-считаем, что ГНЗ = некоммерческий, и дальше смотрим в мадридский доклад. Я, конечно, не держал сввечку – насколько там качество повысилось.

Тема "Обнинска" скорее всего возникла, когда догадались померять качество отдельно по ГЗ и ГНЗ. И оно оказалось разным

-ну это примерно одно и то же, что "померять качество отдельно по коммерческим и некоммерческим".
Догадались, как я понимаю, еще во времена мадридского доклада )
G00DMAN:

14.09.2010 в 13:35

-считаем, что ГНЗ = некоммерческий, и дальше смотрим в мадридский доклад. Я, конечно, не держал сввечку – насколько там качество повысилось.

С чего мы так считаем? Во-первых есть куча сео-накрученных ГНЗ – всякие "порно", "фильмы онлайн", "пластиковые окна москва" и т.д.. А во-вторых, если мы посмотрим глобальный сео-анкор файл, то, поверь, анкоров, соответствующих ГНЗ-запросам, там будет далеко не 5%. Как по стоимости, так и по цене. Более-менее точно посчитать будет тяжко, если анкор-файл еще можно выцепить, то спарсить много миллионов запросов уже труднее. 🙂

Догадались, как я понимаю, еще во времена мадридского доклада )

Я думаю, что гораздо позже. 🙂
Евгений Трофименко:

15.09.2010 в 13:55

С чего мы так считаем?

-с того, что 1. гео и коммерческость сильно коррелируют, 2. и я думаю, что у яндекса нет отдельной классификации коммерческости (вообще же, любой запрос может стать коммерческим), а они вместо нее пользуются в данном случае гео.

во-вторых, если мы посмотрим глобальный сео-анкор файл, то, поверь, анкоров, соответствующих ГНЗ-запросам, там будет далеко не 5%. Как по стоимости, так и по цене.

-в смысле больше или меньше? а причем тут, кстати, "сео-анкор-файл" – давай посмотрим лучше в вообще глобальный анкор-файл. 🙂
G00DMAN:

15.09.2010 в 16:47

-с того, что 1. гео и коммерческость сильно коррелируют, 2. и я думаю, что у яндекса нет отдельной классификации коммерческости (вообще же, любой запрос может стать коммерческим), а они вместо нее пользуются в данном случае гео.

А я вот думаю, что у Яндекса может тестироваться даже не один такой классификатор, а несколько. Вариантов напридумывать не очень сложно, было бы желание. 🙂

-в смысле больше или меньше?

В смысле явно больше.

а причем тут, кстати, "сео-анкор-файл" – давай посмотрим лучше в вообще глобальный анкор-файл. 🙂

О, давай посмотрим! Думаешь дадут нам с тобой его в Яндексе? 😀

Где-то в башке отложилась фраза кого-то из яндексоидов о том, что размер сео-анкор файла гораздо больше 50% от глобального. Точнее не помню, склероз, типа. Потому его вполне можно изучать и шансы на такое изучения пока что видятся выше, чем на изучение глобального. 🙂
dima5ty:

15.09.2010 в 22:21

Потому его вполне можно изучать и шансы на такое изучения пока что видятся выше, чем на изучение глобального. 🙂

Тогда стоит торопиться, пока школоло не пронюхало про бонус с исходящих ссылок 🙂

Комментарии запрещены.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31