обнинск по России

завтра посмотрим, чо там с изменениями выдачи 🙂
«Обнинск» — новое ранжирование для гео-независимых запросов в России
1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.
2. "формула разрослась в два раза со 120 мб до 280 мб" – сперва я подумал, что не обошлось введением еще одного параметра типа "доля сеошных ссылок". Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.
Ну плюс там какой-нть параметр типа доли сеошных ссылок 🙂

Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

правильный график с запросами

По вертикальной оси – сколько раз запрос попал в базу, ~частотности
По горизонтальной – номер запроса при упорядочении по убыванию.
Без морфологии, первая тысяча

На частотных запросах (начало графика, первые 50) отклонения вниз от прямой (прямая должна была бы быть Зипфом, но степень не -1, а -0.7).
Т.е. частотные запросы спрашивают меньше, чем должны были бы по Зипфу.

Если аппроксимацию нарисовать по номерам от 50 до 1000, то все равно не Зипф, степень -0.75:

кстати, для частотности запросов

по горизонтальной оси – сколько раз встретился запрос в базе (уникальность).
по вертикальной – сколько таких запросов было.

Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.

задачка про вероятности

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.
И накопилось около 40 млн. уникальных запросов.
Из которых только 10 млн. запросов попали в базу 2 и больше раза.
Из которых 4.7 млн. запросов попали в базу 3 и больше раза
Из которых 3.3 млн. запросов попали в базу 4 и больше раза
и т.д.
Очевидно, что те запросы, которые попали в базу один раз – не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться – но узнать это можно только потом.
Но и те запросы, которые попали в базу пару раз – не очень хорошо соответствуют вордстату.
Те, которые три раза – получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.
***
И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.
***
И думаю: может, задача-то стандартная и уже давно решена?

+апы геопривязки в tools.promosite.ru = апдейт апометра

Изменения в апометре:

1. сменил название: загадочный “метод комдира” на понятный “апдейт сохраненки”. 🙂

2. добавил апдейты гео.
Как определяется – есть набор регионов, по региону ищем разные запросы (типа domain, rhost – для уменьшения числа найденных сайтов до 1-20 тыс., чтобы прюнинг не находил “много”, а находил поточнее). По каждому региону ищем с параметром rstr.

===немножко стран:
Россия
Общероссийские
Украина
Беларусь
США
Европа

===и немножко городов:
Москва
Санкт-Петербург
Екатеринбург
Челябинск
Владивосток

И (сюрприз!) в районе 4-5 утра число найденных страниц прилично меняется, приличным я считаю изменение на 1% и изменение по 3 регионам из 11. Я отмечаю это в апометре как “апдейт геопривязки”.

Начал собирать данные раз в 10 минут с начала июля, а сейчас воткнул в апометр.

К тому же (сюрприз!) больше половины происшедших за то время “изменений без выкладывания индекса” происходили из-за (вместе с) изменения в геопривязке (ну, без выкладывания индекса, ессно) – http://tools.promosite.ru/updates/
А из оставшейся половины еще несколько случаев, когда число геопривязанных страниц меняется в 16-20 вечера одного дня, а на другой день я пробиваю утром и вижу изменение выдачи. Это те случаи, когда на серче начинаются крики про апдейт вечером, и что сеопульт показывает шторм 🙂

Общее число геопривязанных страниц не всегда увеличивается, часто и уменьшается тоже. Конечно, привязываются сайты, просто на страницах изменения лучше видны.

И вопросы – какую стату еще выводить? например, можно по отдельным регионам из перечисленных писать, чо как поменялось.

Изменение числа страниц считается так – новое число страниц делим на старое по каждому региону, из полученных 11 чисел берем среднее геометрическое. Абсолютное изменение – это когда одно их 11 отношений меньше 1, берем вместо него 1/x.

PS грядут другие апдейты апометра.

PPS еще один сюрприз – за это время был один случай, когда геопривязку откатили обратно, числа вернулись, я его удалил, но все может повторяться.

переделал пруфлинки в просмотре аффилиатов

поскольку (в целях борьбы?) отменили группировку для нескольких domain я в сервисе аффилиатов переделал пруфлинки с domain на просто поиск домена.

Сейчас я использую ту фичу, что по запросу вида domain.ru всегда первым выдается сайт domain.ru (у него и цифра релевантности существенно выше была при таких запросах), и то же самое при перечислении нескольких через "или" – искомые сайты сверху.

В выдаче по запросу domain1.ru | domain2.ru на первых двух будут эти сайты, если они не аффилированы. Если они аффилированы – на 1-2 местах останется только один сайт из двух. Перед использованием не мешает проверить нахождение двух доменов по отдельности.
__
PS что, яндексоиды, будете корячить выдачу дальше? и вкусно причмокивайте.

яндекс не борется с оптимизаторами, да?

для демонстрации аффилированности сайтов мне подсказали использовать оператор domain – выдача для него не разгруппировывалась по страницам домена.
И при использовании конструкции вида domain:site1 | domain:site2 можно было видеть оба сайта или один из них в удобном виде – по одной странице с домена.
Ну я и внедрил такой пруфлинк в сервис проверки аффилиатов – для ручной проверки пар сайтов на аффилированность, убедиться людям нужно, что данные правильные.

И вот неожиданно – оно перестало работать как раньше. Т.е. теперь оно тоже разгруппирует, и нужно копаться в большом числе страниц. Неудобно.
И ведь что интересно: сам оператор domain группирует.
domain:1pointhall – группирует по домену
domain:vchelyabinsk – группирует
Это когда по одной штуке. А если два домена через "или":
domain:vchelyabinsk | domain:1pointhall – не группирует, надо копаться в страницах.

Раньше-то они если и не объясняли, то хотя бы логика была: люди же, типа, набирая host:, наверное, хотят все страницы с домена получить? И вот вам разгруппировка тогда. Это чтобы мы подумали, что они так думают.

А сейчас – какая логика? одна штука domain – группировка есть, две штуки через или – нету.

Палки в колеса вставляете?
Ну ничо, будем юзать ХМЛ. Да и в страницах люди полазят, только нагрузят больше ))

как рождаются слухи )

Сеоньюс написал про сервис аффилиатов, но нужно же вставить сбоку-припёку мнение своих "специалистов", куда ж без этого? Нужно ж им профит иметь.

А специалисты – они чо? они пишут фразы:

Если мы просто предполагаем, что на сайте может быть такой фильтр, то с помощью языка запросов определить, по какому запросу, и с кем зааффилирован сайт не было возможности», – комментирует Анастасия Бадина, ведущий специалист
***
планирует «сделать определялку аффилиатов на открытых данных». Она позволит смотреть позапросно факт аффилированности, т.к. между двумя сайтами по одному запросу может быть зааффилированность, а по другому – нет

и еще вид, как будто я это утверждаю…
как будто я про аффилированность по отдельным запросам говорил!
в камментах уже начали волноваться – как же так?
Ну, сами понимаете – я такого не говорил, а "гениальный" вывод, повторенный аж два раза, сделан, как я догадываюсь, из описалова:

скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается

-во как! если я требую – значит, влияет! значит, аффилированность позапросно! 🙂
***
а список запросов нужен всего-то, чтобы легко найти сайт в выдаче, а не придумывать эти самые запросы.

ЗЫ слово "зоофилированнность" искажено ))

чо, яндексу ппц?

обхомутали?

«Яндекс» нашел Волошина
http://www.vedomosti.ru/newspaper/article/2010/07/30/242143

Председатель совета директоров «Яндекса» Альфред Феноти направил общему собранию акционеров письмо с предложением избрать в состав совета Александра Волошина — человека с «перспективным взглядом на вещи, широкими связями в деловых кругах и предыдущим опытом работы в государственных и коммерческих структурах»

Покинувший недавно совет директоров «Норильского никеля» Волошин назначен руководителем рабочей группы по созданию международного финансового центра. Он известен как человек, способный решать задачи любой сложности,

ыыы.
ну чо, гугль вполне неплох, 30% за него голосуют ногами.
Но гугель можно запретить на уровне файрволов.

аффилиаты (клоны) в Яндексе

копия из http://forum.searchengines.ru/showthread.php?t=526579

поиск аффилиатов – клонов по основному домену: http://tools.promosite.ru/use/clones.php

я недавно пропарсил много запросов по тестовому XML: http://blog.promosite.ru/comments.php?1264
пока вот товарищ не сказал, что он спалил: http://forum.searchengines.ru/showthread.php?t=523795

В том числе в этом тестовм ХМЛ было много прикольных данных –
1. тег <clon> с ID аффилиата
2. теги <geo> <geoa> с географией сайта
3. цифра редевантности

Я спарсил около 42 тыс. запросов (все ашмановские сеорейтовские запросы и 20+ тыс самых популярных по частотности), по каждому топ1000 результатов.
В сумме получилось почти 2 млн. разных хостов, что составляет примерно 20% от всех доменов в яндексе. Учитывая, что тут речь шла о наиболее популярных запросах, этот набор сайтов – почти все топовые популярные сайты. (у Ашманова в сеорейте подобраны разные коммерческие запросы по всем темам).

Пока что я сделал – поиск аффилиатов – клонов по основному домену.
велкам: http://tools.promosite.ru/use/clones.php
пару дней работает без ограничений, потом для использования нужно будет зарегистрироваться.
также будет АПИ для контор.

Для чего все это нужно?

Если в вам приходит потенциальный клиент, имеющий аффилированные сайты – можно в результате получить кучу проблем. Типа вы продвигаете сайт, а в топах вместо него аффилиат, который продвигает другая контора. А вашего подопечного нет и вы ничего не получите.

В любом случае полезно проверить подопытного на возможные проблемы.

В данный момент ищутся только аффилиаты по уже спарсенной базе. Но те данные уже закрыты.
Но я скоро сделаю поиск аффилиатов по полностью открытым данным. И, возможно, внедрю его в сервис.

велкам, ищите свои клоны: http://tools.promosite.ru/use/clones.php

Щито это?
аффилированные сайты – это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. Это в основном делается ручками – с учетом контактов на сайте и т.п. Это борьба Яндекса с “забиванием” топа сайтами, может быть и разными, но принадлежащими одной конторе.
Основной результат состоит в том, что по одному запросу может находиться только один аффилиат из группы (самый релевантный). Остальные (менее релевантные) вычищаются из выдачи. Причем из группы зоофилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе. Попробуйте, например, поискать лавпланет – тут еще представлена малая доля клонов.
Но аффилиация может делаться не только с помощью кривых ручек, но также и с помощью их кривых алгоритмов. 🙂
* они, аффилиаты, на то и аффилиаты, что по одному запросу показаться может только один аффилиат из группы. Поэтому логично, что все стопроцентов = полный список аффилиатов никто не определит. Т.е., есть случаи, когда я точно знаю, что аффилиаты есть, но какие именно – не знаю. Потому, что остальные аффилиаты случайно не попали в выборку.
А выборка та большая – примерно 2 млн. доменов (10% от всего яндекса по хостам), найденных по 42 тыс. поисковых запросов (топ 1000), когда был во второй раз открыт показ клонов, гео, и релевантности в цифрах. Первый раз был тут и был давно отменен.

Я скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается. И это будет платный сервис.
Откуда дровишки?
Данные из пропарсенных что-то около 2 млн доменов по 42 тыс запросов по тестовому ХМЛ, когда были открыты разные кошерные данные, как-то: география, аффилиаты, и, конечно, цифра релевантности ))
Каким образом подтвердить аффилированность?
Яндекс, сцуко, похоже борется с возможностями определения аффилиатов. И вообще со всеми возможностями.
в древние незапамятные времена определить аффилированность было просто: берешь, задаешь запрос типа host:domain1.ru | host:domain2.ru, и если в результатах видишь только один домен из двух (при этом каждый из хостов отдельно находится нормально) – перед вами аффилиаты. Т.е., по одному запросу второй аффилированный сайт вычищается из выдачи.

Но сейчас стало посложнее. Яндекс решил, что нужно разгруппировывать домены при поиске host: rhost: и тому подобное. И если раньше и в обычной выдаче модно было увидеть только один домен из двух, то теперь ты вынужден копаться в страницах внутри домена. Ну да, это чуток менее удобно, чем смотреть сразу сгруппированные данные.
Но, кстати, если у вас есть Яндекс-ХМЛ, то в нем все фишки с группировкой остались прежними. И вот тот запроос выше “пруфлинк” можно задать в яндекс-ХМЛ и волшебным образом увидеть один результат из двух аффилирванных.
А если вам лениво лазить в ХМЛ – можно просмотреть все разгруппированные страницы обоих сайтов в обычной выдаче. И операторы host, rhost, url не спасают. И, что мегазабавно: при задании оператора url: через “или” по аффилиатам находятся оба аффилиата. Это настолько они борются с определением клонов, ага ))
вот для примера топ клонов. Число num = число клонов с одинаковым ID аффилиата:
домен число клонов
balance-transfers-promotions.co.cc 11550
842-job.mnogonado.net 2073
beetteam.ucoz.ru 1061
sportzone.ru 992
megaline-file.ucoz.kz 903
izumi.podberi-tv.ru 735
rabota.dagestan.slando.ru 592
batink.webasyst.net 584
cheltools.chelyabinsk-info.ru 451
mylovein.net 394
ufa-trud.ru 384
vsekinolenty.ru 381
sanosipovka.ru 379
ussuriysk.irr.ru 376
zifalon.ru 362
shazycreep.prostoprint.com 358
adwords.google.be 355
bancat.ru 343
publiks.ru 332
tecktonik.nxt.ru 306
ehmz.opt.ru 294
nevskiy-palace.ru 293
a-frankfurt.com 250
singapore-obnovlenie.ru 231
arenda-ratlina.imotiburgas.com 226
nomer.plati.ru 206
vbangkok.ru 204
vchelyabinsk.ru 200
torgi24.vsem.ru 198
znakomstvo.kharkov-reklama.com.ua 196