яндекс не борется с оптимизаторами, да?

для демонстрации аффилированности сайтов мне подсказали использовать оператор domain – выдача для него не разгруппировывалась по страницам домена.
И при использовании конструкции вида domain:site1 | domain:site2 можно было видеть оба сайта или один из них в удобном виде – по одной странице с домена.
Ну я и внедрил такой пруфлинк в сервис проверки аффилиатов – для ручной проверки пар сайтов на аффилированность, убедиться людям нужно, что данные правильные.

И вот неожиданно – оно перестало работать как раньше. Т.е. теперь оно тоже разгруппирует, и нужно копаться в большом числе страниц. Неудобно.
И ведь что интересно: сам оператор domain группирует.
domain:1pointhall – группирует по домену
domain:vchelyabinsk – группирует
Это когда по одной штуке. А если два домена через "или":
domain:vchelyabinsk | domain:1pointhall – не группирует, надо копаться в страницах.

Раньше-то они если и не объясняли, то хотя бы логика была: люди же, типа, набирая host:, наверное, хотят все страницы с домена получить? И вот вам разгруппировка тогда. Это чтобы мы подумали, что они так думают.

А сейчас – какая логика? одна штука domain – группировка есть, две штуки через или – нету.

Палки в колеса вставляете?
Ну ничо, будем юзать ХМЛ. Да и в страницах люди полазят, только нагрузят больше ))

как рождаются слухи )

Сеоньюс написал про сервис аффилиатов, но нужно же вставить сбоку-припёку мнение своих "специалистов", куда ж без этого? Нужно ж им профит иметь.

А специалисты – они чо? они пишут фразы:

Если мы просто предполагаем, что на сайте может быть такой фильтр, то с помощью языка запросов определить, по какому запросу, и с кем зааффилирован сайт не было возможности», – комментирует Анастасия Бадина, ведущий специалист
***
планирует «сделать определялку аффилиатов на открытых данных». Она позволит смотреть позапросно факт аффилированности, т.к. между двумя сайтами по одному запросу может быть зааффилированность, а по другому – нет

и еще вид, как будто я это утверждаю…
как будто я про аффилированность по отдельным запросам говорил!
в камментах уже начали волноваться – как же так?
Ну, сами понимаете – я такого не говорил, а "гениальный" вывод, повторенный аж два раза, сделан, как я догадываюсь, из описалова:

скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается

-во как! если я требую – значит, влияет! значит, аффилированность позапросно! 🙂
***
а список запросов нужен всего-то, чтобы легко найти сайт в выдаче, а не придумывать эти самые запросы.

ЗЫ слово "зоофилированнность" искажено ))

чо, яндексу ппц?

обхомутали?

«Яндекс» нашел Волошина
http://www.vedomosti.ru/newspaper/article/2010/07/30/242143

Председатель совета директоров «Яндекса» Альфред Феноти направил общему собранию акционеров письмо с предложением избрать в состав совета Александра Волошина — человека с «перспективным взглядом на вещи, широкими связями в деловых кругах и предыдущим опытом работы в государственных и коммерческих структурах»

Покинувший недавно совет директоров «Норильского никеля» Волошин назначен руководителем рабочей группы по созданию международного финансового центра. Он известен как человек, способный решать задачи любой сложности,

ыыы.
ну чо, гугль вполне неплох, 30% за него голосуют ногами.
Но гугель можно запретить на уровне файрволов.

аффилиаты (клоны) в Яндексе

копия из http://forum.searchengines.ru/showthread.php?t=526579

поиск аффилиатов – клонов по основному домену: http://tools.promosite.ru/use/clones.php

я недавно пропарсил много запросов по тестовому XML: http://blog.promosite.ru/comments.php?1264
пока вот товарищ не сказал, что он спалил: http://forum.searchengines.ru/showthread.php?t=523795

В том числе в этом тестовм ХМЛ было много прикольных данных –
1. тег <clon> с ID аффилиата
2. теги <geo> <geoa> с географией сайта
3. цифра редевантности

Я спарсил около 42 тыс. запросов (все ашмановские сеорейтовские запросы и 20+ тыс самых популярных по частотности), по каждому топ1000 результатов.
В сумме получилось почти 2 млн. разных хостов, что составляет примерно 20% от всех доменов в яндексе. Учитывая, что тут речь шла о наиболее популярных запросах, этот набор сайтов – почти все топовые популярные сайты. (у Ашманова в сеорейте подобраны разные коммерческие запросы по всем темам).

Пока что я сделал – поиск аффилиатов – клонов по основному домену.
велкам: http://tools.promosite.ru/use/clones.php
пару дней работает без ограничений, потом для использования нужно будет зарегистрироваться.
также будет АПИ для контор.

Для чего все это нужно?

Если в вам приходит потенциальный клиент, имеющий аффилированные сайты – можно в результате получить кучу проблем. Типа вы продвигаете сайт, а в топах вместо него аффилиат, который продвигает другая контора. А вашего подопечного нет и вы ничего не получите.

В любом случае полезно проверить подопытного на возможные проблемы.

В данный момент ищутся только аффилиаты по уже спарсенной базе. Но те данные уже закрыты.
Но я скоро сделаю поиск аффилиатов по полностью открытым данным. И, возможно, внедрю его в сервис.

велкам, ищите свои клоны: http://tools.promosite.ru/use/clones.php

Щито это?
аффилированные сайты – это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. Это в основном делается ручками – с учетом контактов на сайте и т.п. Это борьба Яндекса с “забиванием” топа сайтами, может быть и разными, но принадлежащими одной конторе.
Основной результат состоит в том, что по одному запросу может находиться только один аффилиат из группы (самый релевантный). Остальные (менее релевантные) вычищаются из выдачи. Причем из группы зоофилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе. Попробуйте, например, поискать лавпланет – тут еще представлена малая доля клонов.
Но аффилиация может делаться не только с помощью кривых ручек, но также и с помощью их кривых алгоритмов. 🙂
* они, аффилиаты, на то и аффилиаты, что по одному запросу показаться может только один аффилиат из группы. Поэтому логично, что все стопроцентов = полный список аффилиатов никто не определит. Т.е., есть случаи, когда я точно знаю, что аффилиаты есть, но какие именно – не знаю. Потому, что остальные аффилиаты случайно не попали в выборку.
А выборка та большая – примерно 2 млн. доменов (10% от всего яндекса по хостам), найденных по 42 тыс. поисковых запросов (топ 1000), когда был во второй раз открыт показ клонов, гео, и релевантности в цифрах. Первый раз был тут и был давно отменен.

Я скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается. И это будет платный сервис.
Откуда дровишки?
Данные из пропарсенных что-то около 2 млн доменов по 42 тыс запросов по тестовому ХМЛ, когда были открыты разные кошерные данные, как-то: география, аффилиаты, и, конечно, цифра релевантности ))
Каким образом подтвердить аффилированность?
Яндекс, сцуко, похоже борется с возможностями определения аффилиатов. И вообще со всеми возможностями.
в древние незапамятные времена определить аффилированность было просто: берешь, задаешь запрос типа host:domain1.ru | host:domain2.ru, и если в результатах видишь только один домен из двух (при этом каждый из хостов отдельно находится нормально) – перед вами аффилиаты. Т.е., по одному запросу второй аффилированный сайт вычищается из выдачи.

Но сейчас стало посложнее. Яндекс решил, что нужно разгруппировывать домены при поиске host: rhost: и тому подобное. И если раньше и в обычной выдаче модно было увидеть только один домен из двух, то теперь ты вынужден копаться в страницах внутри домена. Ну да, это чуток менее удобно, чем смотреть сразу сгруппированные данные.
Но, кстати, если у вас есть Яндекс-ХМЛ, то в нем все фишки с группировкой остались прежними. И вот тот запроос выше “пруфлинк” можно задать в яндекс-ХМЛ и волшебным образом увидеть один результат из двух аффилирванных.
А если вам лениво лазить в ХМЛ – можно просмотреть все разгруппированные страницы обоих сайтов в обычной выдаче. И операторы host, rhost, url не спасают. И, что мегазабавно: при задании оператора url: через “или” по аффилиатам находятся оба аффилиата. Это настолько они борются с определением клонов, ага ))
вот для примера топ клонов. Число num = число клонов с одинаковым ID аффилиата:
домен число клонов
balance-transfers-promotions.co.cc 11550
842-job.mnogonado.net 2073
beetteam.ucoz.ru 1061
sportzone.ru 992
megaline-file.ucoz.kz 903
izumi.podberi-tv.ru 735
rabota.dagestan.slando.ru 592
batink.webasyst.net 584
cheltools.chelyabinsk-info.ru 451
mylovein.net 394
ufa-trud.ru 384
vsekinolenty.ru 381
sanosipovka.ru 379
ussuriysk.irr.ru 376
zifalon.ru 362
shazycreep.prostoprint.com 358
adwords.google.be 355
bancat.ru 343
publiks.ru 332
tecktonik.nxt.ru 306
ehmz.opt.ru 294
nevskiy-palace.ru 293
a-frankfurt.com 250
singapore-obnovlenie.ru 231
arenda-ratlina.imotiburgas.com 226
nomer.plati.ru 206
vbangkok.ru 204
vchelyabinsk.ru 200
torgi24.vsem.ru 198
znakomstvo.kharkov-reklama.com.ua 196

сегодня webeffector прислал письмо, ыыы

"Рекомендации по бюджету, проверка региона и другие обновления!"
меня там удивили цифры. Они там раскрыли процент выполнения по бюджетам.
То, что у РБС называется "доля отработки", а у сеопульта "процент стояния", у них почти ОДИНАКОВОЕ с точностью до пары процентов!!!

Судя по всему, у них там ничего ни от чего не зависит.
В случае с эффектором забавно – если бюджет = рекомендованному, то отработка 61%, а если бюджет в два (2, sic!) раза выше, от отработка 65%.
Хорошая прибавка, чо 🙂

Судя по всему, во всех таких системах рулят юзеры, которые продвигают заведомо легкие запросы за заведомо большое бабло (успешно причем!). Надо срочно заводить свою автопродвигалку нах!

В подписях к графику написано (% запросов в топ10), что эффектор НЕ взвешивает запросы по конкурентности при расчете отработки, взвешивал бы – было б еще меньше… 🙂

Смешно у них там.

PS и интересно было бы смотреть взвешенную по конкурентности отработку от бюджета в цифрах.
Подозреваю, что именно такие конкурентные запросы скрываются от внешнего взгляда, ибо стыдно нах.

snippets – sitelinks в Я.ХМЛ

а между тем не только отменили релевантность в тестовом ХМЛ, но и перетащили кусочки в обычный, новый тег, перетащенный из тестового

<snippets>
<sitelinks>
<link name=”Контакты” url=”http://www.oknakomforta.ru/contacts/central-office/”>
<link name=”Расчет стоимости окна пвх” url=”http://www.oknakomforta.ru/service/calculation/”>
<link name=”Продукция” url=”http://www.oknakomforta.ru/production/”>
</sitelinks>
</snippets>

сделаю я пожалуй сервис по тестовому хмл )

Посчитал – всего пробита инфа по 42 тыс запросов и в результатах выдач встречается почти 2 млн. хостов, это примерно 1/5 яндекса по хостам.

Каждый сможет найти свой сайтег и позырить в цифру релевантности 🙂

Какие нужны фичи? поиск по каким параметрам?
Данных блин много, сорцы в архивах весят в сумме примерно 20ГБ.

ыыы, обманулово какое-то

сделали мне оценку бюджетов по примерно 2000 запросов, которые я взял с цифрами релевантности из 40 тыс. топовых.

бюджеты, конкурентность разные – от 100 рублей до 80 тыр.

корреляции ссылочного бюджета с цифиркой релевантности НЕТ НИКАКОЙ (если вычистить витальные и другие приоритетные результаты) и если не вычищать – даже наоборот: при большей взвешенной релевантности (где витальники есть и другие приоритетные) ссылочное бабло меньше. Ну, тоже логично – по витальникам продвигаться никому не надо.

Так что все с точностью до наоборот. 🙂
Я-то думал, что покуда принцип "берибольше-кидайдальше" работает, некая корреляция должна быть.
А ее нету (

***
Останется только изучать точечные случаи.
Точечные случаи –
* 4хх в реальности не витальный. И когда несколько витальных. (не знаю, есть ли такие)
* 2хх смотреть, чочо с ними. 3хх бесполезно, там по названию домена выдается. Повезло, кстати, сайту macbook.pro – за просто так в топе 🙂
* 2хх часто выдаются толпами – вся выдача забита 2хх. Смотреть за классификацию запросов.
* 0.1 убитые результаты смотреть, чо с ними
* смотреть случаи, когда релевантность группы (сгруппированного по домену) не равна релевантности первого результата (такие есть!)
* смотреть случаи полностью эквивалентных релевантностей (такие тоже есть, и для 2-3 страниц внутри группы одного домена, и между группами доменов – таких эквивалентных даже еще больше) Эквивалентность – наше всё.

уныло у них там в матрикснетах

во-первых, посоветуйте, что мне делать с напарсенной базой хмл – распродажу устроить? )

во-вторых, вот что.
яндекс все-таки уныл. уныние и ужос нах. вот
на серче пост

По запросу стоимость окон московская выдача. Выходит вот это:
http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213
Посмотрите 7ую позицию )

…смотрим 7ю позицию:

Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость
Закрыть окно.
www.vodohod.com/pages/image.php

Да! окно! и стоимость!
…нет, я бы мог снова разораться про релевантность all, но не буду пока 🙂

…гагага.
недавно Aik показывал аналогичный пример – где по запросу “аренда дизельгенераторов” нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню – кажется, в продажные ссылки вкрались )))

Таких примеров много.

Яндексоиды… в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах – приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.
***
На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов

да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на “узкий класс запросов”. Ну ищите тогда добровольцев, чо.

Которые любят бессмысленную активность.

********

Ладно, это их проблемы.
Тут еще один вопрос назрел – а вот если рассмотреть вид функций “слабых обучателей” и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.

Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень “точечные” функции.

А они, похоже, не придают значения этому – ну, считают, что любой вид функций этих слабых обучателей – одинаково рулит.
Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности – получится хуйня.

Тут отдельная тема – проверка самих себя. У них там никто не заморачивается оценкой – насколько ранжирование хорошее с точки зрения соответствия “предсказанных” моделью оценок и реальных асессорских оценок.

Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол “по примеру, по нашему образу и подобию провели”, хотя они (яндекс) реально-то никому на хуй не всрались).

И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.
И написали они презентацию, в которой написали, что “эксперты ошибаются”. 🙂
с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.

И iseg согласен, что все хорошо: “YetiRank shows that modeling uncertainty in judgments can improve model effectiveness”

Я как увидел – сразу возникла мысль, что плохому танцору яйца мешают.
Относительно чего ошибаются? Относительно их модели?

Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.
Блин, если эксперты ошибаются – меняйте экспертов, ни или там езжайте в гоа )

Просто модель очень точечная.
Предположим, я бы сделал модель, в которой вот эти самые “слабые обучатели” были… ну почти как функция дирихле ) Либо ноль, либо единица.

Удалось бы построить качественный матрикснет на таких “слабых обучателях”? Не верю в такое.
Но я-то ладно, я могу верить или нет, им это пох.
Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.

Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить – что эксперты ошибаются (эта фраза от них вообще радует – и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).

Ну и самое главное, конечно – не пытаться проверить качество модели.

И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.

И вы там это: наймите штат собиральщиков ошибок.

**
упарился писать.