копия из http://forum.searchengines.ru/showthread.php?t=526579
поиск аффилиатов – клонов по основному домену: http://tools.promosite.ru/use/clones.php
я недавно пропарсил много запросов по тестовому XML: http://blog.promosite.ru/comments.php?1264
пока вот товарищ не сказал, что он спалил: http://forum.searchengines.ru/showthread.php?t=523795
В том числе в этом тестовм ХМЛ было много прикольных данных –
1. тег <clon> с ID аффилиата
2. теги <geo> <geoa> с географией сайта
3. цифра редевантности
Я спарсил около 42 тыс. запросов (все ашмановские сеорейтовские запросы и 20+ тыс самых популярных по частотности), по каждому топ1000 результатов.
В сумме получилось почти 2 млн. разных хостов, что составляет примерно 20% от всех доменов в яндексе. Учитывая, что тут речь шла о наиболее популярных запросах, этот набор сайтов – почти все топовые популярные сайты. (у Ашманова в сеорейте подобраны разные коммерческие запросы по всем темам).
Пока что я сделал – поиск аффилиатов – клонов по основному домену.
велкам: http://tools.promosite.ru/use/clones.php
пару дней работает без ограничений, потом для использования нужно будет зарегистрироваться.
также будет АПИ для контор.
Для чего все это нужно?
Если в вам приходит потенциальный клиент, имеющий аффилированные сайты – можно в результате получить кучу проблем. Типа вы продвигаете сайт, а в топах вместо него аффилиат, который продвигает другая контора. А вашего подопечного нет и вы ничего не получите.
В любом случае полезно проверить подопытного на возможные проблемы.
В данный момент ищутся только аффилиаты по уже спарсенной базе. Но те данные уже закрыты.
Но я скоро сделаю поиск аффилиатов по полностью открытым данным. И, возможно, внедрю его в сервис.
велкам, ищите свои клоны: http://tools.promosite.ru/use/clones.php
Щито это?
аффилированные сайты – это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. Это в основном делается ручками – с учетом контактов на сайте и т.п. Это борьба Яндекса с “забиванием” топа сайтами, может быть и разными, но принадлежащими одной конторе.
Основной результат состоит в том, что по одному запросу может находиться только один аффилиат из группы (самый релевантный). Остальные (менее релевантные) вычищаются из выдачи. Причем из группы зоофилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе. Попробуйте, например, поискать лавпланет – тут еще представлена малая доля клонов.
Но аффилиация может делаться не только с помощью кривых ручек, но также и с помощью их кривых алгоритмов. 🙂
* они, аффилиаты, на то и аффилиаты, что по одному запросу показаться может только один аффилиат из группы. Поэтому логично, что все стопроцентов = полный список аффилиатов никто не определит. Т.е., есть случаи, когда я точно знаю, что аффилиаты есть, но какие именно – не знаю. Потому, что остальные аффилиаты случайно не попали в выборку.
А выборка та большая – примерно 2 млн. доменов (10% от всего яндекса по хостам), найденных по 42 тыс. поисковых запросов (топ 1000), когда был во второй раз открыт показ клонов, гео, и релевантности в цифрах. Первый раз был тут и был давно отменен.
Я скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается. И это будет платный сервис.
Откуда дровишки?
Данные из пропарсенных что-то около 2 млн доменов по 42 тыс запросов по тестовому ХМЛ, когда были открыты разные кошерные данные, как-то: география, аффилиаты, и, конечно, цифра релевантности ))
Каким образом подтвердить аффилированность?
Яндекс, сцуко, похоже борется с возможностями определения аффилиатов. И вообще со всеми возможностями.
в древние незапамятные времена определить аффилированность было просто: берешь, задаешь запрос типа host:domain1.ru | host:domain2.ru, и если в результатах видишь только один домен из двух (при этом каждый из хостов отдельно находится нормально) – перед вами аффилиаты. Т.е., по одному запросу второй аффилированный сайт вычищается из выдачи.
Но сейчас стало посложнее. Яндекс решил, что нужно разгруппировывать домены при поиске host: rhost: и тому подобное. И если раньше и в обычной выдаче модно было увидеть только один домен из двух, то теперь ты вынужден копаться в страницах внутри домена. Ну да, это чуток менее удобно, чем смотреть сразу сгруппированные данные.
Но, кстати, если у вас есть Яндекс-ХМЛ, то в нем все фишки с группировкой остались прежними. И вот тот запроос выше “пруфлинк” можно задать в яндекс-ХМЛ и волшебным образом увидеть один результат из двух аффилирванных.
А если вам лениво лазить в ХМЛ – можно просмотреть все разгруппированные страницы обоих сайтов в обычной выдаче. И операторы host, rhost, url не спасают. И, что мегазабавно: при задании оператора url: через “или” по аффилиатам находятся оба аффилиата. Это настолько они борются с определением клонов, ага ))
вот для примера топ клонов. Число num = число клонов с одинаковым ID аффилиата:
домен число клонов
balance-transfers-promotions.co.cc 11550
842-job.mnogonado.net 2073
beetteam.ucoz.ru 1061
sportzone.ru 992
megaline-file.ucoz.kz 903
izumi.podberi-tv.ru 735
rabota.dagestan.slando.ru 592
batink.webasyst.net 584
cheltools.chelyabinsk-info.ru 451
mylovein.net 394
ufa-trud.ru 384
vsekinolenty.ru 381
sanosipovka.ru 379
ussuriysk.irr.ru 376
zifalon.ru 362
shazycreep.prostoprint.com 358
adwords.google.be 355
bancat.ru 343
publiks.ru 332
tecktonik.nxt.ru 306
ehmz.opt.ru 294
nevskiy-palace.ru 293
a-frankfurt.com 250
singapore-obnovlenie.ru 231
arenda-ratlina.imotiburgas.com 226
nomer.plati.ru 206
vbangkok.ru 204
vchelyabinsk.ru 200
torgi24.vsem.ru 198
znakomstvo.kharkov-reklama.com.ua 196