Делаем из лимонов лимонад

Яндекс как бы преподнес пилюлю с ХМЛем.
Но под эту пилюлю я буду, наоборот, привлекать народ.
Прошу помочь сервису tools.promosite.ru подтверждением акка по мобиле
Перепост приветствуется!

***

Привет всем.
Прошу помочь сервису tools.promosite.ru – зарегистрироваться с телефоном или для уже зарегистрированных  добавить номер телефона  и разрешить подтвердить на него акк Яндекса. Акки уже есть.
Нужно при редактировании отметить галочку
разрешаю подтвердить на этот телефон аккаунт Яндекс.XML и хочу таким образом помогать сервису

***
Недавно лимиты для большой части аккаунтов подрезали до 10 штук в день.
Как я понимаю, это произошло из-за дырок в ХМЛ, о которых они знают, но найти не могут 🙂

***

Ваш дневной лимит составляет 10 запросов. Чтобы повысить свой лимит до 1000 запросов в сутки, вам необходимо подтвердить телефонный номер, который не был ранее никем подтверждён.

на один телефон удается привязать только один акк ХМЛ.
***

Снять это ограничение (увеличить число запросов до 1000) можно, если привязать аккаунт в Яндексе к мобильному телефону. Вам придет SMS с кодом от Яндекса, код вы введете на специальной странице – так вы поможете этому сервису!
Вас это никак не стеснит – наоборот, это Вы сможете контролировать тот аккаунт, с которого мы делаем запросы. Единственное: мы просим Вас не использовать этот телефон для подтверждения других XML-аккаунтов на Яндексе.
Что хорошего предлагается взамен: я обещаю давать бесплатные доступы к платным и ограниченным в использовании сервисам тогда, когда это возможно. Поскольку пока что платных сервисов нет, а ограниченные только в планах – подробнее сказать сложно.
Общий список сервисов – апдейты (всем), аффилиаты (ограничено), геобаза (большая, сейчас открыта маленькая), копание в цифрах релевантности (скрыто), переформулировки запросов (скрыто), поиск переформулировок и аффилиатов на открытых данных (сейчас нет), мониторилка параметров выдачи с расчетом средних, удобная для анализа (скрыто), копание в странных запросах из “прямого эфира” (скрыто), ну и куча других разных сервисов.
Я не обещаю полного-бесплатного-100% доступа ко всему,
но Вы поможете существованию этого сервиса и немножко попячите Яндекс! 🙂
В любом случае Вы контролируете свой телефон и сможете перепривязать его к другому аккаунту.

***
Кто хочет помочь сервису, чтобы он хорошо работал:
Прошу вбивать номер телефона – сразу я привязывать акк не буду, а когда буду (вручную, скорее всего) – Вы получите письмо от меня и SMS на телефон от яндекса.

После получения СМС нужно будет вбить на сайте tools.promosite.ru или сообщить мне письмом этот код (если письмом, то сообщить еще логин). Форму, куда вбивать, я сделаю отдельно и сообщу тем же письмом.

Ну и в благодарность сделаю какие-нибудь вип-возможности. 🙂

Кроме того, телефон можно использовать и для смс-уведомлений об апдейтах (пока этого нет, но будет).

ПОПЯЧИМ ЯНДЕКС!!!111

Перепост приветствуется и даже необходим!

Яндекс-XMLю – пипец… Лимиты снижены до 10 запросов в день.

вы уже готовились парсить выдачу? Я пока не готовился.
Но уже надо начинать. 🙁

Ваш дневной лимит составляет 10 запросов. Чтобы повысить свой лимит до 1000 запросов в сутки, вам необходимо подтвердить телефонный номер, который не был ранее никем подтверждён.

Видимо, так у всех не-вип юзверей.

***
PS. А, ну да. Я как бы знаю, что после конференции нетпромоутера они побежали искать дырку с переформулировками. Видимо, не нашли и решили это… отрубить гордиев узел 🙂 А потом, наверное, будут следить за моим акком и какие я запросы задаю 🙂

Не беспокойтесь, пацаны, я уже переформулировки выкачал, 1.3 млн.
Ну вы же знаете – я никому не скажу )))

***
PPS И да. Яндексоиды, а не хотите угроз? А то у меня есть.
Я выкачал (пробил на число сайтов, страниц, и на число выделенных найденных слов в тайтле) около 3-6 лямов запросов. Запросы с разной спрашиваемостью, не случайные.

Так вот если из этих запросов делать дорвеи, то это будет щастье. Запросы с низкой текстовой конкуренцией, незадроченные дорвейщиками, спрашиваемые. Их нашлось немеряно, процентов 10. Я еще пока не считал, сколько трафа можно выжать.
Единственное, что нетаргетированные, но порнуху или вирусы нормально будет. 🙂

Сам-то я не собирался дорвеи из них делать, но…
Так вот я ведь могу и базы выложить на скачивание, если чо.

Хотите?

xml – запросы без указания параметров user и key

http://xml.yandex.ru/stat.xml

Внимание! В скором времени запросы старого вида к http://xmlsearch.yandex.ru/xmlsearch (без указания параметров user и key) перестанут поддерживаться. Если вы используете запросы к сервису Яндекс.XML в своих скриптах или программах, измените адрес на указанный в рамке “Ваш адрес для совершения запроса”.

написали бы сразу, в каком именно времени…
Мониторют.

яндекс не борется с оптимизаторами, да?

для демонстрации аффилированности сайтов мне подсказали использовать оператор domain – выдача для него не разгруппировывалась по страницам домена.
И при использовании конструкции вида domain:site1 | domain:site2 можно было видеть оба сайта или один из них в удобном виде – по одной странице с домена.
Ну я и внедрил такой пруфлинк в сервис проверки аффилиатов – для ручной проверки пар сайтов на аффилированность, убедиться людям нужно, что данные правильные.

И вот неожиданно – оно перестало работать как раньше. Т.е. теперь оно тоже разгруппирует, и нужно копаться в большом числе страниц. Неудобно.
И ведь что интересно: сам оператор domain группирует.
domain:1pointhall – группирует по домену
domain:vchelyabinsk – группирует
Это когда по одной штуке. А если два домена через "или":
domain:vchelyabinsk | domain:1pointhall – не группирует, надо копаться в страницах.

Раньше-то они если и не объясняли, то хотя бы логика была: люди же, типа, набирая host:, наверное, хотят все страницы с домена получить? И вот вам разгруппировка тогда. Это чтобы мы подумали, что они так думают.

А сейчас – какая логика? одна штука domain – группировка есть, две штуки через или – нету.

Палки в колеса вставляете?
Ну ничо, будем юзать ХМЛ. Да и в страницах люди полазят, только нагрузят больше ))

аффилиаты (клоны) в Яндексе

копия из http://forum.searchengines.ru/showthread.php?t=526579

поиск аффилиатов – клонов по основному домену: http://tools.promosite.ru/use/clones.php

я недавно пропарсил много запросов по тестовому XML: http://blog.promosite.ru/comments.php?1264
пока вот товарищ не сказал, что он спалил: http://forum.searchengines.ru/showthread.php?t=523795

В том числе в этом тестовм ХМЛ было много прикольных данных –
1. тег <clon> с ID аффилиата
2. теги <geo> <geoa> с географией сайта
3. цифра редевантности

Я спарсил около 42 тыс. запросов (все ашмановские сеорейтовские запросы и 20+ тыс самых популярных по частотности), по каждому топ1000 результатов.
В сумме получилось почти 2 млн. разных хостов, что составляет примерно 20% от всех доменов в яндексе. Учитывая, что тут речь шла о наиболее популярных запросах, этот набор сайтов – почти все топовые популярные сайты. (у Ашманова в сеорейте подобраны разные коммерческие запросы по всем темам).

Пока что я сделал – поиск аффилиатов – клонов по основному домену.
велкам: http://tools.promosite.ru/use/clones.php
пару дней работает без ограничений, потом для использования нужно будет зарегистрироваться.
также будет АПИ для контор.

Для чего все это нужно?

Если в вам приходит потенциальный клиент, имеющий аффилированные сайты – можно в результате получить кучу проблем. Типа вы продвигаете сайт, а в топах вместо него аффилиат, который продвигает другая контора. А вашего подопечного нет и вы ничего не получите.

В любом случае полезно проверить подопытного на возможные проблемы.

В данный момент ищутся только аффилиаты по уже спарсенной базе. Но те данные уже закрыты.
Но я скоро сделаю поиск аффилиатов по полностью открытым данным. И, возможно, внедрю его в сервис.

велкам, ищите свои клоны: http://tools.promosite.ru/use/clones.php

Щито это?
аффилированные сайты – это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. Это в основном делается ручками – с учетом контактов на сайте и т.п. Это борьба Яндекса с “забиванием” топа сайтами, может быть и разными, но принадлежащими одной конторе.
Основной результат состоит в том, что по одному запросу может находиться только один аффилиат из группы (самый релевантный). Остальные (менее релевантные) вычищаются из выдачи. Причем из группы зоофилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе. Попробуйте, например, поискать лавпланет – тут еще представлена малая доля клонов.
Но аффилиация может делаться не только с помощью кривых ручек, но также и с помощью их кривых алгоритмов. 🙂
* они, аффилиаты, на то и аффилиаты, что по одному запросу показаться может только один аффилиат из группы. Поэтому логично, что все стопроцентов = полный список аффилиатов никто не определит. Т.е., есть случаи, когда я точно знаю, что аффилиаты есть, но какие именно – не знаю. Потому, что остальные аффилиаты случайно не попали в выборку.
А выборка та большая – примерно 2 млн. доменов (10% от всего яндекса по хостам), найденных по 42 тыс. поисковых запросов (топ 1000), когда был во второй раз открыт показ клонов, гео, и релевантности в цифрах. Первый раз был тут и был давно отменен.

Я скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается. И это будет платный сервис.
Откуда дровишки?
Данные из пропарсенных что-то около 2 млн доменов по 42 тыс запросов по тестовому ХМЛ, когда были открыты разные кошерные данные, как-то: география, аффилиаты, и, конечно, цифра релевантности ))
Каким образом подтвердить аффилированность?
Яндекс, сцуко, похоже борется с возможностями определения аффилиатов. И вообще со всеми возможностями.
в древние незапамятные времена определить аффилированность было просто: берешь, задаешь запрос типа host:domain1.ru | host:domain2.ru, и если в результатах видишь только один домен из двух (при этом каждый из хостов отдельно находится нормально) – перед вами аффилиаты. Т.е., по одному запросу второй аффилированный сайт вычищается из выдачи.

Но сейчас стало посложнее. Яндекс решил, что нужно разгруппировывать домены при поиске host: rhost: и тому подобное. И если раньше и в обычной выдаче модно было увидеть только один домен из двух, то теперь ты вынужден копаться в страницах внутри домена. Ну да, это чуток менее удобно, чем смотреть сразу сгруппированные данные.
Но, кстати, если у вас есть Яндекс-ХМЛ, то в нем все фишки с группировкой остались прежними. И вот тот запроос выше “пруфлинк” можно задать в яндекс-ХМЛ и волшебным образом увидеть один результат из двух аффилирванных.
А если вам лениво лазить в ХМЛ – можно просмотреть все разгруппированные страницы обоих сайтов в обычной выдаче. И операторы host, rhost, url не спасают. И, что мегазабавно: при задании оператора url: через “или” по аффилиатам находятся оба аффилиата. Это настолько они борются с определением клонов, ага ))
вот для примера топ клонов. Число num = число клонов с одинаковым ID аффилиата:
домен число клонов
balance-transfers-promotions.co.cc 11550
842-job.mnogonado.net 2073
beetteam.ucoz.ru 1061
sportzone.ru 992
megaline-file.ucoz.kz 903
izumi.podberi-tv.ru 735
rabota.dagestan.slando.ru 592
batink.webasyst.net 584
cheltools.chelyabinsk-info.ru 451
mylovein.net 394
ufa-trud.ru 384
vsekinolenty.ru 381
sanosipovka.ru 379
ussuriysk.irr.ru 376
zifalon.ru 362
shazycreep.prostoprint.com 358
adwords.google.be 355
bancat.ru 343
publiks.ru 332
tecktonik.nxt.ru 306
ehmz.opt.ru 294
nevskiy-palace.ru 293
a-frankfurt.com 250
singapore-obnovlenie.ru 231
arenda-ratlina.imotiburgas.com 226
nomer.plati.ru 206
vbangkok.ru 204
vchelyabinsk.ru 200
torgi24.vsem.ru 198
znakomstvo.kharkov-reklama.com.ua 196

snippets – sitelinks в Я.ХМЛ

а между тем не только отменили релевантность в тестовом ХМЛ, но и перетащили кусочки в обычный, новый тег, перетащенный из тестового

<snippets>
<sitelinks>
<link name=”Контакты” url=”http://www.oknakomforta.ru/contacts/central-office/”>
<link name=”Расчет стоимости окна пвх” url=”http://www.oknakomforta.ru/service/calculation/”>
<link name=”Продукция” url=”http://www.oknakomforta.ru/production/”>
</sitelinks>
</snippets>

сделаю я пожалуй сервис по тестовому хмл )

Посчитал – всего пробита инфа по 42 тыс запросов и в результатах выдач встречается почти 2 млн. хостов, это примерно 1/5 яндекса по хостам.

Каждый сможет найти свой сайтег и позырить в цифру релевантности 🙂

Какие нужны фичи? поиск по каким параметрам?
Данных блин много, сорцы в архивах весят в сумме примерно 20ГБ.

уныло у них там в матрикснетах

во-первых, посоветуйте, что мне делать с напарсенной базой хмл – распродажу устроить? )

во-вторых, вот что.
яндекс все-таки уныл. уныние и ужос нах. вот
на серче пост

По запросу стоимость окон московская выдача. Выходит вот это:
http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213
Посмотрите 7ую позицию )

…смотрим 7ю позицию:

Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость
Закрыть окно.
www.vodohod.com/pages/image.php

Да! окно! и стоимость!
…нет, я бы мог снова разораться про релевантность all, но не буду пока 🙂

…гагага.
недавно Aik показывал аналогичный пример – где по запросу “аренда дизельгенераторов” нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню – кажется, в продажные ссылки вкрались )))

Таких примеров много.

Яндексоиды… в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах – приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.
***
На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов

да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на “узкий класс запросов”. Ну ищите тогда добровольцев, чо.

Которые любят бессмысленную активность.

********

Ладно, это их проблемы.
Тут еще один вопрос назрел – а вот если рассмотреть вид функций “слабых обучателей” и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.

Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень “точечные” функции.

А они, похоже, не придают значения этому – ну, считают, что любой вид функций этих слабых обучателей – одинаково рулит.
Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности – получится хуйня.

Тут отдельная тема – проверка самих себя. У них там никто не заморачивается оценкой – насколько ранжирование хорошее с точки зрения соответствия “предсказанных” моделью оценок и реальных асессорских оценок.

Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол “по примеру, по нашему образу и подобию провели”, хотя они (яндекс) реально-то никому на хуй не всрались).

И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.
И написали они презентацию, в которой написали, что “эксперты ошибаются”. 🙂
с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.

И iseg согласен, что все хорошо: “YetiRank shows that modeling uncertainty in judgments can improve model effectiveness”

Я как увидел – сразу возникла мысль, что плохому танцору яйца мешают.
Относительно чего ошибаются? Относительно их модели?

Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.
Блин, если эксперты ошибаются – меняйте экспертов, ни или там езжайте в гоа )

Просто модель очень точечная.
Предположим, я бы сделал модель, в которой вот эти самые “слабые обучатели” были… ну почти как функция дирихле ) Либо ноль, либо единица.

Удалось бы построить качественный матрикснет на таких “слабых обучателях”? Не верю в такое.
Но я-то ладно, я могу верить или нет, им это пох.
Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.

Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить – что эксперты ошибаются (эта фраза от них вообще радует – и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).

Ну и самое главное, конечно – не пытаться проверить качество модели.

И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.

И вы там это: наймите штат собиральщиков ошибок.

**
упарился писать.

сеошники – дебилы

чел кается, это он спалил… блин http://forum.searchengines.ru/showthread.php?t=523795 (дайте ему минус в репу, что ли. я уже 🙂 )
Короче, некоторое время назад в тестовом режиме ХМЛ http://xml.yandex.ru/test_query.xml появлялись интересные параметры:
1. релевантность показывалась цифрой. внутри тега relevance была цифра от 100 млн до 400+ млн (для витальных результатов). Но и меньше 100 млн были результаты – 10+ млн (по запросам типа порнухи, скачать, фильмы и вся такая тема). Я еще не разбирал результаты, это навскидку.
2. были теги geo и geoa с айди региона
3. был тег clon с айдишником, общим для всех клонов – аффилиаты
4. был тег FactorDocLen в интервале 0-1, это была целочисленная дробь вида N/255, зависела от длины (числа слов? пока не смотрел) документа.

***
ну и вообще – там многое изменилось, показывает теперь sitelinks, всякие источники описания сайта (дмоз, як), всякие темы наподобие блогов
***
уроды!
это ж цифры нам дали посмотреть, блять!
***
я сам-то скачал выдачу по топ1000 примерно 18 тыс сеорейтовских коммерческих запросов и по 26 тыс самых частотных рунетовских запросов – с цифирками, конечно.

Вот!!!

расклейка выдачи яндекса

Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost.

товарищи яндексоиды: расклеивать страницы по запросу rhost – это неправильно и очень плохо. Если я домены по маске хочу найти – мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.