сегодня webeffector прислал письмо, ыыы

"Рекомендации по бюджету, проверка региона и другие обновления!"
меня там удивили цифры. Они там раскрыли процент выполнения по бюджетам.
То, что у РБС называется "доля отработки", а у сеопульта "процент стояния", у них почти ОДИНАКОВОЕ с точностью до пары процентов!!!

Судя по всему, у них там ничего ни от чего не зависит.
В случае с эффектором забавно – если бюджет = рекомендованному, то отработка 61%, а если бюджет в два (2, sic!) раза выше, от отработка 65%.
Хорошая прибавка, чо 🙂

Судя по всему, во всех таких системах рулят юзеры, которые продвигают заведомо легкие запросы за заведомо большое бабло (успешно причем!). Надо срочно заводить свою автопродвигалку нах!

В подписях к графику написано (% запросов в топ10), что эффектор НЕ взвешивает запросы по конкурентности при расчете отработки, взвешивал бы – было б еще меньше… 🙂

Смешно у них там.

PS и интересно было бы смотреть взвешенную по конкурентности отработку от бюджета в цифрах.
Подозреваю, что именно такие конкурентные запросы скрываются от внешнего взгляда, ибо стыдно нах.

snippets – sitelinks в Я.ХМЛ

а между тем не только отменили релевантность в тестовом ХМЛ, но и перетащили кусочки в обычный, новый тег, перетащенный из тестового

<snippets>
<sitelinks>
<link name=”Контакты” url=”http://www.oknakomforta.ru/contacts/central-office/”>
<link name=”Расчет стоимости окна пвх” url=”http://www.oknakomforta.ru/service/calculation/”>
<link name=”Продукция” url=”http://www.oknakomforta.ru/production/”>
</sitelinks>
</snippets>

сделаю я пожалуй сервис по тестовому хмл )

Посчитал – всего пробита инфа по 42 тыс запросов и в результатах выдач встречается почти 2 млн. хостов, это примерно 1/5 яндекса по хостам.

Каждый сможет найти свой сайтег и позырить в цифру релевантности 🙂

Какие нужны фичи? поиск по каким параметрам?
Данных блин много, сорцы в архивах весят в сумме примерно 20ГБ.

ыыы, обманулово какое-то

сделали мне оценку бюджетов по примерно 2000 запросов, которые я взял с цифрами релевантности из 40 тыс. топовых.

бюджеты, конкурентность разные – от 100 рублей до 80 тыр.

корреляции ссылочного бюджета с цифиркой релевантности НЕТ НИКАКОЙ (если вычистить витальные и другие приоритетные результаты) и если не вычищать – даже наоборот: при большей взвешенной релевантности (где витальники есть и другие приоритетные) ссылочное бабло меньше. Ну, тоже логично – по витальникам продвигаться никому не надо.

Так что все с точностью до наоборот. 🙂
Я-то думал, что покуда принцип "берибольше-кидайдальше" работает, некая корреляция должна быть.
А ее нету (

***
Останется только изучать точечные случаи.
Точечные случаи –
* 4хх в реальности не витальный. И когда несколько витальных. (не знаю, есть ли такие)
* 2хх смотреть, чочо с ними. 3хх бесполезно, там по названию домена выдается. Повезло, кстати, сайту macbook.pro – за просто так в топе 🙂
* 2хх часто выдаются толпами – вся выдача забита 2хх. Смотреть за классификацию запросов.
* 0.1 убитые результаты смотреть, чо с ними
* смотреть случаи, когда релевантность группы (сгруппированного по домену) не равна релевантности первого результата (такие есть!)
* смотреть случаи полностью эквивалентных релевантностей (такие тоже есть, и для 2-3 страниц внутри группы одного домена, и между группами доменов – таких эквивалентных даже еще больше) Эквивалентность – наше всё.

уныло у них там в матрикснетах

во-первых, посоветуйте, что мне делать с напарсенной базой хмл – распродажу устроить? )

во-вторых, вот что.
яндекс все-таки уныл. уныние и ужос нах. вот
на серче пост

По запросу стоимость окон московская выдача. Выходит вот это:
http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213
Посмотрите 7ую позицию )

…смотрим 7ю позицию:

Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость
Закрыть окно.
www.vodohod.com/pages/image.php

Да! окно! и стоимость!
…нет, я бы мог снова разораться про релевантность all, но не буду пока 🙂

…гагага.
недавно Aik показывал аналогичный пример – где по запросу “аренда дизельгенераторов” нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню – кажется, в продажные ссылки вкрались )))

Таких примеров много.

Яндексоиды… в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах – приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.
***
На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов

да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на “узкий класс запросов”. Ну ищите тогда добровольцев, чо.

Которые любят бессмысленную активность.

********

Ладно, это их проблемы.
Тут еще один вопрос назрел – а вот если рассмотреть вид функций “слабых обучателей” и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.

Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень “точечные” функции.

А они, похоже, не придают значения этому – ну, считают, что любой вид функций этих слабых обучателей – одинаково рулит.
Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности – получится хуйня.

Тут отдельная тема – проверка самих себя. У них там никто не заморачивается оценкой – насколько ранжирование хорошее с точки зрения соответствия “предсказанных” моделью оценок и реальных асессорских оценок.

Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол “по примеру, по нашему образу и подобию провели”, хотя они (яндекс) реально-то никому на хуй не всрались).

И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.
И написали они презентацию, в которой написали, что “эксперты ошибаются”. 🙂
с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.

И iseg согласен, что все хорошо: “YetiRank shows that modeling uncertainty in judgments can improve model effectiveness”

Я как увидел – сразу возникла мысль, что плохому танцору яйца мешают.
Относительно чего ошибаются? Относительно их модели?

Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.
Блин, если эксперты ошибаются – меняйте экспертов, ни или там езжайте в гоа )

Просто модель очень точечная.
Предположим, я бы сделал модель, в которой вот эти самые “слабые обучатели” были… ну почти как функция дирихле ) Либо ноль, либо единица.

Удалось бы построить качественный матрикснет на таких “слабых обучателях”? Не верю в такое.
Но я-то ладно, я могу верить или нет, им это пох.
Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.

Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить – что эксперты ошибаются (эта фраза от них вообще радует – и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).

Ну и самое главное, конечно – не пытаться проверить качество модели.

И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.

И вы там это: наймите штат собиральщиков ошибок.

**
упарился писать.

сеошники – дебилы

чел кается, это он спалил… блин http://forum.searchengines.ru/showthread.php?t=523795 (дайте ему минус в репу, что ли. я уже 🙂 )
Короче, некоторое время назад в тестовом режиме ХМЛ http://xml.yandex.ru/test_query.xml появлялись интересные параметры:
1. релевантность показывалась цифрой. внутри тега relevance была цифра от 100 млн до 400+ млн (для витальных результатов). Но и меньше 100 млн были результаты – 10+ млн (по запросам типа порнухи, скачать, фильмы и вся такая тема). Я еще не разбирал результаты, это навскидку.
2. были теги geo и geoa с айди региона
3. был тег clon с айдишником, общим для всех клонов – аффилиаты
4. был тег FactorDocLen в интервале 0-1, это была целочисленная дробь вида N/255, зависела от длины (числа слов? пока не смотрел) документа.

***
ну и вообще – там многое изменилось, показывает теперь sitelinks, всякие источники описания сайта (дмоз, як), всякие темы наподобие блогов
***
уроды!
это ж цифры нам дали посмотреть, блять!
***
я сам-то скачал выдачу по топ1000 примерно 18 тыс сеорейтовских коммерческих запросов и по 26 тыс самых частотных рунетовских запросов – с цифирками, конечно.

Вот!!!

язык до Хунгари доведет

оператор lang="язык" позволяет искать по страницам с присвоенным языком. Я на этом как раз сделал различия в определялке апдейтов буржуйского и русского индекса.
Когда-то языков было шесть, и я думал, что так оно и останется:

Отбирает для поиска страницы, написанные на определенном языке:
* русском (ru)
* украинском (uk)
* белорусском (be)
* английском (en)
* французском (fr)
* немецком (de)

(цитата из копии старой страницы с языком запросов, к слову сказать: новая страница с "памяткой" по языку запросов – УГ, там нет примеров языков и примеров mime документов, а может, и еще чего-то нет).

Но таки их, языков, уже не шесть, а тридцать один. Или больше. Напротив каждого языка стоит число документов, взятое из парсинга первой тыщи результатов по 40 тыс. запросов:

ru 84613923
en 1436073
uk 101924
nl 85928
tr 42446
de 33869
it 21366
es 17899
fr 15524
be 13733
cs 9794
bg 8228
ro 7021
pl 7019
pt 4394
ca 3721
hu 3299
kk 3028
tt 2157
ka 1498
lt 1045
fi 765
lv 645
az 502
et 294
hy 148
ar 132
he 94
sr 89
ba 53
el 43

Запросы пробивались в основном русские – 20 тыс самых популярных по частотности и 18 тыс. отпарсенных из ашмановского сеорейта, тоже ничего себе популярные и в основном коммерческие.

Но тем не менее – английского языка мало, 1.7%, а в сумме число документов с нерусским языком – 2.1%. Это документы, которые встречались в выдаче при пробивке.

Конечно, если искать оператором lang="", будут другие числа, больше. Это может означать, что нерусские документы в русской выдаче давятся, что, конечно, логично.

Таки языков много. А нам и не сообщили.

буки готовятся

на серчах заметили открытие буки, и что там вылезают какие-то библиотеки, но яндексоиды поскакали и прикрыли.

Бета-версия поиска закрыта
Спасибо за тестирование. Мы постарались проанализировать все ваши отзывы и учтем их в следующих версиях.

Небось скоро покажут.
Как это за уши тягать – "показать Москву". Тут небось покажут Мадрид, или его уже показали, только никто не заметил? 🙂

ЗЫ Предсказываю, что "библиотечность" сайта будет являться одним из факторов в ранжировании.
Или не так: библиотечность, – это же типа некоммерческость. Как раз та самая мадридская тема с коммерческими и некоммерческими ссылками.
Только тут – не классификация ссылок, а классификация сайтов. Ну посмотрим.

сегодняшний апдейт

Вот сегодняшний апдейт, в который выложили документы за два дня, а изменение выдачи близко к нулю (2.6% по моим мерам) как бы говорит нам, что изменения в выдаче чиста от выкладывания новых документов – не бывают.

А бывают от пересчета параметров, а пересчета, значит, не было.

Кстати, внизу приводится взвешенное изменение выдачи по разным классам запросов, и самое приличное изменение выдачи по классу запросов "редкие никакие". 🙂
По таким запросам да, выкладывание документов – определяющий фактор. 🙂