XML: новейшие поломки и отключения операторов

Сегодня, кстати, был ссылочный апдейт, который апометр не увидел из-за того, что Яндекс коварно сломал оператор url и вместе с ним host, rhost в XML.

т.е., из выдачи они работают, а из ХМЛ – нет, выдают только обвязку (типа найдено столько-то результатов), а самих результатов не выдают.
Что смешно – в основном ХМЛ используют для поиска внутри сайта, и в примерах приведен оператор host, а тут бац – и он не работает 🙂

Блядь, то понос, то золотуха. Не трогайте свой ХМЛ!

А теперь инсайд 🙂
Я в ХМЛ позвонил, спросить чо ваще, может отключили сознательно. Мне сказали, что нет, сломалось, но сказали, возможно, что скоро оператор url будет закрыт в XML. Человек даже как бе не хотел его поэтому смотреть.

Так что готовьтесь парсить выдачу. Я, правда, не уверен, что именно он сказал – оператор будет закрыт ваще или закрыт только из ХМЛ. Так что и в выдаче могут закрыть.

saved-copy-url специально для сеошников?

а вот интересно, я правильно понимаю, что тег saved-copy-url для урла сохраненки в Яндекс-ХМЛ сделан специально для сеошников? Чтобы они туда сразу ходили за проверкой своих ссылок в сохраненке?

Ведь для разработчиков поиска он не особо нужен – урл же чужой, на Яндексе, туда же не будешь пересылать юзера.

И вообще, поворачиваются потихоньку лицом. Вот, обсуждают – объясняют про коммерческую выдачу, типа поймите нас и все такое.

спасибо товарищу Яндексу

… за то, что вернули почти обратно уменьшенный до двадцатки лимит на ХМЛ, теперь лимит 100 на страницу.
Пойду возвращать обратно свои скрипты по 50. 🙂

ОбъЯвитесь, может, кому спасибо говорить? Есть предположение, что это тов. anatolix 🙂

И тогда вот еще – я жалуюсь на отключение оператора ИЛИ в тайтле в яндекс-новостях!

новейшие изменения в яндексе и в XML

сейчас несколько дней идут сплошные перетряски выдачи, яндексоиды комментируют, что были технические проблемы.

При этом число страниц 22-го вечером подпрыгнуло ровно вдвое, так же как и число страниц "еще с сайта". При этом есть примеры сайтов, проиндексированных одновременно с www и без, типа каждая страница имеет дубль и все они одновременно находятся в выдаче. Думаю, с этим связано, причем массовое явление. 🙂

А в ХМЛ изменения такие:

1. ВЫДАЕТСЯ УРЛ СОХРАНЕНКИ! тег saved-copy-url – и можно спокойно парсить там наличие своих ссылок, не дергая для этого яндекс-выдачу, раньше урл сохраненки только там был.

2. вместо цифирок в ID документов стали использовать и буковки. doc id="13-23-4-Z86F030531D40920C" Судя по всему, шестнадцатиричные [первая буква не считается :)”>. Бля, могли парсилки поломаться жеж!

кто против релевантности all? давайте примеры!

по поводу моей ненависти к релевантности all в НЧ-запросах, у меня anatolix попросил примеров, а я как-то в ХМЛ при поиске не смотрю, но олловую релевантность и так уже вижу.

Чтобы в ХМЛ не лазить, сдалал инструментик, показывает relevance priority: http://tools.promosite.ru/anatolix.php

Я там накидал примеров, но лучше больше 🙂
Давайте тоже свои примеры! Или хотя бы можно полазить по relevance priority, это прикольно.

почему они все такие – ч. 2

Ну и вот.
В далеком научном прошлом был хороший принцип: "отрицательный результат – тоже результат". Это не всегда получается, но к этому нужно стремиться.
Пример: Вася-Петя экспериментально выясняет нечто. Если нечто удалось – отлично. Если не удалось – упс, положительного результа нет, а отрицательный ничего не означает – время потрачено зря. Ну, тут все понятно – это про правильную постановку экспериментов. Избегаем неправильной постановки экспериментов.

Так и с поиском то же самое. Юзер задал запрос (он, кстати, привык по умолчанию, что слова в документе должны быть близко к словам в запросе – порядок и дальность) – и ничего не нашлось. Это результат или нет?

Конечно, это результат. Это означает, что нужно переформулировать запрос (или насильно включить специальный режим "мягкого" поиска).

Отрицательный результат не менее важен, чем положительный.

Теперь начнем высер.
Я недавно видел какую-то стату по запросам в яху, по которой получалось, что на 6% запросов дается пустой ответ – ничего не найдено. Не знаю, сколько было аналога в яндексе (когда были живы контекстные ограничения), но думаю, больше (у яндекса база меньше, значит, пустых ответов на НЧ запросы больше). Допустим, 10% "ничего не найдено" было – разумно.

И я уже себе представляю это в красках. Сидит в яндексе какой-нибудь хуй. Которому дали задание "углубить и расширить". Чтобы увеличить удовлетворение пользователя, нах! Степень удовлетворения рисуеццо на графике. Ну, там, меры всякие, DCG и pfound и все такое. И у гугля оно выше, за это менеджеру отдельно вставляют.

И тут этого менеджера пробивает мысль! Хуяк! Это как это мы на 10% запросов выдаем пустой ответ! (удовлетворение юзера от такой выдачи по их мерам равно нулю).
И возникает мысль. Давайте выдавать, если ничего не найдено – не пустой результат, а какую-нибудь околорелевантную хуйню. На ней же удовлетворение будет всяко выше нуля.
PROFIT!!!

…вот так просто: берем и на дороге находим 10% бумажной эффективности. От показа разной хуйни тогда, когда следует показать "ничего не найдено".

…так в Яндексе появилась релевантность "all" примерно 2 года назад.

Если нужна справка – см. в яндекс-ХМЛ, там есть несколько типов релевантности – фразовая phrase (совпадает порядок слов), стриктовая strict (слова не очень далеко друг от друга с контекстными ограничениями и с кворумами-весами), и вся-остальная-хуйня all (слова есть вообще в документе и она очень-очень мягкая). Она и раньше существовала, но вылезать во всех местах в выдаче она стала как раз вот тогда.
Этот приоритет нужно только в ХМЛ смотреть.

Но, конечно, идея "показывать любую околорелевантную хуйню, когда ничего не найдено" не вписывается в план и общую формулу. Значит, план надо переписать.

… и "all"-документы появляются в выдаче наравне с релевантными документами. Это давно еще было.

Пробейте свои любимые НЧ – и посмотрите в ХМЛ. Обнаружите удивительную связь нерелевантных результатов с relevance priority="all"
_______________________________
Ну а юзер что? Юзер заходит, видит, что на его НЧ вместо разумного ответа (ничего нет = переформулируйте запрос) выдается какая-то помойка, где слова из запроса разбросаны по всему документу.
И думает: ну его на хрен, такой поиск, херню какую-то ищет.
_______________________________
Потому, что для юзера отрицательный результат тоже важен. Его бла-бла-бла с релевантностью all не интересует. Пусть даже она около- и на ту же тему.

Сделал в апометре – отдельно по конкурентности

Сделал показ степени изменений при апдейтах, разбитую по запросам разной конкурентности.
В апометре (сегодня, внизу страницы) и в виджете (вид и ссылка для установки на яндекс) теперь графики степени изменения выдачи для нескольких групп запросов – от ВЧ конкурентных до никому не нужных.

В виджете только один график http://www.yandex.ru/?add=10156 , в апометре несколько – отдельно взвешенное изменение, отдельно невзвешенное. И в апометре еще степень изменения выдачи для разной длины запроса (число слов).

Надо теперь подумать, как удобнее показывать на сайте.

И да: обновляются эти картинки в 9-30, а не сразу после апа. Когда все 5К+ запросов скачаются из хмля.

Эти же данные доступны и при листании в глубину, они же давно собирались. Пролистав вглубь, видим, что иногда апдейты (как сегодня) бывают осмысленные, с явно более сильным изменением конкурентных запросов, а иногда бессмысленные (когда по всем запросам изменения примерно одинаковы). А иногда бывало даже – что по редким запросам изменения сильнее (я так думаю, это от подкруток учета текстового).

Причем там еще есть взвешенные изменения (когда глубокие пары учитываются с меньшим весом), и оно, например, сегодня не показывает осмысленных изменений ).

Ну и по длине запросов разные изменения бывают. Надо как-нть сесть, пролистать в глубину.
***
Пока что в день релиза не кажет графиков (когда текстовго апа нет), но сделаю.

___________________
UPD сделал показ в дни релизов.

+ пример, когда для низкочастотки сильнее расколбас
+ пример, когда только по длине запроса сильнее расколбас

региональный параметр lr= по умолчанию в урле поиска

Пацаны сказали – пацаны сделали 🙂
По умолчанию при поиске в урл поиска Яндекса теперь подставляется региональный параметр lr.
Еще не проверял, как он с айпишниками дружит и с куками, кто кого побеждает.
Раз пошла такая пьянка – прошу компетентных яндексоидов рассказать – а зачем нужно при "поиске по сайту" каждый раз снимать галку "искать на сайте"?
Я упарился ее обратно ставить каждый раз. Раньше был бодрый способ не ставить эту галку – ограничивать поиск хостом – но теперь капчу выплевывает, легче галку по сайту пользовать.
Оставляйте галку, спасибо, пожалуйста, да? 🙂

Мы не анонсируем новые проекты

Шарился в своем поисковике (пока урл не спалю, а то там ХМЛ используется, и выдача переколбашивается, а они это не разрешают) и по запросу сегалович нашел древнее интервью (27 марта 2006 года), (+ еще прувлинк с яндекса) и увидел там знакомые слова:

Себрант: Расскажи лучше про географию.

Сегалович: Речь вот о чем. Мы в ближайшее время собираемся включить более детальный географический каталогизатор. Нынешний основан только на каталоге, а мы уже научились распознавать сайты и страницы на лету – исходя из IP-адреса, содержания страниц и других факторов. Благодаря этой технологии мы резко увеличим полноту локализованного поиска – текущий алгоритм все же сильно сужает спектр сайтов, доступных для регионального поиска. Объем информации увеличится в разы. Кроме того, география будет помогать отвечать на запрос, который, по нашим представлениям, является географически локализованным. Если человек ищет компьютер в Санкт-Петербурге…

Волож: (перебивает) …то мы будем выдачу немножко подстраивать.

Сегалович: Это тонкий вопрос, будем ли мы подстраивать выдачу. Но это качественно новый уровень продвижения в регионы. У нас, конечно, есть "Яндекс.Города", но это поверхностная локализация. А теперь вся база будет промаркирована посайтно, постранично – что к какому региону относится.

Волож: И если для заграничных сайтов регион – это Россия, то для нас регион – это, скажем, Новосибирская область.

Ну, насчет неанонсирования, ладно, анонсировали.
Но, эээ, три года ушло на-все-про-все. И уже тогда говорилось – "Мы в ближайшее время", "а мы уже научились распознавать сайты и страницы на лету"… Т.е., если все было уже готово?

Ладно, пойду еще раз перечитаю, может, еще что из предсказаний упустил 🙂