Для отмены определения БР, СПЕКТРа – Яндекс сменил doc id

Борются-борются… Кстати, не очень быстро.
Интересно, что это им взбрело. Наверное, еще всяких примесей планируют ввести?

Итак, раньше можно было через Яндекс.XML определять быстророботные включения, СПЕКТР (и ультраробот от бара, пока его не выключили, и буржуйскую базу,пока ее не выключили) по структуре идентификатора документа doc id
Для БР и СПЕКТРа doc id был из трех фрагментов вида 72-2-ZB61AC8DED7F2740E (с разным первым фрагментом для разных баз), а для обычных – из четырех фрагментов.
***
А 27-28 июля все это дело отменили – из doc id отпилили первые фрагменты, остался только фрагмент вида ZB61AC8DED7F2740E (кстати, он остался тот же самый, что последний кусок до отпиливания)
***
PS а возможность определять СПЕКТР таки осталась ))

PPS Кстати, а ведь отпиливание действительно целевое. Оно коснулось только трех- и четырех-фрагментных id, двух- не коснулось. Заодно, кажется, вернули ультраробот.

я.спектр колбасит

сперва сменили id документов на след день после конфы, потом отменили показ спектра вообще, потом возвращали его обратно – мне по крайней мере было видно – но вроде бы не все видели
А сейчас смотрю – по части запросов опять нет, ни выделения, ни айдишников! 🙂
пицца – "доставка" и "на дом" не выделены, айдишники идут с 49
а в продвижение сайтов есть и выделение, и айдишники с 52.
От жеж колбасит их ))
Видимо, позапросно включают и выключают.

я.спектр вернули обратно ))

ыыы отмену id и подсветки откатили обратно ))
Молодцы чо )
вернули и идентификаторы вида doc id="52-0-Z2853CAE6AE212681", и подсветку.

* минус вам в репу, я уже собрался сервез сделать ))

примеры:
пицца – "доставка" и "на дом" выделены
продвижение сайта – "самостоятельно" у seoshnic.ru вернули.

Короче, back to the USSR
🙂
Кто здесь? ))

Яндекс отменил подсветку и ID спектровых слов…

Это даже лучше, чем "с водой ребенка выплеснуть", приближается к "насрать себе на голову" и "самих себя высечь" ))

Предыстория: на следующий день после моего доклада яндекс сменил идентификаторы документов в выдаче – после этого спектровую примесь стало сложнее отличить от быстроробота.

Ссылка на презентацию доклада «Технология "Спектр" Яндекса и классификация веб-страниц» (это уже поправленная, после изменения идентификаторов на следующий день).

А сегодня следующий шаг – обнаружил, что:
1. Подсветка дополнительных расширяющих слов и многословных фрагментов исчезла.
2. Идентификаторы обычных документов и спектровой примеси стали одинаковыми.

Примеры:
по запросу пицца пропали выделения слов "доставка" и многословного фрагмента "на дом"
по запросу сузуки гранд витара доп. слова типа "фото, отзывы" больше не выделяются
по запросу казани много доп.слов типа "достопримечательнсоти, карта, недвижимость" больше не выделяются
ну и конечно, по продвижение сайта допслово "самостоятельно" у примеси seoshnic.ru уже не выделяется.

При отсутствии изменений в выдаче (примесь на тех же местах) идентификаторы сменились и подсветка исчезла.

Особенно прикольно то, что идентификаторы сменились без текстового апдейта. Вчера идентификаторы были из трех фрагментов и подсветка была, а сегодня из четырех и нет. Вчера все было, проверил по кешу.

Нет, ну понятно, что яндекс немножко борется )), но самим себе вредить – это жостко. ))

***
Почему "насрали на самих себя"? Потому, что подсветка в выдаче должна помогать пользователю. По крайней мере, поможет выбрать один из результатов по тому намерению пользователя, которое он поленился написать в запрос.

И ведь задача подсветки дополнительных слов – отдельная, ее надо было отдельно решать, тратить отдельно на это время. И специально подсвечивали только в пределах первой десятки.

И я понимал про пользу юзера, и поэтому так запросто делал доклад – я не верил, что юзеру сделают плохо из-за каких-то сеошников ) Это не должно было быть отменено в принципе.

А тут взяли и отменили 🙂
Тут, понятно, два варианта: либо ошибались весь год (подсветки СПЕКТРа), либо ошибаются сейчас. Виноваты в любом случае )))

***
Теперь высрался и хочу сказать яндексу небольшое спасибо.
Теперь благодаря яндексу получается, что у меня есть эксклюзивчик – база дополнительных слов и многословных фрагментов.

Раньше-то эти 6.5М запросов мог скачать любой и выяснить все то же самое, а теперь не может. ))

Теперь придется на этих расширяющих спектровых словах (по всем русским запросам, по-хорошему) сделать сервис 🙂

Яндекс.СПЕКТР сменил id документов, неожиданно за день )

24 и 25 ноября прошла 10я ашмановская конференция по оптимизации сайтов, на которой я планировал два, а сделал три доклада.
Первый – про технологию Спектр (презентацию скоро выложу, видео из профессиональной секции, как я понял, у них не бывает). Вторые два – в секции "парад технологий и сервисов", один про seo-CRM для небольших seo-компаний, которым не хочется для этого держать отдельного программиста, третий – про систему ссылочного продвижения "от меня" (сейчас находится в папке на tools, вот домен сменю и отдельно анонс сделаю).
***
Но я не об этом.
Значит, я в докладе и в презентации показывал, как отличать "спектровые" примеси – по идентификатору документа в XML.
Вчера, в момент доклада, было так:

у обычного результата doc id="49-*-*-*" (4 фрагмента)
у спектра doc id="49-*-*" (3 фрагмента, тот же первый фрагмент – 49)
у быстроробота doc id="53-*-*" (3 фрагмента, другой первый фрагмент)

А сегодня для спектровой примеси стало так:

у спектра doc id="52-*-*" (3 фрагмента, стал другой первый фрагмент – 52)

🙂
Проверил по своему кешу ХМЛ – так и есть.
Вчера у примесного ssve.ru по "продвижению сайтов" был ID 49-118-Z7725D3069AAE1668, а сегодня уже 52-3-Z7725D3069AAE1668. Забавно, еще и остальные фрагменты сменились, не только базу переименовали.
***
Интересно, зачем они это делают? И ведь какая срочность!
Чтобы никто не догадался и все попячились? 🙂
Смешно, чо.

PS внесу изменения в презентацию, попрошу выложить поправленную ))

Матрикснет – pointwise, СПЕКТР – (list,pair)wise подходы?

Неожиданно получил возражения: что типа Спектр может основываться и на pfound-е.

Хрен с ними, с изменениями формул и возможностями, что что-то случайно размечено одинаково. Нет, Спектр должен быть основан на принципиально другом подходе к оценке качества выдачи. Судя по релизам.

Я слушал много разных записей про Матрикснет, и из них, и из услышанного на search-conf мне помнится следующее.

Есть типа три подхода к оценке качества выдачи – pointwise, pairwise и listwise.
pointwise, точечный – это когда каждый результат в выдаче просто имеет свою релевантность относительно запроса и она как-то взвешенно суммируется, и сумма = качество выдачи.
pairwise – это когда релевантность приписана упорядоченной паре результатов, дальше взвешиваем по всем парам.
listwise – это когда весь набор результатов в выдаче оценивается совокупно – хороший набор или плохой?

Мне помнится (общее впечатление), что яндексоиды вообще и Андрей Гулин в частности говорили, что мол, у них в Матрикснете листвайз подход.

Я и тогда в это не верил и не верю сейчас, по простым причинам –
1. Исходные данные – пойнтвайз. Оценки асессоров, на которых идет обучение – точечные и никак не завязаны ни на пары, ни на весь список.
2. Формула расчета релевантности щетает релевантность для отдельного документа = тоже пойтвайз.
Итого – матрикснет – пойнтвайз подход.

А со СПЕКТРом должно быть несколько другое. Если он должен учитывать разнообразие выдачи, то суммой по точкам оценивать ее качество нельзя. Это должен быть либо пресловутый листвайз, либо по парам. Типа для начала, для попробовать.

Другое дело, что если исходные данные – пойнтвайз, то ничего не получится. А систему оценок асессоров, насколько я понимаю, так просто не изменишь, раз, и оценки надо накапливать приличное время (ну хоть полгода) – два.

Но общая идея такова, что спектр должен быть или листвайз, или, на худой конец, пэйрвайз (кстати, результаты с разными поисковыми потребностями иногда чередуются, что наводит на мысль о пэйрвайз).

Не знаю уж, что за метрики и что за формулы используются, но качество выдачи тут должно зависеть не только от отдельных результатов, но от набора результатов.

Что, конечно, не вписывается в озвученную раньше метрику качества выдачи – pfound, хоть как ее не меняй.

ЗЫ с другой стороны, т.к. исходных данных, кроме пойнтвайз, нету – значит, используются какие-то костыли в виде поиска набора слов по сайту и использования этого при переранжировании.

яндекс-спектр: наблюдения

официальный http://company.yandex.ru/news/press_releases/2010/1215/index.xml
в блоге http://clubs.ya.ru/company/replies.xml?item_no=32028

Общие мысли:
1. в метрике pfound не заложено никакого “разнообразия” для оценки качества выдачи. т.е. то, что она разнообразная, эту метрику не повысит.
Следовательно, есть другая метрика, по которой меряется качество. Логично, что в яндексе есть несколько групп людей, каждая из которых продвигает в мозг начальства свою метрику. Для того, чтобы выглядеть длиннее, нужно выбрать удобных попугаев.
Видимо, происходит отказ от метрики pfound, пока что в виде навешивания сверху рюшечек (разнообразия).

Частные:
1. по набору однословников (а там каждый достоин своего спектра) навскидку около 20-30% “оспектрены”, остальная масса – нет. Т.е., еще грядут большие перемены.
2. отдельные потребности в спектре не пересекаются, но иногда явно разные потребности слеплены в одну. Например, в ноутбуках продажа и б.у. – не пересекаются, а в автомобилях – все свалено в одну кучу (б.у., продажа, отзывы, фото, характеристики, т.д.) Обидно оптимизировать – их разделят ведь потом, а выдачу надо сейчас 🙂
3. есть несколько разных видов расширения запроса – олдовые переформулировки, которые можно вычислить исключением слов, и спектровые, которые исчезают при малом изменении запроса.
4. спектр подсвечивает только в топ10 и нумдоком не обманывается. Подсвечивает в топ10, но работает и глубже.
5. надыбал десяток оспектренных запросов, по которым мониторю выдачу – потом посмотрю, не спектр ли начал выкатываться 20-го ноября. Наверное, он, вряд ли тут две сущности ))
6. есть ли спрос на пробивку и поставку в народ разбиения спектровых тематик? 🙂
7. встречаются явно дурацкие спекторвые слова – типа: “википедия”, “что такое”. Да, явно берется не из текстов, а из запросов.