Яндекс.XML: теперь doc id=”13-” – сменился

в Я.хмле есть параметр найденного результата <doc id="". Это реально никакой не айди сейчас, но когда-то им был. Потом для всех обычных документов он стал что-то типа 8- или 9- (и эта цифра потихоньку растет), и только для быстроробота был похож на айди, так можно было отличить быстроробот. Потом и у БР он стал фиксированным, но отличным от обычной базы.
Раньше было так:
обычный робот: doc id="12-"
быстроробот: doc id="22-"
зарубежная база: doc id="23-"
(сперва я забыл и засомневался: то ли 24-23, то ли 22 у БР и запада, но поднял архивы в тулзе регионов – так получилось)
А теперь стало так:
обычный робот: doc id="13-"
быстроробот: doc id="23-"
зарубежная база: doc id="24-"

По времени – это произошло на днях, 6 июля doc id="12-" стал меняться на 13, позже – от 7 июля двенадцати вообще нет. И заодно сменились БР и буржунет.
Я кагбе не знаю, что оно означает, но вроде апдейт только сегодня 8-го, а 6 и 7 никаких изменений не было – ни у меня в апометре, ни в апометрах выдачи.
Так что это вряд ли айди алгоритма и формулы, как думали другие люди.
Апдейта по выкладыванию индекса тоже не было – так что это вряд ли айди базы-хранилища индексов, как я думал раньше.

Может, это айди хранилища кешей или типа того? Кто мониторит – посмотрите, на какие айпи показывал раньше и стал показывать теперь хайлайтер яндекса hghltd.yandex.net?
Еще какие-нибудь идеи, что это за айди?

Яндекс удалил гео-теги geo и geoa из XML…

ггггг
доходит до них, как до жирафа, не очень быстро… 🙂
Меня тут просили в сервисе определения региона обновлять данные, а там накопилось 210 тыс. сайтов, из них 170 тыс – саподоноры, ну и мне лениво же все обновлять.
Я тогда сделал кнопочку для горячо любимых сайтов – если данные взяты не сегодня, то можно нажать на кнопочку "обновить" и они перезапросятся.
Сейчас понажимал – смотрю, конечные регионы по тегам geo и geoa пропадают. Проверил в ХМЛ – действительно, этих тегов нет, остаются только вложенные теги categ attr=geo, но они очень редко где есть.
Например – зайдите во Владикавказ, Универсальное, Россию, выберите сайтики снизу, у которых дата несегодняшняя и есть регионы по тегам geo и geoa, понажимайте обновить – они пропадут. И в исходном ХМЛе их, конечно, нет.
А хрен ли – недокументированная фича 🙂
Себе я базу-то скопировал, конечно… 🙂
Так что кому нужны выборки по регионам для сапы – регистрируйтесь и качайте геосписки – а то понажимают на обновление, все данные-то и пропадут. А я буду базой приторговывать. 🙂
Надо будет в яплатон регионы интегрировать.

PS
Посчитал –
тег geo был у 39507 доменов
тег geoa у 127925 (предположительно автоматическое определение)
тег categ attr=geo был у 39584 доменов

Так что если categ attr остался, то три четверти геобазы теперь недоступно…

“еще с сайта” без цифирок теперь?

url="www.yandex.ru/*"
Рядом со ссылкой "еще с сайта" цифирок нет.
Какой смысл, юзеру понравится не знать количество страниц, что ли…
И парсить объем сайта тяжелее, хотя в ХМЛ, вероятно, есть – там же отдельный тег под это выделен, пойду смотреть.

Хотя это может быть связано чисто с проблемами нагрузки. Типа, считать число релевантных запросу страниц внутри каждого сайта – мощностей не хватает?