19 городов Арзамаса

http://company.yandex.ru/news/2009/1012/index.xml

Интернет, 12 октября 2009 года. Яндекс запустил поисковую платформу «Арзамас» — поиск с учетом региона — в 19 городах России.

http://company.yandex.ru/rules/regions.xml

Новая поисковая платформа называется «Арзамас», она использует региональную формулу в 19 городах России – Москве, Санкт-Петербурге, Екатеринбурге, Новосибирске, Красноярске, Омске, Ростове-на-Дону, Краснодаре, Нижнем Новгороде, Уфе, Перми, Казани, Самаре, Челябинске, Владивостоке, Кемерово, Иркутске, Барнауле, Воронеже.

Геозависимые и геоНЕзависимые запросы
Геозависимые запросы определяются статистически – это запросы без указания географических названий, но с такими словами, к которым часто географическое название добавляют. То есть запрос [перевозка грузов] – геозависимый, потому что сочетание «перевозка грузов» часто спрашивают вместе с названиями городов

Как определяется регион пользователя
Поисковая программа «Арзамас» может использовать одну и ту же формулу ранжирования при ответе на запросы пользователей не только из одного города, но и из целой области – важно не точное место проживания, а схожесть интересов

Как определяется регион сайта
Принадлежность сайта к тому или иному региону определяется по многим признакам – в том числе по указанным на нем контактам, ip-адресу сайта, региону, которому посвящена большая часть информации на ресурсе, и т.д.

Итого, 19 городов. Ондако в сравнивалку результатов поиска по регионам новые города пока не добавлены.
Айдишники городов Арзамаса, можно юзать в параметре &lr= для просмотра региональной выдачи:

Москва 213
Санкт-Петербург 2
Екатеринбург 54
Новосибирск 65
Красноярск 62
Омск 66
Ростов-на-Дону 39
Краснодар 35
Нижний Новгород 47
Уфа 172
Пермь 50
Казань 43
Самара 51
Челябинск 56
Владивосток 75
Кемерово 64
Иркутск 63
Барнаул 197
Воронеж 193

кто-нибудь изменения в текстовом видит?

У меня тут есть мониторилка разных параметров выдачи, на этой странице обобщенная статистика, а у меня в глубине есть по разным выборкам из этих данных.
Я как раз собираюсь дать доступ народу.
И вот на http://tools.promosite.ru/monitoring/ я вижу, что общее число страниц “еще с сайта” подскочило. По всем запросам.
У меня настроено так, что если сильное изменение происходит на следующий день после текстового апа, оно не рисуется как “релиз без апдейта”, ибо разные глюки были. Но степень изменения (верхний рисунок) сегодня существенная, и у меня на графике (видите?) и Ашманов подтверждает изменение.

Короче говоря, если бы не был ап вчера, у меня сегодня заорало бы про релиз.

Реальность следующая: везде по текстовым запросам подскочило число найденных страниц “еще с сайта” и подскочило общее число найденных сайтов.
При этом по “нетекстовым” запросам (domain, lang, mime и тп) ничего не изменилось.

Это не (не только?) изменение кворума, т.к. для однословных запросов тоже есть увеличение числа страниц.
Может быть, небольшая амнистия (скрытых страниц, баненных сайтов)?
Может быть, изменение правил оценки числа релевантных страниц с сайта и другого прюнинга?

Если кого интересует. как это выглядит внутри – пишите в камменты емейл, или сразу на [email protected] – пошлю ссылку посмотреть и рекомендации сказать.

фильтр АГС-17: выпадение сайтов из Яндекса

Почему-то не на блоге компании, а на сёрче:
http://www.searchengines.ru/news/archives/008057.html

С начала сентября многие оптимизаторы стали замечать, что на некоторые сайты Яндекс накладывает фильтр, в результате чего в индексе остаётся минимальное число страниц. В Яндексе подтвердили существование автоматического фильтра – АГС-17.

«Робот анализирует содержание всех страниц сайта и принимает решение о включении их в индекс. Если сайт большой, а в поиске участвует лишь несколько его страниц, это означает, что остальные были классифицированы как не имеющие дополнительной ценности для пользователей.

Какое количество страниц будет проиндексировано – зависит от многих факторов, в том числе от качества контента, интереса пользователей к ресурсу и соответствия сайта поисковой лицензии, особенно это касается пункта 3.5. В некоторых случаях число страниц может быть и меньше 10, и больше 10. В любом случае проиндексированных страниц должно быть достаточно для того, чтобы сайт находился по основным запросам, на которые он может дать хороший и релевантный ответ», – прокомментировал для Searchengines.ru менеджер проектов по борьбе с поисковым спамом компании «Яндекс».

Фильтр АГС-17 был введён три года назад. При этом его работу оптимизаторы стали замечать только сейчас. По мнению отдела качества поиска, это объясняется тем, что в последнее время стало появляться большое количество сайтов, страницы которых не выдерживают подобной проверки.

Отметим, что у яндексовского АГС-17 есть тёзка среди современного стрелкового оружия – автоматический станковый гранатомёт АГС-17 «Пламя».

Прикольно, что уже три года существует, видимо, именно сейчас говносайтостроение стало очень массовым. И обучалка обучилась.
на будущее: надо собрать список выпавших говносайтов, качнуть и посмотреть на общие их признаки.

По своему опыту – есть парочка “новостных сайтов”, вообще одинаковых, с кучей копипащенных новостей, ссылка на источних яваскриптовая. Но один на новом домене-нулевке, второй – на брошенной тИЦ10. Раньше на первом было около 50 тыс страниц в индексе, на втором – около 75 тыс.
Трафа на первом было 20-30 хоботов в день, на втором – 250 в день.
Сейчас проверил – на нулевке осталось порядка 10 тыс. страниц, на втором – примерно как было, около 70 тыс.
Контент обновляется везде, добавляются страницы, ссылки не продаются.
Нулевка вылетела, но трафик на нее не изменился – как был близкий к нулю, так и остался.
Понятненько, что тиц 0 – первый признак говносайта :), но и траф тоже фактор (проскакивало, что яндекс у лиру берет данные или парсит их каталог, я в это верю).
Так что вот.

Цены в результатах поиска Google

Гугль позволяет настроить показ цен на странице. На "редкие" товары.

Сегодня мы рады сообщить вам о запуске нового инструмента – "Цены со страницы", который должен облегчить эту задачу. Этот инструмент является частью панели "Настройки поиска" и позволяет увидеть цены на товары прямо в поисковых результатах:

В отличие от большинства существующих поисковиков товаров, наш инструмент извлекает цены прямо из страничек интернет-магазинов, используя технологии искуственного интеллекта. А это значит, что если товар продается в Интернете, то наш инструмент должен его найти и показать вместе с ценой прямо в результатах поиска.

«Цены со страницы» (равно как и их англоязычная версия) были созданы в нашем московском центре разработок и потребовали написания специальных алгоритмов извлечения структурированных данных из весьма неструктурированного Интернета. Зато теперь мы можем находить товары и цены сами, и не ограничиваться только теми магазинами, которые готовы присылать свои прайс-листы. А это очень сильно расширяет ассортимент товаров и выбор магазинов.

Чтобы воспользоваться инструментом, щелкните по ссылке «Показать настройки…», расположенной над результатами поиска, и выберите «Цены со страницы».

Ишь ты, в московском офисе созданы 🙂

скорость индексации рунета за год не изменилась

я у себя на http://tools.promosite.ru/ в том году еще начал считать среднюю по больнице скорость индексации рунета. Там с помощью операторов поиска по дате и по дате индексации смотрится число страниц и взвешивается.
И когда-то давно эта скорость была примерно 50 дней, я даже в тексте об этом написал. “Ваши саповские ссылки в среднем 50 дней стоят до индексации”
Время шло, скорость индексации плавала, а яндекс ломался…
В какой-то момент он сломался окончательно – стал показывать, что за месяц целиком было проиндексировано меньше документов, чем в один из дней этого месяца.
Это все потому, что выражение date>”ранняядата” date<=”поздняядата” стало работать неправильно, какую-то хрень показывать… И в обычной выдаче тоже. В результате бред какой-то получался, типа 5-6 месяцев переиндексация была.
А тут как раз на эту тему я собрался доклад подать на RIW, и надо, блин, решить проблему, да? Исхитрился: стал использовать одну дату типа date>”ранняядата” и при расчете месяцев вычитать одну дату из предыдущей.
Графики не вставляются, см. новый на на http://tools.promosite.ru/.
Вот, к чему я это все.
В результате при взвешивании – первые 3 месяца по дням, раньше – по месяцам – получилось та де самая скорость переиндексации рунета – переиндексация рунета в среднем раз в 51 дней.
Вот как прикольно.

Яндекс: 5 сентября релиз без апдейта?

Сегодня у меня мониторилка позиций задетектила изменение выдачи (на морде и в rss отметки пошли, они около 15 дня туда идут, а в списке апов почему-то не отображается, буду исправлять).
При этом выкладывания базы сегодня не было: http://tools.promosite.ru/updates/details.php?data=2009-09-05 и Ивановский апометр тоже молчит.

А вот Ашмановский апометр (на пробивке позиций) подтверждает апдейт 5 числа: http://analyzethis.ru/?analyzer=update&searcher=yandex , так что это не мои глюки.

Я вот к чему: особенно прикольно знать, когда просто новая база выложена, а когда алгоритм подкрутили.

Всех с релизом!!! 🙂

PS Типа день города отметили, тока щас вспомнил.

нашел вид запроса, который “валит” Яндекс

Вместо выдачи – полностью пустая страница открывается, нет даже надписи "ошибка и т.п.".

В XML по такому запросу – выдает невалидный код для броузера, но если сохранить и посмотреть сорцы хмля, видно, что кусок запроса отрезается и происходят непредсказуемые переключения параметров группировки (с deep на flat, например).

Теперь думаю, чо с этим запросом делать. Жаль, я не кулхацкер, а то интересного наковырять можно было бы 🙂

Есть у кого знакомые, кто может посоветовать, как дальше ковырять? 🙂

Я.ХМЛ – то понос, то золотуха

Только я успел написать про тег doc id="" в ХМЛе (кстати, у быстроробота уже не 23, а 25 и у зарубежки не 24, а 26) – как опять все переколбасило… Под эти все изменения ХМЛ еще вроде бы не работал некоторое время.

1. doc id стал больше похож на айди. Теперь он выглядит примерно так: doc id="13-28-17-13613987", первое 13 – это как и было, последнее число – параметр d (типа айди документа?), что за два числа в середине – непонятно (у быстроробота – одно число).

2. отменили сортировку по tm (время модификации) – уже на Сёрче кто-то ругался. В докуметации описано – так и верните взад!

3. окончательно похерилась геовыдача… В прошлый раз удалили теги geo и geoa, но тег categ attr="geo" оставался в четверти случаев… А теперь и его нету. Геоданным полный ППЦ, похоже…

Когда ж у них там устаканится…

Яндекс.XML: теперь doc id=”13-” – сменился

в Я.хмле есть параметр найденного результата <doc id="". Это реально никакой не айди сейчас, но когда-то им был. Потом для всех обычных документов он стал что-то типа 8- или 9- (и эта цифра потихоньку растет), и только для быстроробота был похож на айди, так можно было отличить быстроробот. Потом и у БР он стал фиксированным, но отличным от обычной базы.
Раньше было так:
обычный робот: doc id="12-"
быстроробот: doc id="22-"
зарубежная база: doc id="23-"
(сперва я забыл и засомневался: то ли 24-23, то ли 22 у БР и запада, но поднял архивы в тулзе регионов – так получилось)
А теперь стало так:
обычный робот: doc id="13-"
быстроробот: doc id="23-"
зарубежная база: doc id="24-"

По времени – это произошло на днях, 6 июля doc id="12-" стал меняться на 13, позже – от 7 июля двенадцати вообще нет. И заодно сменились БР и буржунет.
Я кагбе не знаю, что оно означает, но вроде апдейт только сегодня 8-го, а 6 и 7 никаких изменений не было – ни у меня в апометре, ни в апометрах выдачи.
Так что это вряд ли айди алгоритма и формулы, как думали другие люди.
Апдейта по выкладыванию индекса тоже не было – так что это вряд ли айди базы-хранилища индексов, как я думал раньше.

Может, это айди хранилища кешей или типа того? Кто мониторит – посмотрите, на какие айпи показывал раньше и стал показывать теперь хайлайтер яндекса hghltd.yandex.net?
Еще какие-нибудь идеи, что это за айди?