XML: новейшие поломки и отключения операторов

Сегодня, кстати, был ссылочный апдейт, который апометр не увидел из-за того, что Яндекс коварно сломал оператор url и вместе с ним host, rhost в XML.

т.е., из выдачи они работают, а из ХМЛ – нет, выдают только обвязку (типа найдено столько-то результатов), а самих результатов не выдают.
Что смешно – в основном ХМЛ используют для поиска внутри сайта, и в примерах приведен оператор host, а тут бац – и он не работает 🙂

Блядь, то понос, то золотуха. Не трогайте свой ХМЛ!

А теперь инсайд 🙂
Я в ХМЛ позвонил, спросить чо ваще, может отключили сознательно. Мне сказали, что нет, сломалось, но сказали, возможно, что скоро оператор url будет закрыт в XML. Человек даже как бе не хотел его поэтому смотреть.

Так что готовьтесь парсить выдачу. Я, правда, не уверен, что именно он сказал – оператор будет закрыт ваще или закрыт только из ХМЛ. Так что и в выдаче могут закрыть.

язык запросов в “яндекс-новостях” сломался?

кажется, с введением нового языка запросов сломали
то ли оператор ИЛИ в тайтле не работает: title:(путин | медведев)
http://news.yandex.ru/yandsearch?text=title%3A%28%D0%BF%D1%83%D1%82%D0%B8%D0%BD|%D0%BC%D0%B5%D0%B4%D0%B2%D0%B5%D0%B4%D0%B5%D0%B2%29&rpt=nnews2&grhow=clutop

находит вообще что-то левое. одно слово без другого, и не в тайле, а в тексте.

или это специально?
но вряд ли – нелогично, да и с чем бороться. в обычном поиске вроде работает всё.

конструкции поиска НПС больше нет в яндексе

Оператору для поиска удобных НПС в яндексе слово -слово пришел конец.

Заодно показали, что операторы поиска и примеры теперь новые. Двоеточий каких-то понаставили вместо знаков =. Наверное, какой-то любитель трубопаскаля теперь рулит, а = и кавычки удалил как пережиток прошлого )

Оператора "минус" там нет, но сам по себе он работает. Т.е., минус теперь применяется и к текстам ссылок.

inurl – новый оператор Яндекса

Говорят, что про него Сегалович в твиттере написал – надо бы начать пользоваться, чтобы Сегаловича читать 🙂
Но в хелпе есть: http://help.yandex.ru/search/?id=481939

inurl=”url”
Поиск ограничивается группой страниц, URL которых содержит заданный фрагмент.

Ищет и по пути, и по домену, не только целые слова (как в domain), но и фразы поддерживаются, и за вопросительным знаком ищет.
Щас начнется “парсинг баз” дорвейщиками 🙂

Апометр отакуе-2: разделение зарубежной и русской выдачи Ya

В апометре http://tools.promosite.ru/ начал разделять русскую и зарубежную выдачу.
Например, сегодня был ап зарубежки, на форуме темку-то удалили. 🙂
Делаю так: кроме даты date=”YYYYMMDD” использую оператор автоопределенного языка lang=”(ru, uk, be, en, fr, de)”. Язык, конечно, определяется кривовато (не всегда правильно), но в среднем по больнице резкие скачки видны отчетливо.
Итого, смотрю запросы:
для русской выдачи (lang=”ru” | lang=”uk”) date=”YYYYMMDD”
для буржуйской выдачи (lang=”en” | lang=”de” | lang=”fr”) date=”YYYYMMDD”

И рисую округленное число сайтов для каждой выдачи (пр наведении мыши – точные числа).

Разные апы подсвечиваются разным цветом.

мой доклад на конфе выложен

14-го мой доклад на ашмановской конфе 2008, и презентация – выложены на bdbd.ru
Необычно как-то в пдфе. 🙂

‘Использование особенностей языка запросов поиска Яндекса для исследований’
Евгений Трофименко (начальник отдела исследований и аналитики, ‘Корпорация РБС’)
Яндекс – не только наиболее популярный поисковик в Рунете, но и наиболее открытый к исследованиям его алгоритмов. Рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения. Отдельные элементы переформулировки запросов Яндексом, полезные для оптимизации сайтов.

Основные пунктики:
1. отбор НПС-результатов [слово -слово”>
2. вычистка НПС, оценка доли НПС [запрос ~~абракадабра”>
3. исследование расширения запросов операторами исключения
4. отмена контекстных ограничений в новом колдунщике (точнее, колдунщика вообще нет больше)

поиск по датам в гугле

Alexf2000 по поводу апометра поинтересовался у народа, как бы такое сделать для гугла, и народ в комментах спалил документ, в котором описан оператор google daterange=formdate-todate.
Про этот оператор немного в доках гугла: http://code.google.com/apis/soapsearch/reference.html

If you want to limit your results to documents that were published within a specific date range, then you can use the “daterange:” query term to accomplish this. The “daterange:” query term must be in the following format:
daterange:<start_date>-<end>
where
<start_date> = Julian date indicating the start of the date range
<end> = Julian date indicating the end of the date range
The Julian date is calculated by the number of days since January 1, 4713 BC. For example, the Julian date for August 1, 2001 is 2452122.

Даты – начальная и конечная – задаются по некоему “Юлианскому” календарю (слыхал о таком отдаленно :)) в виде числа дней, прошедших от January 1, минус 4713-го года (блин, кто тогда документы “публиковал”? 🙂 нет чтоб 1970-01-01 взять), для которого есть и в PHP операторы, и калькулятор нарылся.

Так в доках пишут “were published within a specific date range“… Видимо, это таки дата индексации.

Повтыкал. Если брать даты от сегодня в прошлое, то по некому запросу гугль сначала находит десятки тысяч документов, но в какую-то дату начинает находить около 100-300 документов (ходить вглубь!). У меня это 5-6 дней назад.

Так наверное, пока документов много – это диапазон дат, индексация за которые выложена. А остатки в старые даты – непереиндексированные древние документы. Вроде last-modified там отдается текущий, вряд ли он неправильный. В будущее по дате гугль не пущает.

Надо бы прикрутить к апометру.

Минус один оператор?

Тема на форуме об отмене оператора : (одинарное двоеточие)

По ответу Платона "Указанный оператор больше не используется. Информация со страницы помощи удалена".

Ну, одинарное двоеточие – пользовательский вес слова или выражения… Пользовательский, а не частотный, как в двойном двоеточии. Кстати. на странице хелпа был описан как раз он (одинарный), а двойного не было.

Конечно, жалко. Двойное двоеточие вроде пока работает.

Яндекс учитывает окружение ссылки?

Очередная тема на форуме: Яндекс учитывает окружение ссылки? Часть 2.. Первая часть была про тег map, после которого как-то криво весь текст до следующей ссылки попадал в индекс.
Тема о том, что по запросу anchor#link=”www.fit-pro.ru*”[различные тренажеры], где слова “различные” в ссылке нет – Яндекс:
1. Выбирает из массы ссылающихся только ссылающиеся со словом “различные” в пределах предложения:

Различные тренажеры для вашего дома. | Хатха йога – упражнения | спутниковые GPS навигаторы | рукоделие, вышивание, шитье | лунный календарь …

… ремни ликвидация оптимизация налогов Терминалы сбора данных Symbol Различные силовые тренажеры на ваш выбор. цветочный магазин, цветы продажа …

2. Не подсвечивает слово “различные” в сниппете, только “тренажеры”. Т.е., вроде как и “не находит”, но и ведь выбирает в то же время из 70 ссылающихся на www.fit-pro.ru со словом “тренажеры” только те 2, где в пределах предложения есть слово “различные”.
***
Перво-наперво я полез в reqtext – смотреть, вдруг “различные” по кворуму не обязательны. Нет, вес 27% – обязательны для двусловного запроса. Потом начал на ссылающемся сайте и другие примеры выбирать…
Действительно, взять из конца предложения ссылку и поискать с текстом другой ссылки – находит, но не все подсвечивает! anchor#link=”www.mebelproekt.ru”[Изготовление печатей && Шкафы Mr Doors, Купе]. Уже довольно глупо – учитывать текст просто соседний еще ладно, но если это ТЕКСТ СОСЕДНИХ ССЫЛОК – лажа полная получится.
Я бы считал доказательством, если бы по точному запросу в кавычках, где часть запроса НЕТ в ссылке, ссылаемый сайт находился бы как “найден по ссылке”. Но таких примеров найти не удалось. Например, “Различные тренажеры для вашего дома” – полный текст ссылки, кроме sportime.ru ничего не находим.
***
с другой стороны, я начал пробовать “поиск по тексту ссылок” оператором $anchor() – если он не “назовет” ненужное текстом ссылок, то вроде все нормально. Например, по запросу $anchor(спортивные тренажеры для дома) на 10 месте находим некий сайт, похожий на каталог:

ДК СПОРТ- спортивные тренажеры для дома – Кроненберг
Фабрика “DK-sport” основана в 1998 году. Продукция фабрики соответствует Российским стандартвм качества. Это обеспечивает надежность и безопасность тренажеров. Базовый модуль тренажеров выполнен из
www.cronenbergclub.com/catalog/?link=27 · 5 КБ

Смотрим его код – подсвеченные слова “тренажер” в выдаче вообще не являются ссылкой, а находятся на расстоянии нескольких предложений от ссылки.
С другой стороны, текст ссылки совпадает с тайтлом страницы. И выводится без болда на слове “тренажер”. Видимо, сам текст ссылки не попадает в сниппет, т.к. точно тот же текст уже есть в тайтле, и яндекс экономит на выводе одинаковых фрагментов. Такие случаи, что при пустом тайтле вместо тайтла выводится фрагмент найденного есть.
При поиске по словам из описания $anchor(тренажеры стандартвм) находим кучу сайтов, тех же каталогов, в том же виде – в качестве тайтла текст ссылки (совпадает с тайтлом), в качестве описания – описание со словами.
В общем, операторы anchor#link и $anchor() как-то размазывают… Выдают не только текст ссылок, но и окружение. Но вроде как и фильтруют по текстам одновременно. Еще пример того, что оно понимает расстояние в предложениях: $anchor(спортивные тренажеры для дома &&/3 стандартвм).
С другой стороны, примера, в котором по “левым” словам выдается сайт как “найденный по тексту ссылок” я так и не нашел. Поэтому продложаю думать, что это “пользовательская фича” для операторов поиска по тексту ссылок – расширять поиск на осн. текст. Или веса слов там как-то криво учитываются. Короче, поиск по ссылкам же для юзверя сделан, не для нас 🙂
Короче, не думаю, что поиск по текстам окружения ссылок работает. Плюс глупо юзать тексты ОКРУЖАЮЩИХ ССЫЛОК (пример выше).
PS в найденных желтым все нормально выделяет. В описании нет желтого “тренажера”.