рассказ про Я.переформулировки, как я понимаю

Получение структуры для поисковых запросов на примере товарных запросов – Юлия Киселева (Яндекс) — cеминар 15.10.2011
как я понимаю, про переформулировки и как их делают.
понятно, не вручную, если ~10% запросов было размечено.
тут уже почти прямым текстом про то, что переформулированный запрос отрабатывает вместо введенного.
***
про учет кликов юзера по выдаче в выборе расширений запроса.
ну с товарами все-таки понятнее, есть четкая структура с брендами, характеристиками и прочим, да и базы для обучения. А для остальных запросов?

кстати в видео упоминался какой-то слив (видимо, размеченных переформулировок) от 2005 года. Жаль, не мне ))

спс g00dman

яндекс-спектр: наблюдения

официальный http://company.yandex.ru/news/press_releases/2010/1215/index.xml
в блоге http://clubs.ya.ru/company/replies.xml?item_no=32028

Общие мысли:
1. в метрике pfound не заложено никакого “разнообразия” для оценки качества выдачи. т.е. то, что она разнообразная, эту метрику не повысит.
Следовательно, есть другая метрика, по которой меряется качество. Логично, что в яндексе есть несколько групп людей, каждая из которых продвигает в мозг начальства свою метрику. Для того, чтобы выглядеть длиннее, нужно выбрать удобных попугаев.
Видимо, происходит отказ от метрики pfound, пока что в виде навешивания сверху рюшечек (разнообразия).

Частные:
1. по набору однословников (а там каждый достоин своего спектра) навскидку около 20-30% “оспектрены”, остальная масса – нет. Т.е., еще грядут большие перемены.
2. отдельные потребности в спектре не пересекаются, но иногда явно разные потребности слеплены в одну. Например, в ноутбуках продажа и б.у. – не пересекаются, а в автомобилях – все свалено в одну кучу (б.у., продажа, отзывы, фото, характеристики, т.д.) Обидно оптимизировать – их разделят ведь потом, а выдачу надо сейчас 🙂
3. есть несколько разных видов расширения запроса – олдовые переформулировки, которые можно вычислить исключением слов, и спектровые, которые исчезают при малом изменении запроса.
4. спектр подсвечивает только в топ10 и нумдоком не обманывается. Подсвечивает в топ10, но работает и глубже.
5. надыбал десяток оспектренных запросов, по которым мониторю выдачу – потом посмотрю, не спектр ли начал выкатываться 20-го ноября. Наверное, он, вряд ли тут две сущности ))
6. есть ли спрос на пробивку и поставку в народ разбиения спектровых тематик? 🙂
7. встречаются явно дурацкие спекторвые слова – типа: “википедия”, “что такое”. Да, явно берется не из текстов, а из запросов.

сегодняшний “релиз” = это апдейт переформулировок

сегодня и у Ашманова, и у меня отметило изменение выдачи без текстового апа.

Щито бы это могло быть?

У меня есть CRM, в ней вдруг нарисовались изменения выдаваемых тайтлов по разным запросам. Но сами выдаваемые тексты (буквы) остались прежними – изменились коды, подсветка слов изменилась.

Те слова, что раньше не подсвечивались – стали подсвечиваться. Если у кого кешируется пробивка позиций – проверьте. И позиции подросли по тем тайтлам, где стали подсвечиваться доп. слова.

Например, слова "раскрутка" раньше не было в переформулировках и не подсвечивалось по запросу "продвижение сайта", а теперь вдруг стало:

1 Создание и раскрутка сайта в интернете, поисковое продвижение
www.MegaSeo.ru

2 Раскрутка сайта в Яндексе, Google и продвижение сайта в ТОП (Москва…
www.bdbd.ru

И слово "раскрутка" стало подсвечиаться.
Надо ли говорить, что те, кто традиционно стоял высоко по "раскрутке", вдруг стал фтоп и по "продвижению".

***
Надо ли еще дополнительно говорить, что переформулировки влияют и имеют приличный вес 🙂
***
Надо бы в апометр воткнуть.

Делаем из лимонов лимонад

Яндекс как бы преподнес пилюлю с ХМЛем.
Но под эту пилюлю я буду, наоборот, привлекать народ.
Прошу помочь сервису tools.promosite.ru подтверждением акка по мобиле
Перепост приветствуется!

***

Привет всем.
Прошу помочь сервису tools.promosite.ru – зарегистрироваться с телефоном или для уже зарегистрированных  добавить номер телефона  и разрешить подтвердить на него акк Яндекса. Акки уже есть.
Нужно при редактировании отметить галочку
разрешаю подтвердить на этот телефон аккаунт Яндекс.XML и хочу таким образом помогать сервису

***
Недавно лимиты для большой части аккаунтов подрезали до 10 штук в день.
Как я понимаю, это произошло из-за дырок в ХМЛ, о которых они знают, но найти не могут 🙂

***

Ваш дневной лимит составляет 10 запросов. Чтобы повысить свой лимит до 1000 запросов в сутки, вам необходимо подтвердить телефонный номер, который не был ранее никем подтверждён.

на один телефон удается привязать только один акк ХМЛ.
***

Снять это ограничение (увеличить число запросов до 1000) можно, если привязать аккаунт в Яндексе к мобильному телефону. Вам придет SMS с кодом от Яндекса, код вы введете на специальной странице – так вы поможете этому сервису!
Вас это никак не стеснит – наоборот, это Вы сможете контролировать тот аккаунт, с которого мы делаем запросы. Единственное: мы просим Вас не использовать этот телефон для подтверждения других XML-аккаунтов на Яндексе.
Что хорошего предлагается взамен: я обещаю давать бесплатные доступы к платным и ограниченным в использовании сервисам тогда, когда это возможно. Поскольку пока что платных сервисов нет, а ограниченные только в планах – подробнее сказать сложно.
Общий список сервисов – апдейты (всем), аффилиаты (ограничено), геобаза (большая, сейчас открыта маленькая), копание в цифрах релевантности (скрыто), переформулировки запросов (скрыто), поиск переформулировок и аффилиатов на открытых данных (сейчас нет), мониторилка параметров выдачи с расчетом средних, удобная для анализа (скрыто), копание в странных запросах из “прямого эфира” (скрыто), ну и куча других разных сервисов.
Я не обещаю полного-бесплатного-100% доступа ко всему,
но Вы поможете существованию этого сервиса и немножко попячите Яндекс! 🙂
В любом случае Вы контролируете свой телефон и сможете перепривязать его к другому аккаунту.

***
Кто хочет помочь сервису, чтобы он хорошо работал:
Прошу вбивать номер телефона – сразу я привязывать акк не буду, а когда буду (вручную, скорее всего) – Вы получите письмо от меня и SMS на телефон от яндекса.

После получения СМС нужно будет вбить на сайте tools.promosite.ru или сообщить мне письмом этот код (если письмом, то сообщить еще логин). Форму, куда вбивать, я сделаю отдельно и сообщу тем же письмом.

Ну и в благодарность сделаю какие-нибудь вип-возможности. 🙂

Кроме того, телефон можно использовать и для смс-уведомлений об апдейтах (пока этого нет, но будет).

ПОПЯЧИМ ЯНДЕКС!!!111

Перепост приветствуется и даже необходим!

Яндекс-XMLю – пипец… Лимиты снижены до 10 запросов в день.

вы уже готовились парсить выдачу? Я пока не готовился.
Но уже надо начинать. 🙁

Ваш дневной лимит составляет 10 запросов. Чтобы повысить свой лимит до 1000 запросов в сутки, вам необходимо подтвердить телефонный номер, который не был ранее никем подтверждён.

Видимо, так у всех не-вип юзверей.

***
PS. А, ну да. Я как бы знаю, что после конференции нетпромоутера они побежали искать дырку с переформулировками. Видимо, не нашли и решили это… отрубить гордиев узел 🙂 А потом, наверное, будут следить за моим акком и какие я запросы задаю 🙂

Не беспокойтесь, пацаны, я уже переформулировки выкачал, 1.3 млн.
Ну вы же знаете – я никому не скажу )))

***
PPS И да. Яндексоиды, а не хотите угроз? А то у меня есть.
Я выкачал (пробил на число сайтов, страниц, и на число выделенных найденных слов в тайтле) около 3-6 лямов запросов. Запросы с разной спрашиваемостью, не случайные.

Так вот если из этих запросов делать дорвеи, то это будет щастье. Запросы с низкой текстовой конкуренцией, незадроченные дорвейщиками, спрашиваемые. Их нашлось немеряно, процентов 10. Я еще пока не считал, сколько трафа можно выжать.
Единственное, что нетаргетированные, но порнуху или вирусы нормально будет. 🙂

Сам-то я не собирался дорвеи из них делать, но…
Так вот я ведь могу и базы выложить на скачивание, если чо.

Хотите?

Яндекс отменил “мягкость”?

Ненавижу.
Щито такое мягкость: в переколдовке запросов, которая частично описывалась в статье Сегаловича и Ко Яндекс на РОМИП-2004, был параметр “мягкость” – число через // в конце запроса, которое отражало долю веса кворума, которую найденная фраза могла не добрать и пройти кворум, т.е. найтись.
Это все было описано в хелпах (http://help.yandex.ru/search/?id=481939 на archive.org):

(запрос из нескольких слов)//N, где N — число от 1 до 100.
При расчете релевантности документа могут быть сочтены релевантными пассажи, где есть только часть слов запроса, тем меньшая, чем больше N (по умолчанию N=6). В результатах поиска такие документы помечены как «нестрогое соответствие». Подробнее см. раздел «”Фильтрация” по кворуму» в статье «Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс».

Это я полез туда убедиться, что у меня не глюк.
У меня не глюк – сейчас в хелпе Яндекса этого нету.
Т.е., удалили.
Самый интересный вопрос – а кой я полез в этот хелп? А вот…
У меня есть пробивалка “весов” слов, я по ней предполагал смотреть когда чего пересчитывают, веса пересчитывались каждый апдейт, но слабо. Иногда бывали очень сильные пересчеты весов.
Работала она обычно: задавался запрос вида (искомоеслово jsbcfebe::WT)//50, при этом если результат находился, вес искомогослова выше WT, нет – ниже. Интервал делился пополам, находился вес слова с точностью до 1.
И вот в какой-то момент оно мне начало показывать, что типа веса нулевые. Из-за какой-то там ошибочки.
Ошибочек оказалось две:
1. одна – это то, что мое “несуществующее слово” вида abrakadabra23123234 (буквыцифры) теперь не работает – яндекс в любом случае пишет, что ничего не найдено, видимо, как-то чекает конструкцию – просто abrakadabra из букв пашет нормально.
2. вторая – это то, что мягкость отменили… С мягкостью 50 стало искаться так же, как и без мягкости. Поэтому все диапазоны весов оказались заведомо не находящимися, при смене мягкости //50 на дефолтную //6 все веса огрублюется в 1396 раз, и границы диапазонов тоже сместились.
По моей базе видимое мне обнуление весов произошло примерно 1 июня. Не знаю – возможно мягкость отменили не тогда, а тогда абракадабру с цифрами отменили…
Но я сразу не полез смотреть на мягкость. Включил перепробивку (1440 слов, раз в минуту по слову) заново, изменив абракадабру.
А надо сказать, что слова в базе были подобраны так, чтобы был разброс: и слова с большими весами (десятки тыщ-миллионы), и с маленькими (300-800) вперемешку.
Только смотрю: при перепробивке все веса получаются в размере 200-400… А разброс в весах должен быть большой.
И случайно проверил мягкость…Не работает.
Полез в хелпы – удивился – нету. Не поверил глазам, полез в вебархив – нашел.
Проверяйте:
с мягкостью 50:
(скачивать aaaaddddeee::173)//50 – находится
(скачивать aaaaddddeee::174)//50 – нету
с мягкостью 6:
(скачивать aaaaddddeee::173)//6 – находится
(скачивать aaaaddddeee::174)//6 – нету
по дефолту:
(скачивать aaaaddddeee::173) – находится
(скачивать aaaaddddeee::174) – нету

Цуки. Отрубают потихоньку возможности-то… Не хотят, чтобы мы слишком точно считали…
Ну ничего, будем считать неточно. Хорошо, что у меня собранные точные данные сохранились. Веса-то мне не нужны, неточно тоже будем считать…

Попозже выложу сравнение старых и новых весов.

Дубль апа и планы по расширению апометра

Сегодня два апа в день – в час ночи добавился RU+EN за два дня, в три ночи только EN за один день.
http://tools.promosite.ru/updates/details.php?data=2009-05-22
Прикрутил раздельный показ апов общих и частичных, чтобы все точно было.

В планах и желаниях добавить в ту же rss алерты про:
пересчет весов слов
мировая константа 1395 с &
стандартная мягкость //6 с &
(постоянство формулы кворума)
пересчет переколдовки
пересчет ранга и траста

изм-е учитываемой длины тайтла
изм-е длины предложения
изм-е длины ссылки

А то все время изменяют параметры, а мы и не знаем 🙂

мой доклад на конфе выложен

14-го мой доклад на ашмановской конфе 2008, и презентация – выложены на bdbd.ru
Необычно как-то в пдфе. 🙂

‘Использование особенностей языка запросов поиска Яндекса для исследований’
Евгений Трофименко (начальник отдела исследований и аналитики, ‘Корпорация РБС’)
Яндекс – не только наиболее популярный поисковик в Рунете, но и наиболее открытый к исследованиям его алгоритмов. Рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения. Отдельные элементы переформулировки запросов Яндексом, полезные для оптимизации сайтов.

Основные пунктики:
1. отбор НПС-результатов [слово -слово”>
2. вычистка НПС, оценка доли НПС [запрос ~~абракадабра”>
3. исследование расширения запросов операторами исключения
4. отмена контекстных ограничений в новом колдунщике (точнее, колдунщика вообще нет больше)

Колдунщик таки удалили

Похоже, параметр reqtext пустой в ссылке на сохраненую копию. Колдунщика нету теперь.
Колдунщик просуществовал больше двух лет, и в прошлый раз яндекс убрал ссылку "найденные слова", заменил ее на "сохраненную копию". Тогда уже скопировать кеши казалось полезно, ну и теперь кеши остались.
Скоро, небось, базу переколдованных запросов люди будут продавать 🙂
Теоретически выходы какие:
1. использовать архивы
2. читать литературу, зацитированную Сегаловичем, восстановить метод переколдовки. Там используется, кажется, ассоциированные запросы. Тут думать надо и брать ассоциации из Я…
3. раньше можно было как – страничку "нашел" целенаправленно с допусловиями по сайту, там меняешь чего хочешь и смотришь подсветку. Теперь только сохраненые копии в доступе, с мгновенной подсветкой не выйдет. Так что остается брать по запросу сохраненные копии и в них программно выискивать расхождения (ненайденные слова, стоящие рядом, найденные и стоящие далеко и т.п.)
4. Вставлять между словами операторы (надеемся, что колдунщик еще сохраняет введенное пользователем) и расстояния и другие гипотезы, и сравниваем выдачу. 🙂 Только с весами проблема, их так не определить.
***
Типа того.

Минус-слова в разном контексте, оказывается, бывают

Как-то по умолчанию предполагал, что если запрос в Яндексе с минус-словом – то это минус-слово должно минусоваться в документном контексте.
Я замечал, что минус-слово в колдунщике ставится с оператором расстояния, но не придавал этому значения, думал, колдунщик тупо ставит, а там уже все равно его “вычитают” по документу.
А вот хрен там.
Примеры:
!Иванов &/(1 1) -Андрей – поиск на расстоянии плюс одно слово: во втором сниппете “Андрей Иванов” (минус одно слово)
!Иванов &/(-1 1) -Андрей – этого уже нет.
!Иванов -Андрей – переколдовывается с расстоянием в 3 предложения до “минус андрея”. Включения тоже нет.

А раз такие дела, то “отсутствие слова” в таком запросе может тольковаться как вклад в релевантность, меняться число термов в запросе (и кворум, кстати!) – и меняться выдача…

то-то она иногда меняется с минус словами… а мы можем списать это на “пробивание кеша” 🙂