“еще с сайта” без цифирок теперь?

url="www.yandex.ru/*"
Рядом со ссылкой "еще с сайта" цифирок нет.
Какой смысл, юзеру понравится не знать количество страниц, что ли…
И парсить объем сайта тяжелее, хотя в ХМЛ, вероятно, есть – там же отдельный тег под это выделен, пойду смотреть.

Хотя это может быть связано чисто с проблемами нагрузки. Типа, считать число релевантных запросу страниц внутри каждого сайта – мощностей не хватает?

Яндекс отменил “мягкость”?

Ненавижу.
Щито такое мягкость: в переколдовке запросов, которая частично описывалась в статье Сегаловича и Ко Яндекс на РОМИП-2004, был параметр “мягкость” – число через // в конце запроса, которое отражало долю веса кворума, которую найденная фраза могла не добрать и пройти кворум, т.е. найтись.
Это все было описано в хелпах (http://help.yandex.ru/search/?id=481939 на archive.org):

(запрос из нескольких слов)//N, где N — число от 1 до 100.
При расчете релевантности документа могут быть сочтены релевантными пассажи, где есть только часть слов запроса, тем меньшая, чем больше N (по умолчанию N=6). В результатах поиска такие документы помечены как «нестрогое соответствие». Подробнее см. раздел «”Фильтрация” по кворуму» в статье «Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс».

Это я полез туда убедиться, что у меня не глюк.
У меня не глюк – сейчас в хелпе Яндекса этого нету.
Т.е., удалили.
Самый интересный вопрос – а кой я полез в этот хелп? А вот…
У меня есть пробивалка “весов” слов, я по ней предполагал смотреть когда чего пересчитывают, веса пересчитывались каждый апдейт, но слабо. Иногда бывали очень сильные пересчеты весов.
Работала она обычно: задавался запрос вида (искомоеслово jsbcfebe::WT)//50, при этом если результат находился, вес искомогослова выше WT, нет – ниже. Интервал делился пополам, находился вес слова с точностью до 1.
И вот в какой-то момент оно мне начало показывать, что типа веса нулевые. Из-за какой-то там ошибочки.
Ошибочек оказалось две:
1. одна – это то, что мое “несуществующее слово” вида abrakadabra23123234 (буквыцифры) теперь не работает – яндекс в любом случае пишет, что ничего не найдено, видимо, как-то чекает конструкцию – просто abrakadabra из букв пашет нормально.
2. вторая – это то, что мягкость отменили… С мягкостью 50 стало искаться так же, как и без мягкости. Поэтому все диапазоны весов оказались заведомо не находящимися, при смене мягкости //50 на дефолтную //6 все веса огрублюется в 1396 раз, и границы диапазонов тоже сместились.
По моей базе видимое мне обнуление весов произошло примерно 1 июня. Не знаю – возможно мягкость отменили не тогда, а тогда абракадабру с цифрами отменили…
Но я сразу не полез смотреть на мягкость. Включил перепробивку (1440 слов, раз в минуту по слову) заново, изменив абракадабру.
А надо сказать, что слова в базе были подобраны так, чтобы был разброс: и слова с большими весами (десятки тыщ-миллионы), и с маленькими (300-800) вперемешку.
Только смотрю: при перепробивке все веса получаются в размере 200-400… А разброс в весах должен быть большой.
И случайно проверил мягкость…Не работает.
Полез в хелпы – удивился – нету. Не поверил глазам, полез в вебархив – нашел.
Проверяйте:
с мягкостью 50:
(скачивать aaaaddddeee::173)//50 – находится
(скачивать aaaaddddeee::174)//50 – нету
с мягкостью 6:
(скачивать aaaaddddeee::173)//6 – находится
(скачивать aaaaddddeee::174)//6 – нету
по дефолту:
(скачивать aaaaddddeee::173) – находится
(скачивать aaaaddddeee::174) – нету

Цуки. Отрубают потихоньку возможности-то… Не хотят, чтобы мы слишком точно считали…
Ну ничего, будем считать неточно. Хорошо, что у меня собранные точные данные сохранились. Веса-то мне не нужны, неточно тоже будем считать…

Попозже выложу сравнение старых и новых весов.

сравнение геовыдач: Арзамас 1.1 + 6 основных регионов

Обновил http://tools.promosite.ru/region/region_buki.php
Добавил возможность сравнивать любые из 6 основных регионов плюс буки.

Теперь можно радостно наблюдать, как мощно прыгает доля москвы-питера при выставлении региона.

Арзамас 1.1 и регионы на буках

Яндекс сказал, что Арзамас 1.1 грядёт и выложил на буках тестироваться.
Я так думаю, что по “России” они хотят сделать очень индивидуальную по регионам выдачу, по большому списку.
Чтобы было легче фтыкать, сделал сервез: http://tools.promosite.ru/region/region_buki.php
Он берет выдачу старую российскую, берет выдачу бук (новая российская), и каждому сайту рисует список регионов по XML.
Легко сравнивать.
С виду – вроде общероссийские сайты, сайты с широким списком привязанных регионов лучше себя чувствуют… Типа универсальные.
В общем, смотрите сами свои запросы.

Яндекс: определение региона сайта в XML

Они не анонсируют проекты, они ждут, пока за них проанонсируют 🙂
Я, кажется, нашел способ смореть гео-привязку сайта http://tools.promosite.ru/region/ в яндексе.

Релиз Яндекса “Арзамас” – прикрутили влияние регионов сайтов на выдачу для региональных айпи. Пока что есть несколько “регионов” с разной выдачей (в сервисе сравнения выдачи по регионам их шесть).

Региональная привязка сайта, конечно, влияет на его положение в выдачах. Влияет ли региональная привязка доноров – это интересно всем, будем смотреть.

Но как смотреть? Как вообще определить регион сайта, чтобы на основе этого думать и делать эксперименты? По яндекс-каталогу? А если сайта в нем нет?

Недавно я полез в Яндекс.ХМЛ пошариться и неожиданно увидел там во всех результатах выдачи гео-теги, такого вида:

Вложенные теги с ID регионов в тегах categ:

<categ attr="geo" id="0" name="">
<categ attr="geo" id="225" name="">
<categ attr="geo" id="17" name="-">
<categ attr="geo" id="10174" name="- ?">
<categ attr="geo" id="2" name="-?" />
</categ>
</categ>
</categ>
</categ>

Конечный список тегов geo и geoa:

<properties>
<_IsFake>0</_IsFake>
<_MimeType>2 0&d=3675913&sh=1&sg=-1</_MimeType>
<_PassagesType>0</_PassagesType>
<geo>2</geo>
<geo>35</geo>
<geo>39</geo>
<geo>51</geo>
<geo>213</geo>
<geoa>2</geoa>
<geoa>35</geoa>
<geoa>39</geoa>
<geoa>51</geoa>
<geoa>213</geoa>

Конечно, все айдишники регионов соотвествуют списку кодов регионов.
Причем теги geo и geoa часто повторяют друг друга, содержат похожие данные. Подозреваю, что geoa – автоматическая привязка…

Сейчас я пробиваю биржевые ссылки, саподоноры на геопривязку. Пробито ~60 тыс. доноров, которые по моей оценке накрывают ~90% свободных ссылкомест. Сейчас есть возможность (после регистрации) скачать полные списки доменов для блек и вайт-листов, кому это интересно. Пробивать домены клиентов можно уже сейчас.

В списках доменов перемешаны все сайты – и сапосайты, и все пробитые домены, добавленные вручную. По другим биржам тоже, вероятно, пробью географию – когда-нибудь потом.

В документации на ХМЛ этого нету, конечно, 🙂 авось когда-нибудь появится.

Я.wordstat обновился, Я.интересы появились

Вроде как фильтруют накрученные запросы. Или пытаются фильтровать. Рисуют красивые графики динамики числа запросов по неделям.
http://direct.yandex.ru/help/?id=1061384

Новые возможности статистики ключевых слов
В сервисе статистики ключевых слов произошли изменения.

В частности был усовершенствован алгоритм фильтрации недобросовестных показов. Теперь автоматические запросы фильтруются точнее, а некоторые типы запросов, ранее принимавшиеся за автоматические и не включенные в статистику, напротив, учитываются. Поэтому по некоторым запросам на графиках видны резкие скачки числа показов как в большую, так и в меньшую сторону по сравнению с предыдущими периодами. Дата ввода нового алгоритма фильтрации (1 марта 2009 года) выделена вертикальной красной чертой.

Хронологический срез статистики теперь представлен 14 месяцами, а в дальнейшем будет расширен до двух лет. Это дает рекламодателям новые возможности для сравнения и прогнозирования изменений спроса.

Также на сервисе добавлены недельные графики, показывающие актуальное изменение количества запросов по ключевой фразе. Эти графики могут быть использованы для оперативного отслеживания всплесков интереса к той или иной тематике.

Еще сделали Яндекс-интересы – резкие взлеты числа запросов во времени (почему-то везде на офсайтах ссылка на interes.yandex.ru, а в роботсе основной хост interests.yandex.ru)

Апометр отакуе-2: разделение зарубежной и русской выдачи Ya

В апометре http://tools.promosite.ru/ начал разделять русскую и зарубежную выдачу.
Например, сегодня был ап зарубежки, на форуме темку-то удалили. 🙂
Делаю так: кроме даты date=”YYYYMMDD” использую оператор автоопределенного языка lang=”(ru, uk, be, en, fr, de)”. Язык, конечно, определяется кривовато (не всегда правильно), но в среднем по больнице резкие скачки видны отчетливо.
Итого, смотрю запросы:
для русской выдачи (lang=”ru” | lang=”uk”) date=”YYYYMMDD”
для буржуйской выдачи (lang=”en” | lang=”de” | lang=”fr”) date=”YYYYMMDD”

И рисую округленное число сайтов для каждой выдачи (пр наведении мыши – точные числа).

Разные апы подсвечиваются разным цветом.

Апометр Яндекса отакуе: теперь смотрим релизы!

Нужно-нужно мне в апометре делать распознавание зарубежных и русских апов. Уже поставил сбор данных, жду ближайшего апа зарубежки.

Тут nickspring сделал “еще более правильные” апдейты, типа по моему алгоритму, но с добавками каких-то хитростей, каких – не пишет. Типа отсечение быстроробота и еще чего-то. Ну быстроробот – фигня, я его по числу документов вижу. А вот как он будет зарубежку отсекать, посмотрим.

А пока что наш ответ чемберлену. 🙂

Я добавил в свой апометр показ “релизов без апдейта” когда выдача меняется без выкладывания индекса. Релизом это называть ссыкотно – все же речь о подкрутке коэффициентов в текущем алгоритме, а не о новых версиях алгоритма. Так что я назвал “изменением выдачи”, типа нейтрально 🙂

Вот на http://tools.promosite.ru/updates/ красненьким выделены именно такие изменения выдачи. Ашмановский апометр подтверждает изменения от 3 мая и 18-19 февраля: http://analyzethis.ru/?analyzer=update&detail=yandex&interval=halfyear

У меня стоит анализ взвешенной степени изменения, показывается при изменении больше 15%. Весовая ф-я написана на http://tools.promosite.ru/monitoring/ – если сайт сохранил свою позицию за день, он дает этот вес в “степень похожести” выдачи.

Данные, собственно, у меня и так уже были, я же мониторю много запросов и рисую красивые картинки по изменениям взвешенных параметров выдачи. Так что оставалось только прикрутить.

Из имеющихся проблем. Почему-то на следующий день после апа – какие-то остаточные изменения в выдаче вижу, хотя мониторинг начинает пробивать после 4 утра, когда ап практически всегда уже закончен. Поэтому следующий день после апа я игнорирую.

И еще о нижней границе в 15%. Много случаев, когда по моему способу взвешивания расколбас в выдаче 6-8%, но у Ашманова изменения видны в большом количестве. И есть случаи, когда при 6-8% “моих” изменений у Ашманова полный штиль. Поэтому я границу повыше поставил.

Итак, на сейчас – есть подкрутка от 3 мая. Ашманов подтверждае.

Яндекс делает дорвеи

Прикольные штуки в яндексе творятся. Я вот тут слышал такое название – “аккордеон”, типа когда вместо текста ставится оглавление, а при нажатии на пунктик оглавления появляется кусочек текста.
А сам текст – скрытый.
И причем есть четкие примеры, что за это банят. И даже обосновывают: бан за скрытый текст. Все честно.

И при этом сами яндексоиды занимаются именно этим. Например, на http://bar.yandex.ru/firefox/faq/ – именно такой аккордеон со скрытым текстом, и не только на этой странице, но и на других разделах.

Обыкновенный скрытый текст. Ну я не удержался и стуканул:

Здравствуйте!

Сайт bar.yandex.ru занимается спамом. На нем содержится скрытый текст, невидимый пользователю, но индексируемый.

Если пользователь набирает какой-нибудь запрос, например

пробки и погода в выбранном городе
защита домашней страницы
перезапустите браузер
корректор раскладки

то сайт bar.yandex.ru вылезает в первой пятерке, а то и на первом месте, с подсвеченной фразой, но при открытии страницы на ней совершенно не видно этой фразы, и приходится тыкать во все ссылки подряд, пока найдешь нужный кусок текста.

Прошу принять меры к злостным спаммерам!

Теперь посмотрим, чиво будет… 🙂

[closed] Куплю инструкцию для асессоров Яндекса

{написанное ниже – ТЕПЕРЬ НЕАКТУАЛЬНО, ПРЕДЛОЖЕНИЕ ЗАКРЫТО!}
Если вы работаете в теме "обеспечения качества поиска" в Яндексе, оцениваете соответствие сайтов запросам (т.н. асессор), то в качестве обучения вам должны были присылать инструкцию, в которой говорится, какие сайты являются хорошими, как их оценивать и по каким критериям.

Вот эту-то инструкцию я и хочу получить. Оплата – от 1000 WMZ, цена может быть повышена по соглашению. Конфиденциальность гарантирую, пишите на [email protected] или [email protected]

Партнерка: если вы перепубликуете у себя это или ссылку на это, и продавец инструкции укажет вас как источник информации, то 2 уровня источников (блоггеров) выше продавца получат по 150 WMZ в случае успешной продажи.

Хочу купить лично я, информацию передавать никому не собираюсь.
Я знаю, что примерно должно быть в инструкции, будьте готовы прислать ТТХ (число картинок, знаков и т.п.) или маленькие кусочки инструкции, цитаты. Я буду проверять.

Теперь разговор за мораль.
Я хочу уметь делать качественные сайты. А в инструкции написано, какие сайты качественные, а какие-нет. Так что реального секрета здесь быть не может, по крайненй мере, вреда в этом нет.

А сайты будут в интернете гораздо качественнее 🙂

PS Если считаете, что мало денег, я могу с кем-нть скинуться и купить вскладчину. Все возможно.