ггг, Адлабз

по-моему, вставлять рефссылки в статьи сеокомпании – какой-то очевидный ахтунг.
вот тут: http://www.adlabs.ru/posts/160/ (корпоративный блог) начиная со слов “Полностью автоматизированные системы типа SeoPult, WebEffector пока не покорили рынок, хотя и не оставляют попыток это сделать” – идут рефки на сеопульт, эффектор, сапу.
Они не догадались зарегаться в блогуне и мирелинксе – там тоже рефералки есть 🙂
И причем даже не важно, автор лично или сама компания вставила. Это как бы говорит нам, что доходы компании сопоставимы с реферальскими доходами, поэтому рефералкой нельзя пренебречь. 🙂
Ы.

Нигма, оказывается, умная

Разбирает, и вроде успешно, пары ключ-значение в текстах на странице. Если значение меняется внутри страниц одного типа.
Кластеризует страницы по урлам.
Лавренко что-то там спалил со словами "ну, здесь же оптимизаторов нет". 🙂

опасаясь контрразведки, избегая жизни светской

под английским псевдонимом…
я разработчик поисковых систем, а вы не знали? 🙂 Потом покажу. 🙂

Поеду на http://www.search-conf.ru/ (Ашмановский семинар типа для разработчиков и т.п. поиска).

Горные лыжи в перерывах и все такое.

почему они все такие – ч. 2

Ну и вот.
В далеком научном прошлом был хороший принцип: "отрицательный результат – тоже результат". Это не всегда получается, но к этому нужно стремиться.
Пример: Вася-Петя экспериментально выясняет нечто. Если нечто удалось – отлично. Если не удалось – упс, положительного результа нет, а отрицательный ничего не означает – время потрачено зря. Ну, тут все понятно – это про правильную постановку экспериментов. Избегаем неправильной постановки экспериментов.

Так и с поиском то же самое. Юзер задал запрос (он, кстати, привык по умолчанию, что слова в документе должны быть близко к словам в запросе – порядок и дальность) – и ничего не нашлось. Это результат или нет?

Конечно, это результат. Это означает, что нужно переформулировать запрос (или насильно включить специальный режим "мягкого" поиска).

Отрицательный результат не менее важен, чем положительный.

Теперь начнем высер.
Я недавно видел какую-то стату по запросам в яху, по которой получалось, что на 6% запросов дается пустой ответ – ничего не найдено. Не знаю, сколько было аналога в яндексе (когда были живы контекстные ограничения), но думаю, больше (у яндекса база меньше, значит, пустых ответов на НЧ запросы больше). Допустим, 10% "ничего не найдено" было – разумно.

И я уже себе представляю это в красках. Сидит в яндексе какой-нибудь хуй. Которому дали задание "углубить и расширить". Чтобы увеличить удовлетворение пользователя, нах! Степень удовлетворения рисуеццо на графике. Ну, там, меры всякие, DCG и pfound и все такое. И у гугля оно выше, за это менеджеру отдельно вставляют.

И тут этого менеджера пробивает мысль! Хуяк! Это как это мы на 10% запросов выдаем пустой ответ! (удовлетворение юзера от такой выдачи по их мерам равно нулю).
И возникает мысль. Давайте выдавать, если ничего не найдено – не пустой результат, а какую-нибудь околорелевантную хуйню. На ней же удовлетворение будет всяко выше нуля.
PROFIT!!!

…вот так просто: берем и на дороге находим 10% бумажной эффективности. От показа разной хуйни тогда, когда следует показать "ничего не найдено".

…так в Яндексе появилась релевантность "all" примерно 2 года назад.

Если нужна справка – см. в яндекс-ХМЛ, там есть несколько типов релевантности – фразовая phrase (совпадает порядок слов), стриктовая strict (слова не очень далеко друг от друга с контекстными ограничениями и с кворумами-весами), и вся-остальная-хуйня all (слова есть вообще в документе и она очень-очень мягкая). Она и раньше существовала, но вылезать во всех местах в выдаче она стала как раз вот тогда.
Этот приоритет нужно только в ХМЛ смотреть.

Но, конечно, идея "показывать любую околорелевантную хуйню, когда ничего не найдено" не вписывается в план и общую формулу. Значит, план надо переписать.

… и "all"-документы появляются в выдаче наравне с релевантными документами. Это давно еще было.

Пробейте свои любимые НЧ – и посмотрите в ХМЛ. Обнаружите удивительную связь нерелевантных результатов с relevance priority="all"
_______________________________
Ну а юзер что? Юзер заходит, видит, что на его НЧ вместо разумного ответа (ничего нет = переформулируйте запрос) выдается какая-то помойка, где слова из запроса разбросаны по всему документу.
И думает: ну его на хрен, такой поиск, херню какую-то ищет.
_______________________________
Потому, что для юзера отрицательный результат тоже важен. Его бла-бла-бла с релевантностью all не интересует. Пусть даже она около- и на ту же тему.

Сделал в апометре – отдельно по конкурентности

Сделал показ степени изменений при апдейтах, разбитую по запросам разной конкурентности.
В апометре (сегодня, внизу страницы) и в виджете (вид и ссылка для установки на яндекс) теперь графики степени изменения выдачи для нескольких групп запросов – от ВЧ конкурентных до никому не нужных.

В виджете только один график http://www.yandex.ru/?add=10156 , в апометре несколько – отдельно взвешенное изменение, отдельно невзвешенное. И в апометре еще степень изменения выдачи для разной длины запроса (число слов).

Надо теперь подумать, как удобнее показывать на сайте.

И да: обновляются эти картинки в 9-30, а не сразу после апа. Когда все 5К+ запросов скачаются из хмля.

Эти же данные доступны и при листании в глубину, они же давно собирались. Пролистав вглубь, видим, что иногда апдейты (как сегодня) бывают осмысленные, с явно более сильным изменением конкурентных запросов, а иногда бессмысленные (когда по всем запросам изменения примерно одинаковы). А иногда бывало даже – что по редким запросам изменения сильнее (я так думаю, это от подкруток учета текстового).

Причем там еще есть взвешенные изменения (когда глубокие пары учитываются с меньшим весом), и оно, например, сегодня не показывает осмысленных изменений ).

Ну и по длине запросов разные изменения бывают. Надо как-нть сесть, пролистать в глубину.
***
Пока что в день релиза не кажет графиков (когда текстовго апа нет), но сделаю.

___________________
UPD сделал показ в дни релизов.

+ пример, когда для низкочастотки сильнее расколбас
+ пример, когда только по длине запроса сильнее расколбас

конструкции поиска НПС больше нет в яндексе

Оператору для поиска удобных НПС в яндексе слово -слово пришел конец.

Заодно показали, что операторы поиска и примеры теперь новые. Двоеточий каких-то понаставили вместо знаков =. Наверное, какой-то любитель трубопаскаля теперь рулит, а = и кавычки удалил как пережиток прошлого )

Оператора "минус" там нет, но сам по себе он работает. Т.е., минус теперь применяется и к текстам ссылок.

Яндекс-адреса для всех независимо от тИЦ

Пришло письмо.
Однако к определению региона оно не относится – это только про адреса, и немного для гостиниц.
Для указания региона сайта – тиц все равно нужен.

Добрый день!

Закончилось бета-тестирование раздела “Адреса и организации” в сервисе Яндекс.Вебмастер, во время которого добавлять и редактировать данные об организации можно было лишь для сайтов с ТИЦ > 10. Теперь это можно сделать для сайтов с любым ТИЦ.

Кроме того, появилась возможность указать дополнительные данные об организации из наиболее популярных рубрик. Например, владелец гостиницы может сообщить количество номеров и расстояние до моря, а хозяин боулинга – количество дорожек, наличие детских шаров и караоке. Все эти данные будут показаны на карточке компании при поиске по Яндекс.Картам, а для сайтов гостиниц еще и в результатах поиска.

Более подробно о добавлении организаций можно почитать здесь: http://help.yandex.ru/webmaster/?id=1108685

почему они все такие – ч. 1

Вот.
Насчет алгоритмов и прочего обучения.
Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки.
Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом.
Но я как-то думаю, что чудесным образом ничего не родится. Вот вам из Гашека:

Однако мне тоже хочется, господа, задать вам одну загадку,— продолжал он.— Стоит четырехэтажный дом, в каждом этаже по восьми окон, на крыше — два слуховых окна и две трубы, в каждом этаже по два квартиранта. А теперь скажите, господа, в каком году умерла у швейцара бабушка?

Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа…
Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам – фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.
…И все это перемножить. ( 🙂 шариковское "и поделить")
…и зохавать в обучение.
…А теперь скажите господа, насколько релевантна страница запросу?
Результат в общем случае – непонятно какой. Естественно, часть параметров более-менее какой-то смысл имеет… Большая часть – никакого. Большая часть – непонятный смысл, типа а вдруг получится.
Ну так и выдача – тоже непонятно какая.
========
Общий мысль вот какой:
Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать – толк будет. И хорошо искать будет.
А если ваши факторы – херня, то вся ваша королевская конница будет решать задачку выше – про бабушку. И искать будет типа так:

— Радий тяжелее олова?
— Я его, извиняюсь, не вешал,— со своей милой улыбкой ответил Швейк.
***
— Не знаете ли вы, какова наибольшая глубина в Тихом океане?
— Этого, извините, не знаю,— послышался ответ,— но думаю, что там наверняка будет глубже, чем под Вышеградской скалой на Влтаве.
***
— Сколько будет, если умножить двенадцать тысяч восемьсот девяносто семь на тринадцать тысяч восемьсот шестьдесят три?
— Семьсот двадцать девять,— не моргнув глазом, ответил Швейк.
— Я думаю, вполне достаточно,— сказал председатель комиссии. — Можете отвести обвиняемого на прежнее место.

Это я все к чему.
К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров – и будешь искать хорошо. Пусть даже новичок.
А то тов. Ашманов говорит – принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет – как у всех. Как у рамблера, который самизнаетегде.
======
Высер еще не закончен, ждите продолжения

Собрал свою стату по last20

У меня пробивалка ласт20 на подозрительные запросы не только подозрительные пишет, но еще и обычные запросы собирает. Ну, оно уже давно стоит, хотя и с перебоями работает – вот решил собрать все запросы.

Итог:
всего запросов 68906463 (69 млн.)
уникальных запросов 28016725 (28 млн.)
всего фрагментов "одноклассник" 317673 (как в вордстате, по всем запросам. Для нормировки)
точных запросов "одноклассники" 117820

Конечно, там вычищено – порнухи и секса нет. Но зато коммерческие запросы есть. Этим будет отличаться от ливинтернетовских баз – там порнуха есть, но в коммерческих запросах должна быть дыра – сайты стату закрывают же.

Впору свою базу продавать ))

firefox с yahoo?

А яху, кажется, будет с поиском бинг. Мелкософт подкрался к файрфоксу 🙂
Все-таки странно. Не очень верится.
Опять же, что это еще за "Ubuntu Firefox"? Это файрфокс как у всех? Или какая-то модификация, никому не нужная?
Кажется, это ФФ для линуксоидов. Ну они 1. никому не нужны и 2. с гугла никуда не перейдут.

Ubuntu Firefox shuns Google for Yahoo! search

"The next release of Ubuntu will scrap Google as the default search engine on its Firefox browser in favor of Yahoo!, thanks to a new revenue-sharing deal between Yahoo! and commercial Ubuntu backer Canonical."

Ubuntu: Yahoo! заменит Google

По новому соглашению о разделе доходов между Yahoo! и компанией Canonical, коммерчески поддерживающей Убунту, в следующем релизе Убунту (10.4, Lucid Lynx) поисковая машина по умолчанию в браузере Firefox будет сменена с Google на Yahoo!