а у Яху 500-600 поисковых факторов

а у Яху 500-600 поисковых факторов, по сравнению с яндексовыми ~250:
http://learningtorankchallenge.yahoo.com/datasets.php

# features 519 596

Нигма, оказывается, умная

Разбирает, и вроде успешно, пары ключ-значение в текстах на странице. Если значение меняется внутри страниц одного типа.
Кластеризует страницы по урлам.
Лавренко что-то там спалил со словами "ну, здесь же оптимизаторов нет". 🙂

почему они все такие – ч. 2

Ну и вот.
В далеком научном прошлом был хороший принцип: "отрицательный результат – тоже результат". Это не всегда получается, но к этому нужно стремиться.
Пример: Вася-Петя экспериментально выясняет нечто. Если нечто удалось – отлично. Если не удалось – упс, положительного результа нет, а отрицательный ничего не означает – время потрачено зря. Ну, тут все понятно – это про правильную постановку экспериментов. Избегаем неправильной постановки экспериментов.

Так и с поиском то же самое. Юзер задал запрос (он, кстати, привык по умолчанию, что слова в документе должны быть близко к словам в запросе – порядок и дальность) – и ничего не нашлось. Это результат или нет?

Конечно, это результат. Это означает, что нужно переформулировать запрос (или насильно включить специальный режим "мягкого" поиска).

Отрицательный результат не менее важен, чем положительный.

Теперь начнем высер.
Я недавно видел какую-то стату по запросам в яху, по которой получалось, что на 6% запросов дается пустой ответ – ничего не найдено. Не знаю, сколько было аналога в яндексе (когда были живы контекстные ограничения), но думаю, больше (у яндекса база меньше, значит, пустых ответов на НЧ запросы больше). Допустим, 10% "ничего не найдено" было – разумно.

И я уже себе представляю это в красках. Сидит в яндексе какой-нибудь хуй. Которому дали задание "углубить и расширить". Чтобы увеличить удовлетворение пользователя, нах! Степень удовлетворения рисуеццо на графике. Ну, там, меры всякие, DCG и pfound и все такое. И у гугля оно выше, за это менеджеру отдельно вставляют.

И тут этого менеджера пробивает мысль! Хуяк! Это как это мы на 10% запросов выдаем пустой ответ! (удовлетворение юзера от такой выдачи по их мерам равно нулю).
И возникает мысль. Давайте выдавать, если ничего не найдено – не пустой результат, а какую-нибудь околорелевантную хуйню. На ней же удовлетворение будет всяко выше нуля.
PROFIT!!!

…вот так просто: берем и на дороге находим 10% бумажной эффективности. От показа разной хуйни тогда, когда следует показать "ничего не найдено".

…так в Яндексе появилась релевантность "all" примерно 2 года назад.

Если нужна справка – см. в яндекс-ХМЛ, там есть несколько типов релевантности – фразовая phrase (совпадает порядок слов), стриктовая strict (слова не очень далеко друг от друга с контекстными ограничениями и с кворумами-весами), и вся-остальная-хуйня all (слова есть вообще в документе и она очень-очень мягкая). Она и раньше существовала, но вылезать во всех местах в выдаче она стала как раз вот тогда.
Этот приоритет нужно только в ХМЛ смотреть.

Но, конечно, идея "показывать любую околорелевантную хуйню, когда ничего не найдено" не вписывается в план и общую формулу. Значит, план надо переписать.

… и "all"-документы появляются в выдаче наравне с релевантными документами. Это давно еще было.

Пробейте свои любимые НЧ – и посмотрите в ХМЛ. Обнаружите удивительную связь нерелевантных результатов с relevance priority="all"
_______________________________
Ну а юзер что? Юзер заходит, видит, что на его НЧ вместо разумного ответа (ничего нет = переформулируйте запрос) выдается какая-то помойка, где слова из запроса разбросаны по всему документу.
И думает: ну его на хрен, такой поиск, херню какую-то ищет.
_______________________________
Потому, что для юзера отрицательный результат тоже важен. Его бла-бла-бла с релевантностью all не интересует. Пусть даже она около- и на ту же тему.

Яндекс-адреса для всех независимо от тИЦ

Пришло письмо.
Однако к определению региона оно не относится – это только про адреса, и немного для гостиниц.
Для указания региона сайта – тиц все равно нужен.

Добрый день!

Закончилось бета-тестирование раздела “Адреса и организации” в сервисе Яндекс.Вебмастер, во время которого добавлять и редактировать данные об организации можно было лишь для сайтов с ТИЦ > 10. Теперь это можно сделать для сайтов с любым ТИЦ.

Кроме того, появилась возможность указать дополнительные данные об организации из наиболее популярных рубрик. Например, владелец гостиницы может сообщить количество номеров и расстояние до моря, а хозяин боулинга – количество дорожек, наличие детских шаров и караоке. Все эти данные будут показаны на карточке компании при поиске по Яндекс.Картам, а для сайтов гостиниц еще и в результатах поиска.

Более подробно о добавлении организаций можно почитать здесь: http://help.yandex.ru/webmaster/?id=1108685

почему они все такие – ч. 1

Вот.
Насчет алгоритмов и прочего обучения.
Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки.
Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом.
Но я как-то думаю, что чудесным образом ничего не родится. Вот вам из Гашека:

Однако мне тоже хочется, господа, задать вам одну загадку,— продолжал он.— Стоит четырехэтажный дом, в каждом этаже по восьми окон, на крыше — два слуховых окна и две трубы, в каждом этаже по два квартиранта. А теперь скажите, господа, в каком году умерла у швейцара бабушка?

Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа…
Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам – фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.
…И все это перемножить. ( 🙂 шариковское "и поделить")
…и зохавать в обучение.
…А теперь скажите господа, насколько релевантна страница запросу?
Результат в общем случае – непонятно какой. Естественно, часть параметров более-менее какой-то смысл имеет… Большая часть – никакого. Большая часть – непонятный смысл, типа а вдруг получится.
Ну так и выдача – тоже непонятно какая.
========
Общий мысль вот какой:
Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать – толк будет. И хорошо искать будет.
А если ваши факторы – херня, то вся ваша королевская конница будет решать задачку выше – про бабушку. И искать будет типа так:

— Радий тяжелее олова?
— Я его, извиняюсь, не вешал,— со своей милой улыбкой ответил Швейк.
***
— Не знаете ли вы, какова наибольшая глубина в Тихом океане?
— Этого, извините, не знаю,— послышался ответ,— но думаю, что там наверняка будет глубже, чем под Вышеградской скалой на Влтаве.
***
— Сколько будет, если умножить двенадцать тысяч восемьсот девяносто семь на тринадцать тысяч восемьсот шестьдесят три?
— Семьсот двадцать девять,— не моргнув глазом, ответил Швейк.
— Я думаю, вполне достаточно,— сказал председатель комиссии. — Можете отвести обвиняемого на прежнее место.

Это я все к чему.
К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров – и будешь искать хорошо. Пусть даже новичок.
А то тов. Ашманов говорит – принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет – как у всех. Как у рамблера, который самизнаетегде.
======
Высер еще не закончен, ждите продолжения

firefox с yahoo?

А яху, кажется, будет с поиском бинг. Мелкософт подкрался к файрфоксу 🙂
Все-таки странно. Не очень верится.
Опять же, что это еще за "Ubuntu Firefox"? Это файрфокс как у всех? Или какая-то модификация, никому не нужная?
Кажется, это ФФ для линуксоидов. Ну они 1. никому не нужны и 2. с гугла никуда не перейдут.

Ubuntu Firefox shuns Google for Yahoo! search

"The next release of Ubuntu will scrap Google as the default search engine on its Firefox browser in favor of Yahoo!, thanks to a new revenue-sharing deal between Yahoo! and commercial Ubuntu backer Canonical."

Ubuntu: Yahoo! заменит Google

По новому соглашению о разделе доходов между Yahoo! и компанией Canonical, коммерчески поддерживающей Убунту, в следующем релизе Убунту (10.4, Lucid Lynx) поисковая машина по умолчанию в браузере Firefox будет сменена с Google на Yahoo!

Релиз ненарисованный

у меня сегодня http://tools.promosite.ru/ шторм выдачи 42% без текстового апа.

Не заорало про релиз, потому что приучено на следующий день после апа не показывать, надо заново обучить (зато в виджете показывает, см.)

Но не только ашмановский апометр показал, но и сеоьюз написал, что типа что-то сообщили из источников. Про текстовое ранжирование.

Весь день представители поисковой системы не комментировали ситуацию, но сегодня выяснилось, что изменения объясняются обновлением части алгоритма, связанной с текстовым ранжированием. «Изменения могли повлиять на ранжирование страниц, содержащих тексты, предназначенные в первую очередь не для пользователей, а для влияния на поисковую систему», – уточнили в пресс-службе Яндекса.

Кстати, вчера перетрясло ладно – вчера еще текстовый апдейт был. Я-то про сегодня.

Блин, надо бы сегодня вывалить всем смотреть ежедневную анализировалку, но там в ней сложновато лазить )

Так в среднем – изменения более выражены по длинным запросам (степень изменения выдачи увеличивается от 20% для однословников до ~50% для 5-6 словных запросов), т.е. я верю в то, что расколбас коснулся текстового. Но и еще разного другого мог коснуться. )) Пойду втыкать дальше.

геонезависимости капут?

Я правильно понимаю, что ранее геонезависимые запросы яндекса ( пример ) вдруг стали геозависимыми? (внизу ссылка "поискать без учета региона", и выдача отличается, я смотрел :))

Видит ли кто-нибудь реально геонезависимые запросы? (без надписи)

Когда? Не на днях ли, во времена изменений без текстового апдейта базы?

Интересно, что я хотел найти в Москве и области )

Падение числа страниц в АГС

Я на http://tools.promosite.ru/ в том числе мониторю и число проиндексированных Яндексом страниц в глубину по времени. Опреторами дат.
Из этого можно высчитать разные прикольные данные – “среднюю скорость переиндксации рунета”, например. Взвесив число страниц по числу дней в прошлом.

Короче говоря, мониторю ежедневно.

И возникла мысль посмотреть, как уменьшилось число страниц в рунете под натисками АГС.
Внизу морды http://tools.promosite.ru/ как раз приведены эти графики – число страниц, сгруппированное по дням.

Но почему-то операторы вида date>”YYYYM1DD” date<=”YYYYM2DD” дают как-то мало данных, если просуммировать за год – получается 350 млн. документов (первая строчка из двух графиков) – но зато на ней мощное падение числа страниц (раза в полтора!) как раз в середине и конце сентября, когда АГС косил все подряд. Но веры таким малым числам документов нет.

Я довольно давно перешел от пары операторов к операторам вида date>”YYYYMMDD” (вторая строчка из двух графиков) – число документов каждого последующего месяца вычитаем из предыдущего. Оно более правильные цифры показывает. По нему уже в рунете 5G документов (5 гигадокументов). И падение в сентябре более ровное (и, кстати, в октябре оно ровно продолжается) – процентов 10 или ~500 млн. документов.

А операторы вида date=”YYYYMMDD” всегда работали нормально, и на третьей строчке число документов = сумма по дням последних трех месяцев (львиную долю накрывает). На ней виден рост числа документов процентов на 10 в середине августа (говносайты? :)), а потом и резкое, и затем планомерное падение процентов на 20 к середине сентября. Потом – почти нет роста. Это мне больше нравится, без резких изменений.

Первый график в каждой строчке – по именно индексации документов, второй – по дате, отдаваемой документом.

И, собственно, вопрос: товарищи яндексоиды, а почему когда две даты указываешь, стало криво работать? А раньше нормально работало.

UPD. Вывел первую строчку в двух экземплярах – полные данные по числу документов, которое давали два оператора вида date. Видно, что раньше, в начале июля, пара операторов работала нормально, число документов было около 5G.
А сейчас – мало выдает.