Посоветуйте мануалы по байес-фильтрам

?
Что-нибудь коротенькое, простенькое и понятное.
Собственно, интересует не фильтрация спама, а работа с вероятностями, условными вероятностями и т.п. в плане классификации.

Указание региона сайта в Яндекс.Вебмастере для тИЦ=0

на серче заметили раньше, чем яндекс объявил. 🙂

интересно, на сколько повысится число сайтов с регионом. Судя по требованию страницы с "подтверждением" отношения сайта к региону, таки модераторы это смотрят.

нужно пару советов по развитию апометра

апометр развивается: сейчас есть ссылочные и текстовые апдейты, комдир, мониторинг выдачи, мощность изменений по разным классам запросов.

но будет развиваться еще сильнее, а именно:

1. гео.
будут апдейты геопривязки сайтов. частенько при изменении выдачи без индекса оказывается, что прошел геоапдейт. Какие нужны данные – достаточно просто указать, что мол, геоапдейт (они бывают, как правило, в дни текстовых апдейтов, около 4-5 утра).
Методика – контроль числа сайтов и страниц в поиске по региону. Поэтому кроме чисто времени можно выдавать и количественные данные (* на сколько повысилось-понизилось число сайтов).
Оно вам нано? Да, и какие регионы тогда брать?

2. пересчет весов ссылок
бывает и в обычные текстовые апдейты для уже имеющихся старых ссылок. обычно около 4-6 утра.

3. апдейты факторов по общей базе рунета
типа весов слов. тоже бывает в дни текстовых апдейтов, тоже около 4 утра.
также можно довольно точно считать относительные изменения в общем размере базы – типа подросла ли она и насколько.
Обычные методы (типа запросов domain:root) изза прюнинга дают фиговую точность, а прюнинг врубается в полный рост при числе найденного около 20-30 тыс. доменов.

4. относительная мощность ссылочного и текстового по положению НПС
есть запросы, где много НПС. я тут открыл запрос, который позволяет выпячивать НПС )) Можно считать относительное положение НПС-результатов относительно текстовых. (конечно, ранжирование НПС совсем другое, но все равно). Нано?

пацаки обрели свою КЦ

домен кц.рф – для настоящих пацаков! 🙂 (координационный центр, кстати, чо – ТМ "КЦ" зарегал, что ли?)

Раз пошла такая пьянка – сделал (=стырил с phpclasses.org) перекодировщик текстов в пуникод и обратно.
Удобен тем, что берет на вход любой текст, независимо от пробелов и прочих символов. А у всех остальных тырильщиков этого класса берет на вход только одно целое слово без пробелов – неудобно.
И еще генерит таб-делимитед соотвествие слово-перекодировка.

расклейка выдачи яндекса

Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost.

товарищи яндексоиды: расклеивать страницы по запросу rhost – это неправильно и очень плохо. Если я домены по маске хочу найти – мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.

кажется, сеоньюз читать не умеет.

блин, я нигде не "предполагал, что данные операторы могут быть упразднены".

речь шла только про url, а если они криво задали вопрос (типа: спросили у пресс-службы про все операторы скопом), то и ответ неправильный будет.

кроме того, такие вопросы впрямую им вообще не имеет смысла задавать. впервые о сео услышали, что ли?

интересно, как сеоньюз это у себя откомментирует.

пара цифр с точкой – в Яндексе теперь отдельный терм

И да, забыл об одной штуке рассказать.

Я привык раньше все "левые" символы заменять в запросах пробелами. Чтобы не париться. Все равно типа при индексации эти знаки роли не играют, только могут разбивать предложение.

А тут упс: оказалось, что иногда с пробелом не находится то, что в документе с точечкой. И наоборот.

Присмотревшись, обнаружил, что в XML выделяются тегом подсветки hlword иногда не отдельные цифры, а пары X.X. И в выдаче так же – болдом выделяются пары.

например, ищем какой-нибудь 127.0.0.1 – и видим две выделенные пары: [127.0″> и [0.1″>.
У меня из-за этого как-то некошерно работал поиск с датами, с точечкой между цифрами, а ж ее по умолчанию пробелом пишу.

Захотелось проверить, динамически выделяются разные пары (чисто для показа) или нет. Оказалось, нет: на уровне индексации.
Примеры:
"10 10" << url:www.a-a-a.ru/nasos/gnom10.html – находится
"10.10" << url:www.a-a-a.ru/nasos/gnom10.html – нет (точки в документе нет)

в тройке 10.10.2010 выделяются [10.10″> и [2010″>

"10.10 2010" << url:www.kleo.ru/consult/fengshui/questions_4242.shtml – есть – пробел, где идет естественное разбиение
"10 10.2010" << url:www.kleo.ru/consult/fengshui/questions_4242.shtml – нет – пробел, где идет пара цифр.

1.2.3.4.5.6.7.8 – разбиение на пары [1.2″>, [3.4″>, [5.6″>, [7.8″>

Итог: получается, что на этапе индексации пары цифр с точкой объединяются и идут как целые термы в поиске (одна штука).
И так же действует в запросе – тоже пара цифр с точкой ищется как отдельный терм.

Вроде как понятно: хотели искать даты лучше и прочее. Только почему тогда не тройки цифр, а пары? И почему не тире, а только точка? И почему айпишники не по 4 цифры, а по две? И вообще, не помогает это имхо.

А, вот, практические выводы. Если вы продвигаетесь по запросу 127.0.0.1, ставьте ссылки с точными словами 127.0 и 0.1 🙂

XML: новейшие поломки и отключения операторов

Сегодня, кстати, был ссылочный апдейт, который апометр не увидел из-за того, что Яндекс коварно сломал оператор url и вместе с ним host, rhost в XML.

т.е., из выдачи они работают, а из ХМЛ – нет, выдают только обвязку (типа найдено столько-то результатов), а самих результатов не выдают.
Что смешно – в основном ХМЛ используют для поиска внутри сайта, и в примерах приведен оператор host, а тут бац – и он не работает 🙂

Блядь, то понос, то золотуха. Не трогайте свой ХМЛ!

А теперь инсайд 🙂
Я в ХМЛ позвонил, спросить чо ваще, может отключили сознательно. Мне сказали, что нет, сломалось, но сказали, возможно, что скоро оператор url будет закрыт в XML. Человек даже как бе не хотел его поэтому смотреть.

Так что готовьтесь парсить выдачу. Я, правда, не уверен, что именно он сказал – оператор будет закрыт ваще или закрыт только из ХМЛ. Так что и в выдаче могут закрыть.

турецкие асессоры

вакансии асессоров в Яндексе: http://spb.hh.ru/vacancy/2515886

знание английского, казахского (или татарского) языка (владение турецким языком является плюсом);

-чо, казахское и татарское ранжирования надвигаются? И турецкое еще.
белорусское сделали, вот теперь казахское будут ))
Матрикснет, как там: способен узкие темы обрабатывать.

мне, кстати, кто-то на конференциях жаловался про татарский интернет, что-то там с морфологией какие-то сложняки были.