ссылочные апдейты яндекса на tools.promosite.ru

как и обещал, на http://tools.promosite.ru сделал показ ссылочных апдейтов.
сегодняшний ап был ссылочный, вот как раз сегодня и вывешиваю. 🙂

методика – экспериментальные сайты, смотрим, когда ссылка начинает играть во вкладе в релевантность.

мониторю я эти апы недавно, на http://tools.promosite.ru/updates/ всего ссылочных апов:
31 марта 2010 учтены ссылки, попавшие в индекс по 19 марта 2010
13 марта 2010 учтены ссылки, попавшие в индекс по 7 марта 2010
26 февраля 2010 учтены ссылки, попавшие в индекс по 18 февраля 2010

В общем, примерно два апа в месяц. Раз в две-три недели.
Время апа только в последний раз удалось задетектить – между 4 и 4-20. (я раньше думал, что должны вместе с текстовым апом выкладывать, и в 3 утра прекращал пробивку :))

Так что вполне вероятно, что выкладывают ссылки отдельно.
И правильно, что сразу после текстового апа люди особо не видят изменений, нужно дождаться совсем утра.

в RSS http://tools.promosite.ru/rss.php
и в виджете http://www.yandex.ru/?add=10156
это уже сегодня утром показалось и импортнулось.

новейшие изменения в яндексе и в XML

сейчас несколько дней идут сплошные перетряски выдачи, яндексоиды комментируют, что были технические проблемы.

При этом число страниц 22-го вечером подпрыгнуло ровно вдвое, так же как и число страниц "еще с сайта". При этом есть примеры сайтов, проиндексированных одновременно с www и без, типа каждая страница имеет дубль и все они одновременно находятся в выдаче. Думаю, с этим связано, причем массовое явление. 🙂

А в ХМЛ изменения такие:

1. ВЫДАЕТСЯ УРЛ СОХРАНЕНКИ! тег saved-copy-url – и можно спокойно парсить там наличие своих ссылок, не дергая для этого яндекс-выдачу, раньше урл сохраненки только там был.

2. вместо цифирок в ID документов стали использовать и буковки. doc id="13-23-4-Z86F030531D40920C" Судя по всему, шестнадцатиричные [первая буква не считается :)”>. Бля, могли парсилки поломаться жеж!

апометр tools.promosite.ru теперь с методом комдира

в апометре http://tools.promosite.ru/ раньше апы детектились раз в час,
потом я добавил отдельную пробивку русских и буржуйских апов,
потом добавил пробивку раз в минуту (ап буржуйского индекса почему-то наступал на 5-10 минут раньше).

А теперь – добавил метод Комдира.
несколько последних апов http://tools.promosite.ru/updates/ метод комдира детектит на 15 минут раньше. 🙂

юзайте.
RSS: http://tools.promosite.ru/rss.php
добавить ифрейм-виджет на морду яндекса: http://www.yandex.ru/?add=10156 и исходник виджета: http://tools.promosite.ru/widget.php

во все это внедрен метод комдира.

***
скоро еще добавится показ ссылочных апдейтов! 🙂

может, seo-горный-поход сделаем?

Летом. Кавказ.
примерно неделя-две максимум. сначала побродить по окрестностям, акклиматизироваться, перевалы всякие походить. Там много прикольного, и довольно много цивилизации – можно легко отделиться и прожить, если что.
Ну и в конце, 3-4 дня – подготовка и восхождение на Эльбрус.
Если что: тренироваться надо будет, пока сейчас еще холодно, но и потом немного 🙂 Категория, я бы сказал – примерно 2-3 к.с., но это нормально. Заявляться пока не планирую, подтвержденный опыт не нужен.

сроки и прочее можно определить позже.
нормальное число – 5-7 человек, 10-12 максимум.
я руководил первым горным походом в 2003, так что экспириенс есть. Потом руководства двумя тройками, участие в двух четверках и т.д. Последний раз ходили тем летом (2009) как раз на Эльбрус с артподготовкой перед ним.

снаряжение найдем.

если есть вопросы – пишите на [email protected] сразу )

а у Яху 500-600 поисковых факторов

а у Яху 500-600 поисковых факторов, по сравнению с яндексовыми ~250:
http://learningtorankchallenge.yahoo.com/datasets.php

# features 519 596

конкурс Yahoo Learning to Rank Challenge

Yahoo Learning to Rank Challenge http://learningtorankchallenge.yahoo.com/instructions.php

сообщил тов. Гулин.

Yahoo запустил свой конкурс, очень похожий на прошлогоднюю Интернет-Математику. Интерес представляет их описание submission. В качестве submission принимается текстовый файл, по строчке на запрос.

Имхо, яндекоиды со своими матрикснетами просто обязаны участвовать 🙂

Поисковые технологии 2010

Закончился ашмановский закрытый семинар Поисковые технологии 2010.
Я там был как участник, мы такие когда пришли – Ашманов такой – во, типа, оптимизатор пришел – а я такой – я, типа, разработчик поисковых систем 🙂
Конечно, изначально знали как оптимизатора, а вот еще один сильно секретный оптимизатор тоже был :), мы его с трудом спалили. В заявке я привел www.a-gde.ru – помеленьку определяем коммерческость запроса. Пытается мнения и отзывы отделить, но там плохо, а коммерческость ничего себе определяется.

Итак.

19:00 – 21:00 заезд, расселение, шашлык, глинтвейн, ночное катание.




============Первый день 26 февраля. Будущее поисковых машин

_________________
“Табличный поиск” – Виктор Лавренко (Нигма)

В общем, Нигма, оказывается, умный поисковик.
1. использует движок FF с добавками, чтобы оценивать, какие слова визуально близко друг к другу.
2. группирует страницы по маске урла в смысловые группы – типа страницы фильмов отдельно, актеров отдельно и т.д. и использует этот смысл в показе.
3. смысл этот – не смысл, а название ключа. Для разных страниц в группе смотрится (с анализм хтмл шаблона), какие тексты остаются и какие меняются в пределах группы, и те, что меняются – значение ключа, а что остаются – название ключа. Из этих ключей и значений и получается табличный поиск.
_________________
“Рейтинг онлайн-СМИ на основе дублирования новостей” – Александр Антонов (Корпорация Галактика)

_________________
“Лексический анализ: от шаблонов к семантике” – Даниил Скатов (Диктум)

Много всего про разбор предложения с определением частей речи, согласования и прочего. Я, правда, не понял, применимо ли это к коротким текстам (типа запросов) и предполагается ли, что текст изначально правильный (или умеет ошибки анализировать). Выясню отдельно.
_________________
“Некоторые подходы в задачах классификации запросов” – Марина Хоруженко (Рамблер)

Доклад о выделении специфических запросов – поиск цитат, навигационные запросы для того, чтобы по разному их отрабатывать. 3-5 из тысячи – цитаты. Для каждого запроса есть список факторов, на которых обучаются обучалки. Факторы вроде – длина запроса, число заглавных букв, число знаков препинания, стоп-слова, т.д. Еще используется аналих поведения юзера.
_________________
“Группировка результатов поиска по тематике, определение тематики документа” – Андрей Коваленко (Meta.ua)

Они пристегнули свой каталог к определению тематики запроса. В результате по каждому запросу выдача группируется по по тематикам. То, чего я всегда хотел 🙂 на момент доклада новая выдача не была выложена. Кроме того, сбоку открывается рубрикатор, где каждая ссылка ограничивает поиск тематикой (только уж очень широкий список тематик :)). Но самые основные тематики определяет качественно. Урл там есть специальный, по которому все показывается 🙂
_________________
“Реферирование одного документа, найденного по запросу, нескольких документов, ранжированный реферат поисковой выдачи” – Андрей Калинин (Поисковые технологии)

Ничего не запомнил, но подробный обзор всех методов реферирования, начиная с самых древних. Всем разработчикам поиска втыкать!
_________________
Круглый стол “Будущее поиска”


Анатолий Орлов, получается, был с презентацией 🙂

Ночью можно кататься

===========Второй день 27 февраля. Проблемы индексации и релевантности

_________________
“Анализ графа ссылок для фильтрации нецензурных изображений” – Евгений Харитонов (Яндекс)

Есть метод определения дублей картинок, нечувствительный к слабым изменениям каринки. Он склеивает копии. Дальше есть граф хтмл-страниц, где картинки вставлены, и сами картинки. Если в контенте страниц есть порно – это дает плюс в классификацию картинки как порно. Если на странице есть порно-картинка (а порно текстов нет) – это дает плюс в классификацию страницы как порно. И так много раз. Я так понял, что они обучались на том же множестве, что и определяли точность с полнотой. Учитывая при этом, что точность и полнота около 60% – я так понял, что никаких реальных результатов не достингнуто. И еще линейная зависимость между точностью и полнотой.
Да, спалил темку про продвижение по картикам 🙂
_________________
“Архитектура краулера вертикального (тематического) поиска” – Михаил Долинин (Рамблер)

Мне абсолютно неинтересно, как там чего индексируется.
_________________
“Виды поискового спама” – Михаил Волович (Ашманов и Партнеры)

Боян в части сателлитов и дорвеев. Рассмативает серьезно сателлиты и сайты несуществующих фирм. Но все равно поисковики их не могут реально детектить.
_________________
“Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet” – Андрей Гулин (Яндекс)

Выложена, как я понял, исправленная презентация (участники Гулину указали на какие-то ошибки в формулах). Самое интересное для меня, я понял, что Матрикснет понимал не так, как надо. Я думал, что статистики в 1 млн. асессорских оценок мало, а ее на самом деле много. Сегалович на пальцах объяснял, что много матриц, руками показывал 🙂
Лекции Воронцова
_________________
“Синтаксический анализ по-нижегородски” – Владимир Окатьев (Диктум)

Примерно на ту же тему, что и первый доклад от Диктума. Мне не близко.
_________________
“Метрики для интегральной оценки качества поиска” – Андрей Иванов (Ашманов и Партнеры)
Андрей показал свои индикаторы на analyzethis. Я, правда, думаю, что на общий анализатор типа “по гамбургскому счету” поисковики не согласятся. Рассказали о накрутках этих анализаторов, среди поисковиков тоже есть накрутчики 🙂
_________________
“Интернет-математика. Конкурс по машинному обучению” – Павел Карпович (Яндекс)

Рассказал про новый конкурс за 2010 – про предсказание пробок на дорогах. Да, спалил, какие участники в ИМ-2009 были алгоритмами Яндекса – это Joker, -F, alexeigor и Победа. Я уже забыл, какие из них соответтсвовали каким алгоритмам. 🙂
_________________
“10 неправильных способов сравнивать качество поисковиков” – Сергей Протасов (Рамблер)

Сергей показал, почему каждый их способов не годится для анализа качества поиска 🙂 При этом как один из методов анализа – показ чужих результатов (других СЕ) в своем дизайне – чтобы нивелировать влияние дизайна.
У Рамблера, кстати, ожидается выкатка нового алгоритма, и нынешний Рамблер отстает от лидеров на 10%, а вот новый алгоритм лучше, чем лидеры на 5%.
В презентации про это есть, значит, можно говорить 🙂
_________________
Круглый стол “Измерение качества поиска”

******
Презентации выложены на http://www.search-conf.ru/programm2010 .

кто против релевантности all? давайте примеры!

по поводу моей ненависти к релевантности all в НЧ-запросах, у меня anatolix попросил примеров, а я как-то в ХМЛ при поиске не смотрю, но олловую релевантность и так уже вижу.

Чтобы в ХМЛ не лазить, сдалал инструментик, показывает relevance priority: http://tools.promosite.ru/anatolix.php

Я там накидал примеров, но лучше больше 🙂
Давайте тоже свои примеры! Или хотя бы можно полазить по relevance priority, это прикольно.