Хорошо забытое старое-1

Несколько месяцев назад с удивлением обнаружил, что теперь тИЦ по всем субдоменам, не занесенным в ЯК, не сливается в одно значение, а считается отдельно для каждого субдомена.
Есть, скажем, домен с тысячей субдоменов – на каждый куплено по одной ссылке с сапы. Раньше тИЦ был 60 (общий) – вдруг обнулился (когда стал раздельный).
Ну или вот пример (домены не в ЯК):
http://promosite.ru/ – тиц 250
http://blog.promosite.ru/ – тиц 80
http://tools.promosite.ru/ – тиц 10
nonexistent.promosite.ru – тиц 0

Пора бы уже сапе взять на вооружение и разрешить добавление нескольких субдоменов с одного домена – тИЦ же раздельный теперь.

Странно, что радостных воплей я не услышал по этой теме… Перспективы – можно эффективно выделять ссылки/сайты, дающие тиц 🙂

Яндекс – как образуются темы дня

Выложили презентацию доклада Темы дня в блогах: Как это работает на конференции Russir2008 (Андрей Мищенко, Антон Волнухин)
Интересная статистика:

• Около 200 тысяч записей блогах каждый день
• Около 400 тысяч комментариев в день
• Более 380 миллионов записей всего
• Более 400 миллионов комментариев
• Более 5 миллионов блогов

-получается, в средний блог пишут раз в 25 дней, и у одной записи в среднем 2 каммента. 🙂 Маловато.
Я раньше думал, что каким-то образом классифицируют записи и ссылки в камментах, когда выделяются массовые ссылки или признаки, рассматривают их подробнее. А оказывается, гипотезу человек выдумывает:

• Источники гипотез являются внешними по отношению к системе определения тем дня.
• Записи в блогах работают не как источник тем, а как фильтр гипотез.

Источники гипотез тем дня
• Яндекс.Афиша – названия фильмов, идущих сейчас в кинотеатрах,
• Яндекс.Открытки – названия праздников, недавно прошедших и скоро наступающих,
• НИНИ (Непостоянство Интересов Населения Интернета) запросы к Яндексу,
• Яндекс.Новости – заголовки сюжетов.

Что интересно – показали формулу скорости роста (X=записей сегодня, Y=за предыдущее время) параметр "темовитости": ln(x/y)*(x − y)

Формула «темовитости»
• Вычитание? Плохо. Например, 100 -> 200 и 10000 -> 10500
• Деление? Тоже плохо. Например, 10 -> 30 и 1000 -> 2000
• Нужно подобрать «золотую середину».
ln(x/y)*(x − y)

Склейка разных тем делается через похожесть списков записей в блогах по этим темам:

• Как установить связь между двумя гипотезами, не имеющими ничего общего в смысле текста? Снова с помощью поискового индекса.
• Если две гипотезы тем дня часто встречаются в одних и тех же записях, – это с большой вероятностью об одном и том же

via

Об автобанах

Народ на сёрче регулярно жалуется на автобан, вот например: Автобан за CMsimple.
Тут же часть народа рапортует – мол, точно бан, столько-то сайтов забанено! Другая часть не менее бодро отчитывает тех – мол, за цмски не банят!
🙂
Сэры, не надо забывать, что общая идея яндекса – обучение программ. Например, есть сайтик, заходит на него асессор – и помечает как спам или как нормальный сайт. А потом железный компьютер думает – есть набор сайтов и набор меток. И у каждого сайта набор признаков.
И цель состоит в том, чтобы каждому признаку или совокупности признаков (какие они?) сопоставить сколько-то спаммерских баллов. И, например: превысил границу по баллам – автобан.
А почему бы отдельные элементы кода (или там структуру сайта) и элементы сайта (отсутствие цифирок, похожих на телефон, отсутствие контактных мейлов, форм обратной связи) не считать такими признаками? И они бы добавили свой балл в общую спамность сайта.
И по совокупности – бан.
Таким признаком может быть и общее большое число внешних ссылок. 🙂

Pagerank откатился/пересчитался

Я как приехал из отпуска, разглядел мощную раздачу PR – до 6 поднялось на внутренних страницах.

Теперь вот на форуме про ап PR заговорили.

Ну я у себя проверил – на тех PR6 страницах откатилось до тройки.

Так что откат. Сапа в выходные не сообщает о пересчете 🙂

UPD откат – неправильное слово, точнее: пересчет до нормальных значений.

Скачки PR – 6 нахаляву

Блин, перестаю понимать гугель…
Захожу сейчас в просмотр цен в сапе по одному сайтику. Случайно – перетряхнуть цены решил… Ну там у него раньше было много внутренних страничек с PR 1-2, за счет установки ссылок с большого кол-ва страниц.

В сапу захожу и вижу: уровень 2, пиар 6 (шесть!) – шесть штук страниц. уровень 3, пиар 6 – одна страница. Думаю – фигасе сапа глючит.

Захожу на страницу площадки и вижу – реальный пиар шесть. Опупеть.
Позже заметил: еще пиар 4 и 3 в небольшом количестве проявился.

Страницы, понятное дело, не прокачивались дополнительно. Недавно был ап пиара, после него небось заколбасило. Устанавливались только внешние ссылки, типа саповских, на свою хрень разную.

Тут 2 варианта – либо страницы у доноров сильно подросли по пиару (тоже не с чего!), либо волшебные внешние ссылки установил 🙂

Пошел палить внешние 🙂

PS Тыц у сайта – 10 🙂

Апы, статсы гугла и др.

Такое впечатление, что скоро может получиться предсказывать апдейты (расколбасы, сбросы кеша) Яндекса. Второй случай расколбаса в некоторых данных вечером предыдущего дня… Ну, вернусь – посмотрим. Сейчас люди обсуждают, а выложенных документов не видно, что люди вроде и подтверждают, но у Иванова есть новые документы (хотя при перепроверке спонсора апдейта я вообще нового не нашел).

В субботу выезжаем в горы (Кавказ, Безенги), поход с Максом Назаровым, с которым я ходил в первый свой поход в 1997. Возвращаемся в начале августа, если что в сервисах умрет от отсутствия смазки – не удивляйтесь 🙂

Гугль начал примерные цифры в статистике Адвордз показывать, что ж – замена Рамблеру:
http://adwords.blogspot.com/2008/07/keyword-tool-updated-with-search-volume.html
http://forum.searchengines.ru/showthread.php?t=246725 .

Яндекс serverurl меняет?

Замечаю, что разные сайты из новых по-разному ищутся с serverurl-ом.
Например, пробиваю стандартным способом – из бара: http://yandex.ru/yandsearch?serverurl=www.yandex.ru – сайта не находит.
Добавляешь в аддурелку – нет, отвечает, не добавлю, ибо сайт проиндексирован. И ссылку дает вида: http://yandex.ru/yandsearch?serverurl=http://www.yandex.ru/ – по которой страницы сайта находятся.

Что-то у них там колбасится… может, с уровнями домена для серверурла химичат…

Апдейт, которого по текстам не было…

…является изменением куска алгоритма.
Апдейт: тема тут.
Изменение выдачи видно:
http://www.web-it.ru/tools/seo/up/yandex/
http://pr-cy.ru/update/
Однако выкладывания проиндексированных текстов (=ссылок) не замечено:
http://tools.promosite.ru/updates/
http://ivanov.in/yandex-updates/

Интервью Садовского

…на Сеоньюсе. Сначала подумал, что сеоньюсовцы вопросы задавали, к середине понял, что из форума SE собирали…
Особо заинтересовало:

Здравствуйте. Скажите, пожалуйста, после смены алгоритма какие факторы влияют на ранжирование больше? Морды или статьи? Или, может, одинаково? Или что-то другое вообще? Ответьте, пожалуйста, чётко, без околотемных слов, то, что влияют ссылки, это итак понятно. Заранее благодарен.

Объясню (четко и без «околотемных слов»), почему не могу ответить на Ваш вопрос так, как Вы этого хотите.
Во-первых, влияние факторов меняется со временем, мы постоянно перенастраиваем формулу релевантности. В ранжировании используется машинное обучение на основе данных асессоров. Если, предположим, ссылки на большинство релевантных страниц исчезнут в небытие, ссылочные факторы после обучения алгоритма станут менее весомыми. И наоборот. Между большими изменениями программы («Магадан», «Находка» и т.д.) перенастройка может происходит многократно.

Во-вторых, важно влияние не столько каждого отдельного фактора, сколько их сочетания, которое зависит от ответа (страницы, сайта и т.д.) В формуле ранжирования каждый фактор участвует не сам по себе, а в какой-то комбинации с другими факторами. Если, предположим, фактор А, основанный на ссылках, имеет большой вес, а фактор Б у страницы отсутствует, то, если в итоге машинного обучения для расчета релевантности А и Б оказались тесно связаны, бесполезно будет наращивать вес фактора А, не предприняв усилий в отношении Б. В-третьих, для ответа на Ваш вопрос придется детально рассказать именно о факторах. Ссылочный граф – это источник данных. Текст страницы – еще один. Таких типов данных совсем немного. Но из каждого из них можно извлечь много факторов, позволяющих оценить какой-то аспект релевантности. Наращивание ссылок может приводить одновременно к уменьшению одного ссылочного фактора и увеличению другого.

-все ж таки простой "формулой ранжирования" обойтись не получится… Получится табулированный набор коэффициентов для каждого дискретного "соотношения факторов".

В последнее время в выдаче по низко- и среднечастотным запросам стали появляться сайты, которые не содержат на странице вхождения ключевого запроса, а их Title в выдаче Яндексом формируется из текста внешней ссылки, которая стоит на этот сайт. По Вашему мнению, данный Title должен повышать привлекательность ресурса для пользователя или это нововведение сделано по каким-то другим причинам?
Мы не наблюдаем данное явление. Пришлите, пожалуйста, пример запроса и скриншот страницы с результатами поиска.

-отожгли оба, и вопрошающий, и Садовский. 🙂 Один "недавно начал замечать", а второй "не наблюдает данное явление". 🙂
Вопрошающий, наверное, забыл сказать, что у сайта в выдаче пустой тайтл. Я такую хрень видел в октябре 2005 и в феврале 2006 – если тайтла нет и сайт НПС, текст ссылки отображаетсявместо него.
Кстати, разыскивая страницы своего блога, очень удивился – яндекс знает 77 страниц, хотя постов там ~450. Сначала думал, глубже нескольких уровней – забывает страницы. Потом проверил – нашел ажно 4 страницы с постами. Жопа какая-то у них там.

Из ответа Садовского:

Ссылки классифицируются по множеству признаков, и оценка является вероятностной. Чем выше вероятность, что ссылка является SEO, тем меньше будет ее вес. Но если нет полной уверенности, поисковый алгоритм учитывает ссылки, хотя придает им небольшое значение.

-вероятности… Пейджранк – вероятность посещения, тут вероятности ссылки, аббревиатуры учитываютс с вероятностями… Вероятность того, что страница соответствует запросу. 🙂
Кстати, насчет вероятностей. Представим себе запрос типа "название товара". Вероятнее ли будет вероятность соответствия, если сайт – магазин? А как повысить вероятность того, что сайт – магазин? Словами "купить, корзина, заказ" и прочее. Не связанными с запросом. Надо обдумать.

Вы объявили, что Яндекс стал понимать транслитерацию в ссылках. Какой именно используется стандарт?
При транслитерации слова в название URL могут использоваться разные стандарты, поэтому при антранслитерации мы смотрим на несколько стандартов. Сгенерированные гипотезы оцениваем на правдоподобность и проверяем по словарю.

-Я чего-то не понял, про транслитерацию в урле или в тексте ссылки идет речь. В урле давно есть, а что, он об этом спецом объявлял? Да и в тексте ссылки давно есть. К чему это все?

Заметил, что при продвижении новых сайтов ссылки начинают не сразу работать на всю силу. Так ли это? Что нужно сделать, чтобы сайт не попал в "новичок"?
Мы учитываем в ранжировании далеко не все ссылки, которые находятся на проиндексированных страницах. Возможно, именно эта особенность алгоритма была интерпретирована Вами как отложенная «работа» ссылок.

-не все ссылки… вероятности…

Кого вы больше не любите: оптимизаторов или людей, торгующими ссылками. Есть ли у вас планы на Sape?
Людей я люблю, хотя результаты их деятельности мне не всегда по душе.
Планы на Sape? В народе говорят, готовь Sape с лета… 🙂

-Садовский как бы хочет сказать нам, что ссылки будут работать через полгода после установки 🙂

Как Яндекс относится к IDN доменам SU? Их индексация наравне с RU. Если использовать ключевик в названии домена, будет это учитываться при ранжировании?
Мы уже индексируем эти домены наравне с .ru. Ключевое слово пока не учитывается в ранжировании. Сейчас для таких доменов еще не работают операторы host, url и аналогичные, но скоро это будет исправлено.

-прикольно, насчет ключевиков в host="" 🙂

Как вы планируете улучшать алгоритм поиска? Собираетесь ли вводить новые технологии? Какие сервисы планируются в релиз на ближайшее время?
Мы постоянно вводим новые технологии и улучшаем алгоритмы. В ближайшем обновлении поисковой программы мы добавим новые факторы ранжирования, такие, как уникальность контента, классификатор порнографии, геоклассификатор запроса и многие другие.

-о как. Уникальные генеренные дорвеи будут рулить марковские 🙂

… и еще: почему вопрос Людкевича "когда будем пить" не попал в "вопоосы о будущем"? 😀