И эти люди запрещают мне ковырять в носу?

Искал по сайту ЯД слово “комиссия”, первым номером нашел:

Яндекс.Деньги
текст ссылок: Яндекс Деньги увеличивает комиссию…
money.yandex.ru/?id=267509 (13 КБ) — найден по ссылке

На странице http://money.yandex.ru/?id=267509 – нет про комиссию ничего, но дело не в этом. Мне сразу показалось, что это просто заглушка для отсутствующей страницы.
Хорошо. Набираем другой id: http://money.yandex.ru/?id=283735635 – видим то же самое. Проверяем заголовки с http://seolab.ru/add/header.htm – ответ 200 ОК!
Захламляют, понимаешь, индекс своими заглушками с кодом 200! Чтоб их забанило, наконец! 🙂
Особенно порадовало в HTTP-заголовках:

Server: BAIDA/0.2.0

Теперь понятно, что это за сервер… 🙂

Фрихост Агавы h16.ru Яндекс банит по умолчанию…

На форуме тема: запрещенные хостинги:

Здравствуйте!

Хостинг h16.ru на данный момент закрыт для индексации принудительно. Если Вы хотели бы проиндексироваться, воспользуйтесь другим хостингом.


С уважением, Платон Щукин
Служба поддержки Яндекс.Ру
http://company.yandex.ru/

***
А правда ли так? Смотрим:
rhost=”ru.h16.*” – Искомая комбинация слов нигде не встречается
rhost=”ru.h15.*” – Результат поиска: страниц — 35 180
rhost=”ru.h14.*” – Результат поиска: страниц — 125 300, сайтов — не менее 1 238
rhost=”ru.h12.*” – Результат поиска: страниц — 509 928, сайтов — не менее 2 176
***
Такое впечатление, что h12 и 13 индексятся нормально, у всех субдоменов h15 все страницы склеены “как бы на один домен”, а h16 действительно не индексируется.
По-моему, это наглость. Так низзя. 🙁
Особенно прикалывает ситуация с h15. Получается, что сначала попытались придушить ситуацию, прилепив все субдомены на один, а когда это не вышло – побанили всё оптом. След-но, разбиение страниц сайта по большому количеству хостов – есть гут для оптимизатора и не нравится Яндексу.

Подстановки вместо пустого тайтла в Яндексе

Раньше я уже видел такой финт ушами от Яндекса – когда при пустом тайтле текст ссылки подставлялся вместо него в выдаче.
Теперь обнаружил пример забавнее. Вообще любая фраза из текста страницы подставляется вместо пустого тайтла.
Пример: http://main.izvestia.ru/print/?id=21389
Берем фразы:
Очередным ежегодным конкурсом Elite Model Look – 4 место
Виталий Лейба – 8 место
Конкуренты считают, что с российским модельным рынком все не так уж плохо – 2 место
“покушением на жизнь главного редактора журнала Playboy Максима Маслакова” – 2 место
отличился по статье 122 УПК РСФСР – он был задержан милицией за нанесение ножевых ранений – 6 место.
И в “видимой” части ссылки – все время разный текст вместо тайтла. Около того фрагмента, который найден.

я не смолчу, я не утрусь // от протокола отопрусь

… при встрече с адвокатом // я ничего им не сказал // ни на кого не показал // скажите всем, кого я знал – я им остался братом // (Высоцкий)

Товарищ Маузер написал свой “ответ Чемберлену”. Написано, конечно, не без связи со мной, но и не сильно пересекается.
Основная идея, на мой взгляд: “пока что есть на свете дураки, обманывать нам, стало быть, с руки”. При этом “обманывать” – это не к Маузеру претензии, это на предмет “всегда будет существовать такая ниша”. “Неизбежное зло” и прочее.
Ниша дураков будет существовать всегда. И ниша для тех, кто зарабатывает на дураках. Я тоже это понимаю. Поэтому я не рассчитываю на массовое покаяние дорвейщиков после моего поста. 🙂
PS Кстати, Маузер спорит совсем не с теми аргументами, что приводил я, так что это именно отдельная статья.

Заработок на муравьях-дорвейщиках

А ведь я был прав. Смешно, да?
В прошлом посте я сказал так: “Надеюсь, наивных здесь нет и никто не думает, что “топ 10″ PPCSEй зарабатывают основные деньги. Это бизнес не на слонах, а на муравьях”.
Мне там разные люди, например – Маузер наш ненаглядный – попеняли, что я не видел топа Умакса. Как же я так сужу, с таким апломбом? Никогда больше не повторяй такого, сказали мне в комментариях. Пойди, так сказать, не знаю куда – аппроксимируй, а потом и выступай.
Ну вот и выступаю. Взяли на слабО. 🙂
Оказалось, что я, даже не видя их пресловутого топа, сдалал правильные выводы.
Есть такой закон Зипфа (Ципф, Zipf): ранг~1/место. Этот “закон” – эмпирическая закономерность, выявленная для текстов естественного языка, но приложимая ко многим областям. http://sench.vstu.edu.ru/doc/internet/7/18.html
Если по-простому, часто для множеств наблюдается зависимость вида 1/x между некоей величиной и местом в списке, которе имеет носитель этой величины.
1/x – это закон “длинных хвостов”. Поскольку интеграл от 1/x расходится (он равен ln x), “хвост” этого графика, тонкий, но длинный – дает большой вклад в общую сумму.
Это что-то врооде закона природы. Поэтому я так уверенно про “наивных” и написал, переоценил читателей, так сказать.
Итак. Взял я “топ 20” заработков (по данным, приведенным absolut в комментариях к пршлому посту). И аппроксимировал функцией f(x)=a/(x плюс b), где по горизонтали х – место:

При этом, как видно, очень хорошая сходимость есть. Ближе к верху отклонения есть, но общее согласие отличное. Величины там относительные нарисованы.
В общем, забавно получилось. (могу дать xls)
***
А к чему я все это? Аппроксимация Топ20 косвенно подтверждает тот факт, что основные заработки PPCSEй делаются на длинном хвосте начинающих дорвейщиков, на которых и направлены все услилия владельцев пиписЕй.
Мне забавно.

Корней Зубский

Такое впечатление, что Корней Зубский из Яндекса – это какой-то мифический персонаж вроде Платона Щукина.
Где они такие имена берут? 🙂
PS И Лера Страза туда же 🙂
PPS Полный список имен Яндекса: вместо звездочки я использовал стоп-слово, но можно и с оператором:
Корней Зубский
Сеня Мастер
Наина Киевна (:) #ля буду, нас обманывают!)
Оксана Мидори
Платон Щукин
Тимофей Журавлев (еще туда-сюда, единственное нормальное имя)
Лера Страза
PPPS 🙂
Служил Гаврила в техподдержке // Гаврила письма отвечал
Служил Гаврила в Каталоге // Гаврила сайты разбирал
Был модератором Гаврила // Гаврила спамы вычищал

Синхронизация ссылочной базы с выдачей

Еще одна иллюстрация того, что в Яндексе нет синхронизации базы по поиску ссылающихся и базы с “общей” выдачей.
геморрой:

1. Microsoft Россия
текст ссылок: Геморрой за деньги…
www.microsoft.com/rus/ (14 КБ) — найден по ссылке
Рубрика: Windows

Ищем по ссылающимся: anchor#link=”www.microsoft.com/rus*”[геморрой] – пусто.
Если со временем оно покажет ссылку, но сайт сползет с первого места, это еще будет и иллюстрацией эффекта ссылочного новичка 🙂

PS Так тоже не находит, ссылки и текст отдельно: “Геморрой за деньги” && #link=”www.microsoft.com*”

Илья Сегалович не под пытками

Интервью Ильи Сегаловича Вебпланете:
http://www.webplanet.ru/news/interview/2006/2/6/ilya_segalovich.html
Особо заинтересовало:

Сколько сейчас людей работает в «Яндексе»?
-Более трехсот.

-это каждое рыльце делает для компании чуть меньше миллиона уёв. 🙂 Если считать, что $250 млн – стоимость Яндекса.

Сейчас, судя по всему, самый крупный «xml-клиент» на выдачу — это Mail.Ru?
-Да.

-а ведь не пишут, как положено по термсам Я.ХМЛ, что “посик организован на основе Я.ХМЛ…”. Исключение типа.

Куда, по вашему, будут двигаться поисковые технологии? В какую сторону? В сторону персонализации? Или куда-то еще?
– *** Кроме того, по мере роста рентабельности поисковых систем, могут начать применяться более дорогие по ресурсам технологии.
***
— распознавание и учет типологии и структуры сайтов и страниц;
— обработка запроса на основе истории поискового поведения, как группового, так и, возможно, индивидуального;
— изучение динамики сети (для разных целей);
— обработка естественного языка.

-Типологии и структуры сайтов и страниц, что бы это могло быть… Структура – это если только на основе анализа таблиц (по идее, легко) определять, где колонка меню, где текст, где подвал… Динамика сети – чтобы ссылки не появлялись мгновенно кучей, trustrank?

Поиск по тегам — интересная и перспективная область, к сожалению, я не знаю пока сколь-нибудь крупного русского корпуса тегов, на который можно смотреть и экспериментировать.
***
Есть шанс, что теги окажутся инструментом будущих улучшений в поиске: например, как исходный материал для построения тезауруса, ортогонального, скажем, тому тезаурусу, который поисковые системы уже строят по поисковым запросам.

-есть шанс (около 100% :)), что с этим тезаурусом произойдет то же, что и с метатегами…