Набор Quality raters в Google

Открыт набор парт-тайм воркеров, которые будут заниматься оценкой качества рекламы и результатов поиска в Гугле. Правда, там какие-то ограничения на местоположение (точно не понял), но что стоит настоящему дорвейщику найти халявный канадский прокси? 🙂

ABE Services is recruiting part-time remote workers to help with search quality evaluation on a project basis for Google, Inc., the search engine company based in Mountain View, California. Candidates must be web-savvy and analytical, have excellent web research skills and a broad range of interests. Specific areas of expertise are highly desirable.

-мдя. А разговоры-то о расчете “рейтинга доверия” не зря, видимо… 🙂
Интересно, он будет как PageRank рассчитываться с запитыванием от просмотренных ассессорами сайтов?
Или это просто расширенный алгоритм для стука?
via wolf

Выпяти пузо за 30 секунд

Некий мистер Богоявленский со компанией активно пиарится в разных комьюнити. Вот и я заметил.
В основном, как я понял, повод для “пеара” – сервис Интернет -магазин за 30 секунд – который на поверку оказывается вставкой внешнего кода с сайта мистера Богоявленского.
Но и это еще не все! 🙂 Мистер Богоявленский предлагает (всего-то за 300 жалких баксов) Сертификат надежности интернет -магазинов ( ISRCS 2001 )! Как сказано на сайте,

Наличие сертификата – магически действует на российского потребителя: проверенно – значит надёжно. Магазин, прошедший сертификацию, несомненно, будет пользоваться большим доверием.

-я бы сказал, что наоборот, предложение “сертифицироваться” должно магически действовать на владельца е-шопа.
Кстати, мистер Богоявленский по-доброму относится к магазинам: пишет, что

Из-за неразвитости интернет-торговли в нашей стране под вывеской “интернет-магазин” часто скрываются 1-2 человека, для которых это скорее хобби, чем бизнес. Некоторые такие “интернет-магазины” выполняют несколько заказов за месяц и готовы закрыться в любой момент

-но забывает указать, что иные “агентства”, предлагающие “услуги” по “сертификации”, могут состоять даже из одного человека! Конечно, если этот человек – мистер Богоявленский. 🙂
Да, а собственно, почему такое пренебрежение к “паре человек”? А потому, что критерий-то прост:

Сертификат надежности интернет -магазинов (ISRCS2001) включает проверку магазина по следующим параметрам:

* Количество сотрудников компании больше трех (на основании штатного расписания компании);

Но, как вы понимаете, это еще не все! 🙂 Все – это Премия “Российский Интернет” ! Ценой всего-то 690 у.е. – вы можете положить эту премию прямо себе в корзину! Обосновывается это так:

Когда Вам предстоит выбрать хорошее вино, скорее всего вы предпочтете бутылку с множеством медалей на этикетке. Также и пользователи, заглянув на Ваш сайт, сделают выбор в Вашу пользу.

-чота дорогие у них этикетки получаются…
🙂

Видя качество работы поисковиков…

…пора придумывать новые фишки в функционале сайтов. Типа:
Анализировать реферер и подсвечивать соотв. слова на странице или пункты меню
Или:
Если в рефере нет одного из слов, которому посвящена страница, редиректить на “более старший” раздел.
***
А то качество страдает… Например, Яндекс часто находит морду сайта по однословному (очень популярному) запросу за счет одного (!) включения этого слова в менюху. Нет чтобы находить конкретный раздел, куда и ссылки идут, в тайтлах и Х1 все, что надо. Ан нет. Хотя приятно, конечно…
Или наоборот – начнет по такого рода запросу выводить одну из внутренних страниц подраздела, соотвествующую конкретному производителю.
И так бесперечь.

Яндекс – числа

Вот на странице “о компании” написано, что

В поиске Яндекса сегодня
Уникальных серверов: 2 133 281,
уникальных документов: 681 520 431,
объем проиндексированной информации: 18 998 ГБ.

А по февральским данным получается, что серверов еще тогда было: либо 5 млн (известных вообще, по ссылкам в т.ч.), либо 500 тыс. (скачанных Яндексом).
Ну не могло число реально скачанных сайтов возрасти в 4 раза! Тем более, что по данным того же Яндекса (4 слепка за месяц) рост числа скачанных сайтов около 10% в месяц.
А как же тогда? Что есть эти 2 миллиона? Почему тогда половина (и более) хостов в нее не вошли?
Где-то я слышал про “более” и “менее” релевантную части базы. Может, это про нее?

Кстати, о damping factor-е в формуле PageRank

В формуле расчета пейджранка используется некий коэффициент затухания (damping factor), который отражает вероятность того, что посетитель, попавший на страницу сайта, кликнет на одну из ссылок со страницы.
Его в какой-то из классических работ взяли равным 0.85, с тех пор число и мусолится… 🙂
Мне все-таки хочется его как-то определять. От балды брать неохота. Идея следующая:
Свяжем d с числом просмотренных страниц на сайте!
1) Если человек попал на сайт, он просмотрел 1 страницу.
2) Дальше он кликнет с вероятностью d (перейдя, очевидно, на другую страницу)
3) А дальше – с вероятностью d^2

N) А дальше – с вероятностью d^N
—–
Просуммируем всю эту чепуху – получим среднее количество хитов на хост:
hit/host=1 плюс d плюс d^2 … плюс d^N
Математику я забыл, но ряд должен сходиться. Методом научного тыка в Excel я получил, что сумма этого ряда равна:
hit/host=1/(1-d)


Вуаля! Тырим данные по хит/хост из того же Рамблер-Топ100, считаем d по каждому сайту, выбрасываем мусор, усредняем.
Кстати, при d=0.75 получается 4 хита на хост. А при d=0.85 – 6.66 хитов на хост. А при d=0.9 – 10 хитов на хост…
4 мне кажется более правильным… Кстати, метод для Рамблера – можно легко считать индивидуальные d по доменам 🙂

Кстати, о масштабах расчетов

OFF: Надо уже на блог вешать надпись типа “многие посты сделаны благодаря поддержке Яндекса” 🙂
Я несколько удивился, когда в хостграфе оказалось не 380, а 5 миллионов хостов.
Но когда начал считать дальше, вообще опупел. Из этих сайтов только около 10% – известны Яндексу, т.е., скачаны! 90% хостов имеют указание на то, что это найденная ссылка.
А из них (известных) еще около половины – “висящие” (“dangling”, т.е., не имеют внешних ссылок с себя).
Итого, одна итерация расчета Siterank по 250 000 хостов занимает чуть больше минуты на моем компе. На тормозном perl, конечно. 🙂 В свете того, что 50 итераций достаточно, думаю не заморачиваться расчетом на Сях.
Вот и думаю. А так ли страшен черт, как его малютка? 500 тыс сайтов… Новым поисковикам в для старта надо совсем мало… Это если по 1000 документов с сайта, по 7К плейнтекста каждый – получается … [upd: эээ… блин, тыщу в килобайтах забыл, губу раскатал] 3.5 терабайта получается. Фак. 🙁

Корреляции SiteRank – Inbound hosts

Кстати, к вопросу об аппроксимации PR по числу входящих ссылок:
По хостграфу Яндекса посчитал SiteRank (т.е, по ссылкам между хостами), по обычному уравнению с той же отфонарной d=0.85:
PRi=(1-d) плюс d*sum(PRj/Cj)
И нарисовал корреляцию его с числом ссылающихся хостов:

Вот такие корреляции 🙂 Это не по страницам, конечно, но все-же…

Вылетали сайты при добавлении в ЯК?

Думаю, у многих бывало такое, что при добавлении в Яндекс-каталог сайт вылетал из индекса. У меня бывало.
Идея: это происходит потому (предположительно), что у домена меняется внутренний id (факт).