Набор Quality raters в Google

Открыт набор парт-тайм воркеров, которые будут заниматься оценкой качества рекламы и результатов поиска в Гугле. Правда, там какие-то ограничения на местоположение (точно не понял), но что стоит настоящему дорвейщику найти халявный канадский прокси? 🙂

ABE Services is recruiting part-time remote workers to help with search quality evaluation on a project basis for Google, Inc., the search engine company based in Mountain View, California. Candidates must be web-savvy and analytical, have excellent web research skills and a broad range of interests. Specific areas of expertise are highly desirable.

-мдя. А разговоры-то о расчете “рейтинга доверия” не зря, видимо… 🙂
Интересно, он будет как PageRank рассчитываться с запитыванием от просмотренных ассессорами сайтов?
Или это просто расширенный алгоритм для стука?
via wolf

Видя качество работы поисковиков…

…пора придумывать новые фишки в функционале сайтов. Типа:
Анализировать реферер и подсвечивать соотв. слова на странице или пункты меню
Или:
Если в рефере нет одного из слов, которому посвящена страница, редиректить на “более старший” раздел.
***
А то качество страдает… Например, Яндекс часто находит морду сайта по однословному (очень популярному) запросу за счет одного (!) включения этого слова в менюху. Нет чтобы находить конкретный раздел, куда и ссылки идут, в тайтлах и Х1 все, что надо. Ан нет. Хотя приятно, конечно…
Или наоборот – начнет по такого рода запросу выводить одну из внутренних страниц подраздела, соотвествующую конкретному производителю.
И так бесперечь.

Яндекс – числа

Вот на странице “о компании” написано, что

В поиске Яндекса сегодня
Уникальных серверов: 2 133 281,
уникальных документов: 681 520 431,
объем проиндексированной информации: 18 998 ГБ.

А по февральским данным получается, что серверов еще тогда было: либо 5 млн (известных вообще, по ссылкам в т.ч.), либо 500 тыс. (скачанных Яндексом).
Ну не могло число реально скачанных сайтов возрасти в 4 раза! Тем более, что по данным того же Яндекса (4 слепка за месяц) рост числа скачанных сайтов около 10% в месяц.
А как же тогда? Что есть эти 2 миллиона? Почему тогда половина (и более) хостов в нее не вошли?
Где-то я слышал про “более” и “менее” релевантную части базы. Может, это про нее?

Кстати, о damping factor-е в формуле PageRank

В формуле расчета пейджранка используется некий коэффициент затухания (damping factor), который отражает вероятность того, что посетитель, попавший на страницу сайта, кликнет на одну из ссылок со страницы.
Его в какой-то из классических работ взяли равным 0.85, с тех пор число и мусолится… 🙂
Мне все-таки хочется его как-то определять. От балды брать неохота. Идея следующая:
Свяжем d с числом просмотренных страниц на сайте!
1) Если человек попал на сайт, он просмотрел 1 страницу.
2) Дальше он кликнет с вероятностью d (перейдя, очевидно, на другую страницу)
3) А дальше – с вероятностью d^2

N) А дальше – с вероятностью d^N
—–
Просуммируем всю эту чепуху – получим среднее количество хитов на хост:
hit/host=1 плюс d плюс d^2 … плюс d^N
Математику я забыл, но ряд должен сходиться. Методом научного тыка в Excel я получил, что сумма этого ряда равна:
hit/host=1/(1-d)


Вуаля! Тырим данные по хит/хост из того же Рамблер-Топ100, считаем d по каждому сайту, выбрасываем мусор, усредняем.
Кстати, при d=0.75 получается 4 хита на хост. А при d=0.85 – 6.66 хитов на хост. А при d=0.9 – 10 хитов на хост…
4 мне кажется более правильным… Кстати, метод для Рамблера – можно легко считать индивидуальные d по доменам 🙂

Кстати, о масштабах расчетов

OFF: Надо уже на блог вешать надпись типа “многие посты сделаны благодаря поддержке Яндекса” 🙂
Я несколько удивился, когда в хостграфе оказалось не 380, а 5 миллионов хостов.
Но когда начал считать дальше, вообще опупел. Из этих сайтов только около 10% – известны Яндексу, т.е., скачаны! 90% хостов имеют указание на то, что это найденная ссылка.
А из них (известных) еще около половины – “висящие” (“dangling”, т.е., не имеют внешних ссылок с себя).
Итого, одна итерация расчета Siterank по 250 000 хостов занимает чуть больше минуты на моем компе. На тормозном perl, конечно. 🙂 В свете того, что 50 итераций достаточно, думаю не заморачиваться расчетом на Сях.
Вот и думаю. А так ли страшен черт, как его малютка? 500 тыс сайтов… Новым поисковикам в для старта надо совсем мало… Это если по 1000 документов с сайта, по 7К плейнтекста каждый – получается … [upd: эээ… блин, тыщу в килобайтах забыл, губу раскатал] 3.5 терабайта получается. Фак. 🙁

Корреляции SiteRank – Inbound hosts

Кстати, к вопросу об аппроксимации PR по числу входящих ссылок:
По хостграфу Яндекса посчитал SiteRank (т.е, по ссылкам между хостами), по обычному уравнению с той же отфонарной d=0.85:
PRi=(1-d) плюс d*sum(PRj/Cj)
И нарисовал корреляцию его с числом ссылающихся хостов:

Вот такие корреляции 🙂 Это не по страницам, конечно, но все-же…

Вылетали сайты при добавлении в ЯК?

Думаю, у многих бывало такое, что при добавлении в Яндекс-каталог сайт вылетал из индекса. У меня бывало.
Идея: это происходит потому (предположительно), что у домена меняется внутренний id (факт).

По анализу предыдущего графика получается

Если мы берем сайты с числом внешних ссылающихся хостов до 600, то:
Данные тренда, более точные:
N таких сайтов=3*10^6*(N ссыл.хостов)^-1.933
Данные более осмысленные (мне квадрат нравится :)):
N таких сайтов=4.2*10^6*(N ссыл.хостов)^-2
Т.е., группа сайтов с числом ссылающихся хостов в 10 раз бОльшим – в 100 раз меньше по числу хостов в группе.