Автор: Евгений Трофименко
Выпяти пузо за 30 секунд
Некий мистер Богоявленский со компанией активно пиарится в разных комьюнити. Вот и я заметил.
В основном, как я понял, повод для “пеара” – сервис Интернет -магазин за 30 секунд – который на поверку оказывается вставкой внешнего кода с сайта мистера Богоявленского.
Но и это еще не все! 🙂 Мистер Богоявленский предлагает (всего-то за 300 жалких баксов) Сертификат надежности интернет -магазинов ( ISRCS 2001 )! Как сказано на сайте,
Наличие сертификата – магически действует на российского потребителя: проверенно – значит надёжно. Магазин, прошедший сертификацию, несомненно, будет пользоваться большим доверием.
-я бы сказал, что наоборот, предложение “сертифицироваться” должно магически действовать на владельца е-шопа.
Кстати, мистер Богоявленский по-доброму относится к магазинам: пишет, что
Из-за неразвитости интернет-торговли в нашей стране под вывеской “интернет-магазин” часто скрываются 1-2 человека, для которых это скорее хобби, чем бизнес. Некоторые такие “интернет-магазины” выполняют несколько заказов за месяц и готовы закрыться в любой момент
-но забывает указать, что иные “агентства”, предлагающие “услуги” по “сертификации”, могут состоять даже из одного человека! Конечно, если этот человек – мистер Богоявленский. 🙂
Да, а собственно, почему такое пренебрежение к “паре человек”? А потому, что критерий-то прост:
Сертификат надежности интернет -магазинов (ISRCS2001) включает проверку магазина по следующим параметрам:
* Количество сотрудников компании больше трех (на основании штатного расписания компании);
Но, как вы понимаете, это еще не все! 🙂 Все – это Премия “Российский Интернет” ! Ценой всего-то 690 у.е. – вы можете положить эту премию прямо себе в корзину! Обосновывается это так:
Когда Вам предстоит выбрать хорошее вино, скорее всего вы предпочтете бутылку с множеством медалей на этикетке. Также и пользователи, заглянув на Ваш сайт, сделают выбор в Вашу пользу.
-чота дорогие у них этикетки получаются…
🙂
Видя качество работы поисковиков…
…пора придумывать новые фишки в функционале сайтов. Типа:
Анализировать реферер и подсвечивать соотв. слова на странице или пункты меню
Или:
Если в рефере нет одного из слов, которому посвящена страница, редиректить на “более старший” раздел.
***
А то качество страдает… Например, Яндекс часто находит морду сайта по однословному (очень популярному) запросу за счет одного (!) включения этого слова в менюху. Нет чтобы находить конкретный раздел, куда и ссылки идут, в тайтлах и Х1 все, что надо. Ан нет. Хотя приятно, конечно…
Или наоборот – начнет по такого рода запросу выводить одну из внутренних страниц подраздела, соотвествующую конкретному производителю.
И так бесперечь.
Яндекс – числа
Вот на странице “о компании” написано, что
В поиске Яндекса сегодня
Уникальных серверов: 2 133 281,
уникальных документов: 681 520 431,
объем проиндексированной информации: 18 998 ГБ.
А по февральским данным получается, что серверов еще тогда было: либо 5 млн (известных вообще, по ссылкам в т.ч.), либо 500 тыс. (скачанных Яндексом).
Ну не могло число реально скачанных сайтов возрасти в 4 раза! Тем более, что по данным того же Яндекса (4 слепка за месяц) рост числа скачанных сайтов около 10% в месяц.
А как же тогда? Что есть эти 2 миллиона? Почему тогда половина (и более) хостов в нее не вошли?
Где-то я слышал про “более” и “менее” релевантную части базы. Может, это про нее?
Кстати, о damping factor-е в формуле PageRank
В формуле расчета пейджранка используется некий коэффициент затухания (damping factor), который отражает вероятность того, что посетитель, попавший на страницу сайта, кликнет на одну из ссылок со страницы.
Его в какой-то из классических работ взяли равным 0.85, с тех пор число и мусолится… 🙂
Мне все-таки хочется его как-то определять. От балды брать неохота. Идея следующая:
Свяжем d с числом просмотренных страниц на сайте!
1) Если человек попал на сайт, он просмотрел 1 страницу.
2) Дальше он кликнет с вероятностью d (перейдя, очевидно, на другую страницу)
3) А дальше – с вероятностью d^2
…
N) А дальше – с вероятностью d^N
—–
Просуммируем всю эту чепуху – получим среднее количество хитов на хост:
hit/host=1 плюс d плюс d^2 … плюс d^N
Математику я забыл, но ряд должен сходиться. Методом научного тыка в Excel я получил, что сумма этого ряда равна:
hit/host=1/(1-d)
Вуаля! Тырим данные по хит/хост из того же Рамблер-Топ100, считаем d по каждому сайту, выбрасываем мусор, усредняем.
Кстати, при d=0.75 получается 4 хита на хост. А при d=0.85 – 6.66 хитов на хост. А при d=0.9 – 10 хитов на хост…
4 мне кажется более правильным… Кстати, метод для Рамблера – можно легко считать индивидуальные d по доменам 🙂
Кстати, о масштабах расчетов
OFF: Надо уже на блог вешать надпись типа “многие посты сделаны благодаря поддержке Яндекса” 🙂
Я несколько удивился, когда в хостграфе оказалось не 380, а 5 миллионов хостов.
Но когда начал считать дальше, вообще опупел. Из этих сайтов только около 10% – известны Яндексу, т.е., скачаны! 90% хостов имеют указание на то, что это найденная ссылка.
А из них (известных) еще около половины – “висящие” (“dangling”, т.е., не имеют внешних ссылок с себя).
Итого, одна итерация расчета Siterank по 250 000 хостов занимает чуть больше минуты на моем компе. На тормозном perl, конечно. 🙂 В свете того, что 50 итераций достаточно, думаю не заморачиваться расчетом на Сях.
Вот и думаю. А так ли страшен черт, как его малютка? 500 тыс сайтов… Новым поисковикам в для старта надо совсем мало… Это если по 1000 документов с сайта, по 7К плейнтекста каждый – получается … [upd: эээ… блин, тыщу в килобайтах забыл, губу раскатал] 3.5 терабайта получается. Фак. 🙁
Корреляции SiteRank – Inbound hosts
Кстати, к вопросу об аппроксимации PR по числу входящих ссылок:
По хостграфу Яндекса посчитал SiteRank (т.е, по ссылкам между хостами), по обычному уравнению с той же отфонарной d=0.85:
PRi=(1-d) плюс d*sum(PRj/Cj)
И нарисовал корреляцию его с числом ссылающихся хостов:
Вот такие корреляции 🙂 Это не по страницам, конечно, но все-же…
Вылетали сайты при добавлении в ЯК?
Думаю, у многих бывало такое, что при добавлении в Яндекс-каталог сайт вылетал из индекса. У меня бывало.
Идея: это происходит потому (предположительно), что у домена меняется внутренний id (факт).
По анализу предыдущего графика получается
Если мы берем сайты с числом внешних ссылающихся хостов до 600, то:
Данные тренда, более точные:
N таких сайтов=3*10^6*(N ссыл.хостов)^-1.933
Данные более осмысленные (мне квадрат нравится :)):
N таких сайтов=4.2*10^6*(N ссыл.хостов)^-2
Т.е., группа сайтов с числом ссылающихся хостов в 10 раз бОльшим – в 100 раз меньше по числу хостов в группе.
Распределение по числу внешних ссылок
Начал смотреть на хостграф, полученный от Яндекса. Пока пользуюсь Perl, вроде кряхтит не сильно… Но считать на Сях все равно придется.
Итак, график распределения числа доменов по числу внешних ссылающихся хостов:
Т.е. – это группы хостов, на каждый из которых ссылается 1, 2, 3… N внешних хостов (по горизонтали).
По вертикали – число хостов в этих группах. Координаты логарифмические.
Т.к. среди хостов присутствуют “внешние”, еще не скачанные, и часть сайтов есть в ЯК – я разделил их на 3 группы.