Теоретически…

Об анализе выдачи.
Вот есть, например, несколько факторов – например, в простейшем случае, % в тексте и ссылки со словами.
И есть вся выкачанная выдача по этому запросу.
Тогда разбиваем каждый фактор на диапазоны значений и смотрим, как распределены сайты в выдаче целиком – получается этакая таблица значений:

0 ссылок 1-5 ссылок 5-10 ссылок
0 % частота Ni% Ni% Ni% Ni%
0.01-1.99 % частота Ni% Ni% Ni% Ni%
2-5 % частота Ni% Ni% Ni% Ni%
Ni% Ni% Ni% Ni%

В ячейках – доля сайтов, попадающих в этот диапазон. Это получается общая статистика по всей выдаче по слову. Конечно, диапазонов может быть много, да и факторов – больше двух.
И так же выбираем “верхушку выдачи”, делаем аналогичный анализ и смотрим, как отличаются % сайтов, попавшие в разные ячейки. Можно делать “срезы” по выдаче, уходя в ее глубину.
Тогда вероятно, можно приблизиться к оптимальным значениям…
Но…
Сколько данных нужно? Положим, вся выдача Яндекса – 5000 результатов. Допустим, у нас 10 диапазонов каждого из 2-х параметров – итого 100. А нужно, чтобы статистика еще как-то существовала… Здесь в среднем получается по 50 результатов на ячейку (собственно, сами диапазоны надо выбирать именно так, чтобы внутри них статистика была приличной – где-то участить, где-то проредить).
Ну а если взяли, например, первые 500? По 5 результатов в клетке в среднем? Фигня, а не статитика. А если первые 100 анализируем? 🙂
Т.е., получается – либо отдельные гипотезы проверять остается, выбирая минимальное число диапазонов (2-3, например, в произведении 4-9), либо фигня получится.
Да и факторов млжет быть гораздо больше.
Хотя для выискивания зависимостей может подойти… Сначала предположить зависимость, потом напридумывать гениальных 🙂 гипотез и их проверять…
Иначе данных маловато получается.

Термсы Арбатека меня радуют…

в части реселлерской программы – просто какое-то руководство для шпиёнов:

Могут ли мои клиенты узнать, что я реселлер?
Мы соблюдаем полную анонимность перед конечным клиентом. Вы оказываете техническую поддержку и проводите расчеты с вашими клиентами. Мы никак не вступаем в контакт с вашими клиентами.

Какие технические меры вы соблюдаете, чтобы сохранить анонимность?
Мы бесплатно предоставляем анонимные DNS серверы, которые никак не указывают на нас. Вы также можете использовать бесплатные личные DNS серверы ns1.вашеимя.ru и ns2.вашеимя.ru.

Что такое персональные DNS серверы?
Использование этой бесплатной услуги позволяет создать иллюзию того, что вы размещаете домены ваших клиентов на собственном оборудовании. В случае если вы выберете эту опцию, whois записи доменов ваших пользователей будут показывать ns1.вашеимя.ru и ns2.вашеимя.ru, что придает уверенности конечному пользователю в надежности провайдера. Для того, чтобы эта функция работала, доменное имя реселлера (указываемое при оформлении заказа) должно быть проделегировано на наше оборудование.

Кто регистрирует доменные имена для реселлера и его клиентов?
Для соблюдения полной анонимности реселлер сам регистрирует доменные имена для себя и конечных пользователей.

-только надо было написать, что если будут пытать, все равно, честное пионерское, мы вас не выдадим врагу. 🙂
Но если вам не понравится качество наших услуг, учтите, что

использование ненормативной лексики в общении с сотрудниками и службами компании недопустимо и расценивается как грубое нарушение Правил.

-видать, проблема навязла в зубах… Интересно, и много таких желающих использовать ненормативную лексику? Видно, много… 🙂

сотовые телефоны с контрактами

Такая вот история… 🙂
Делаем мы магазин партнерский с торговцами мобилами. Ну, они базу нам дали. Сижу ее, колбашу под свой сайт.
Тут в базе – вижу, есть отдельно таблица с телефонами, отдельно с контрактами, и еще есть отдельно таблица цен на “телефоны с контрактами”. Там – айдишники телефона и контракта и цена “в связке”.
Думаю, дай-ка я ее юзерам в более удобном виде выведу. Дай-ка, думаю, сгруппирую по оператору и посчитаю минимальную и максимальную экономию на покупке телефона по группе контрактов этого оператора… И со ссылочкой на соответствующую страницу, само собой.
Пишу sql запрос… Вывожу и вижу что-то вроде:

Сэкономьте от $3 до $3 при покупке с контрактами Билайн
Сэкономьте от $3 до $3 при покупке с контрактами МТС

Блин, эти умники просто вычли 3 бакса при покупке телефона с контрактом… И стоило отдельную таблицу (раз в 30 больше телефонной) под это городить??? 🙂
Неисповедимы пути программистов… 🙂

Анализируем выдачу Яндекса

Данные

Выдача Яндекса по запросу “порно”. Скачать сырые данные здесь: report.zip 165Kb, формат данных:

N - номер в выдаче
url
CY
Inbound Pages - ссылающихся страниц
Inbound Sites - ссылающихся сайтов
Inbound Pages Thematic Links - по 
синтаксису a#href="url*"[порно] число страниц 
Inbound Sites Thematic Links - число ссылающихся
 правильными словами сайтов
Pages found - страниц с сайта найдено 
Yaca Name - категория ЯК, название
Yaca Url - категория ЯК, урл
Title Found words - найдено слов в тайтле
Title Numwords - всего слов
Title >4 Numwords - длинных слов
Title netweight - символов в тайтле нетто
Title brut weight - брутто
Hfirst Found words - в первом найденом заголовке hХ
Hfirst Numwords
Hfirst >4 Numwords
Hfirst netweight
Hfirst brut weight
Text Found words - найдено слов в тексте
Text Numwords - всего слов в тексте без тегов
Text >4 Numwords
Text netweight
Text brut weight
Text Found N different tags - сколько различных 
уникальных тегов включают в себя целевое слово
Text Found different tags list - список этих тегов

Pages found может глючить, показывать 2, когда надо 1.

Inbound Sites Thematic Links и Inbound Sites Thematic Pages могут глючить, показывать 0, когда надо 1.

CY – число ссылающихся страниц и сайтов


Видно, что среднее значение ИЦ примерно совпадает по всему диапазону с числом ссылающихся сайтов. Центр синей “колбасы”. Отклонения, правда, на полпорядка в обе стороны.

А вот с числом ссылающисхся страниц особо ничего не коррелирует.

Частоты в тексте, тайтле и Hfirst – по позиции



На графиках показаны частоты (в долях, не в процентах) целевого слова в разных частях страницы (по общему количеству слов). Видно, что выдача явственно разбита на 2 части – по крайней мере, по частоте слов в тексте. Примерно первые 1200 результатов имеют более низкую частоту в тексте, чем вторая часть выдачи.

Это валовые частоты. Без разбора групп страниц по цитируемости. Поподробнее посмотрим на первую часть выдачи, и тренд поставим по меньшему числу точек:



Не все так гладко… Да, вроде средняя частота в тексте приближается к 5%. Но ведь, во-первых, разброс все равно большой – в выдаче есть разные цифры, и только среднее около 5%. Во-вторых, это все цитируемые страницы, а на них выдача может быть и скорее всего перекошена цитируемостью.

Число ссылающихся сайтов, ссылающихся с нужными словами, CY, число найденных страниц – по позиции



На графиках показаны по позиции в выдаче в логарифимческих координатах – CY, число сайтов, ссылающихся с ключевым словом, число таких ссылающихся страниц, число найденных страниц на сайте.

Видно, что тЫЦ в “первой части” выдачи совсем немного отличается от второй – ну, немного побольше. А вот число ссылающихся сайтов (на 2 порядка) и число ссылающихся страниц (на 3 порядка) серьезно уменьшается. Практически, за 1000-м результатом на сайты уже никто не ссылается “нужными словами”. Правда, у этого экспериментального массива есть недочет – если ссылающийся сайт один, в данных он присутствует как ноль. Но сейчас это не принципиально.



Видно, как гладко снижается количество ссылающихся сайтов в пределах первых пяти! сотен. Это, конечно, тренд, и скачки в реальных данных есть. Но ведь и разную цитируемость ссылающихся страниц учесть мы тоже не можем… Так что остается считать, что цитируемость у ссылающихся страниц примерно одинакова – раз уж мы размазываем ссылки тонким слоем. Видимо, придется для анализа частот выбрасывать цитируемые страницы вообще.

Частоты в тексте при нулевых: числе ссылающихся сайтов, отсутствии текста в тайтле и hX – по позиции

Помучившись к Excel, написал себе сервис для выборок из этого массива данных через SQL – для выборок.

На графике изобразим: долю слов в тексте, усредненную, для разных интервалов по позиции в выдаче, с выбранными ограничениями. Эти ограничения – отсутствие различных “лополнительных” параметров, могущих влиять на релевантность: слов в тайтле, в Hx, ссылающихся ключевиками страниц, большого (>2) числа найденных страниц сайта, и, наконец, отсутствии всех этих параметров. Страницы, в которых все эти вещи отсутствуют, появляются где-то со второй сотни.



Здесь идет усреднение доли (не процента) целевого слова в тексте в пределах каждой сотни результатов выдачи. Явно от 3% снижение идет до 1% в пределах тысячи, а затем идет “вторая”, мусорная часть выдачи.

Откуда берется это разделение на 2 части выдачи? В обеих частях выдачи есть сайты, близкие по параметрам. Единственно, что во второй части выдачи очень мало ссылающихся сайтов. Если учесть, что в собранных данных есть глюк – при 1 ссылающемся сайте в таблице их нариовано 0, а также то, что “тематические” внутренние ссылки сюда не попадают (просто яндекс их не дает) – вероятно, это разделение в основном из-за ссылок.

Хотя есть и другой вариант – наличие некоей “более качественной” части базы. Или “менее некачественной”.

В любом случае надо работать с тем, что есть – ни передаваемый ВИЦ ссылающихся, ни возможные “минимальные границы” по ВИЦу для учета этой сслыки в ссылочном ранжировании, ни внутренние ссылки мы учесть не можем – будем анализировать первую тысячу, предполагая, что все разделение именно из-за ссылок.

То же, но в пределах первой тысячи:



Есть разброс, не все гладко… Самым интересным графиком, по идее, должен быть график “без всего”. Однако, внутренние ссылки мы тут все равно не учли… Так что придется их рассматривать по-отдельности.

В общем, без различных важных параметров частота около 1-2% ближе к оптимальности… Наверное.

То же, но не с усреднениями, а с трендами



То же, но в пределах первой тысячи:


То же самое с трендом по 50 точек:



Все равно закидоны явные прослеживаются.

В общем, странная ситуация. Получается, что для малоцитируемых страниц лучше частоты около 1-2%. А частоты около 3-7% неоптимальны? В хвосте выдачи как раз страницы с такими частотами. Вот как можно изобразить связь между частотами в тексте и числом ссылающихся ключевиками сайтов и страниц: (усреднение по 20 точек)

Более подробно можно посмотреть здесь – (усреднение по 20 точек) – такое впечатление, что наиболее оптимальные среди малоцитируемых страниц (обл. 2) имеют около 1-2%, а страницы с частотой выше делятся на две группы – тематически цитируемые и вылезшие за счет ссылочного ранжирования (обл. 1) и все остальные, нецитриуемые, в хвосте (обл. 3):

Тематичность по Яндекс.каталогу



Доля сайтов из развлекательного раздела ЯК.

Резюме

Хрен его знает. Надо сравнить с выдачей по другим словам. И вообще, ничего нет лучше чистого эксперимента, без цитируемостей 🙂

А надо ли регистрироваться в Рамблер Топ100?

Собственно, считается за аксиому, что надо. А тут я недавно несколько сайтов в Рамблер добавил, а на Топ100 забил. Не до того было. И эти сайты неплохо находиться стали… Хотя тут много факторов…
Таки у Рамблера есть коэффициент популярности, который складывается из чего-то пейджранк-подобного и из данных Топ100 в качестве дополнительной информации (а может, проверки?).
Но ведь данные Топ100 могут и в минус играть. Если, скажем, реальная посещаемость страниц со счетчиком ниже “теоретической”, рассчитанной пейджранком.
Случай накруток и подкруток не рассматриваем.
И поскольку все обменные ссылки делаются не для посещаемости и не приносят ее – в общем случае установка счетчика Топ100 будет означать снижение “к-та популярности”. Т.к. оценка “по пейджранку” явно должна быть выше “оценки по посещаемости”.
Какие-нибудь примеры есть по сайтам, не внесенным в Топ100?

Еще один способ обратить на себя внимание

…на Яндексе: по запросу шубы меха первым идет сайт westfur.com, у которого сниппет – без пробелов – вылезает в правую часть страницы и прямо разрезает объявления Директа.
Смотрим в код – заголовок 9!! уровня:

< h9>ателье,головные,изделия,полушубки,продажа, салон,шапки,уборы,фабрика,меха,норка,лиса, бобр,бобёр,куница,соболь,шуба.< /h9>

Мдя. 9 уровень заголовка – это пять. 🙂

Про спам комментариев в блогах

Многие отключают комментарии в блогах. Потому, что их спамят. Я у себя использовал некое временное решение для борьбы с этим делом.
На этот блог было две “атаки” спаммеров – оба раза по 15-20 сообщений проспамили с промежутком недели в две. После первого раза я сделал одну вещь – при посте страница отдает error 500 и нормальный контент. После второго раза все прекратилось – видимо, когда спамерская тулза прожевала эту ошибку, она решила, что на блоге все плохо и не стоит с ним иметь дел. 🙂 Еще 4ХХ ошибка – тоже вариант.
В принципе, спамерские софты должны это отлавливать – им же не хочется спамить в мертвые блоги. 🙂
Хотя те, кто юзает готовые софты блогов, напрягутся посильнее, выискивая нужное место в скрипте…
Может, кому-то поможет…