Анализируем выдачу Яндекса

Данные

Выдача Яндекса по запросу “порно”. Скачать сырые данные здесь: report.zip 165Kb, формат данных:

N - номер в выдаче
url
CY
Inbound Pages - ссылающихся страниц
Inbound Sites - ссылающихся сайтов
Inbound Pages Thematic Links - по 
синтаксису a#href="url*"[порно] число страниц 
Inbound Sites Thematic Links - число ссылающихся
 правильными словами сайтов
Pages found - страниц с сайта найдено 
Yaca Name - категория ЯК, название
Yaca Url - категория ЯК, урл
Title Found words - найдено слов в тайтле
Title Numwords - всего слов
Title >4 Numwords - длинных слов
Title netweight - символов в тайтле нетто
Title brut weight - брутто
Hfirst Found words - в первом найденом заголовке hХ
Hfirst Numwords
Hfirst >4 Numwords
Hfirst netweight
Hfirst brut weight
Text Found words - найдено слов в тексте
Text Numwords - всего слов в тексте без тегов
Text >4 Numwords
Text netweight
Text brut weight
Text Found N different tags - сколько различных 
уникальных тегов включают в себя целевое слово
Text Found different tags list - список этих тегов

Pages found может глючить, показывать 2, когда надо 1.

Inbound Sites Thematic Links и Inbound Sites Thematic Pages могут глючить, показывать 0, когда надо 1.

CY – число ссылающихся страниц и сайтов


Видно, что среднее значение ИЦ примерно совпадает по всему диапазону с числом ссылающихся сайтов. Центр синей “колбасы”. Отклонения, правда, на полпорядка в обе стороны.

А вот с числом ссылающисхся страниц особо ничего не коррелирует.

Частоты в тексте, тайтле и Hfirst – по позиции



На графиках показаны частоты (в долях, не в процентах) целевого слова в разных частях страницы (по общему количеству слов). Видно, что выдача явственно разбита на 2 части – по крайней мере, по частоте слов в тексте. Примерно первые 1200 результатов имеют более низкую частоту в тексте, чем вторая часть выдачи.

Это валовые частоты. Без разбора групп страниц по цитируемости. Поподробнее посмотрим на первую часть выдачи, и тренд поставим по меньшему числу точек:



Не все так гладко… Да, вроде средняя частота в тексте приближается к 5%. Но ведь, во-первых, разброс все равно большой – в выдаче есть разные цифры, и только среднее около 5%. Во-вторых, это все цитируемые страницы, а на них выдача может быть и скорее всего перекошена цитируемостью.

Число ссылающихся сайтов, ссылающихся с нужными словами, CY, число найденных страниц – по позиции



На графиках показаны по позиции в выдаче в логарифимческих координатах – CY, число сайтов, ссылающихся с ключевым словом, число таких ссылающихся страниц, число найденных страниц на сайте.

Видно, что тЫЦ в “первой части” выдачи совсем немного отличается от второй – ну, немного побольше. А вот число ссылающихся сайтов (на 2 порядка) и число ссылающихся страниц (на 3 порядка) серьезно уменьшается. Практически, за 1000-м результатом на сайты уже никто не ссылается “нужными словами”. Правда, у этого экспериментального массива есть недочет – если ссылающийся сайт один, в данных он присутствует как ноль. Но сейчас это не принципиально.



Видно, как гладко снижается количество ссылающихся сайтов в пределах первых пяти! сотен. Это, конечно, тренд, и скачки в реальных данных есть. Но ведь и разную цитируемость ссылающихся страниц учесть мы тоже не можем… Так что остается считать, что цитируемость у ссылающихся страниц примерно одинакова – раз уж мы размазываем ссылки тонким слоем. Видимо, придется для анализа частот выбрасывать цитируемые страницы вообще.

Частоты в тексте при нулевых: числе ссылающихся сайтов, отсутствии текста в тайтле и hX – по позиции

Помучившись к Excel, написал себе сервис для выборок из этого массива данных через SQL – для выборок.

На графике изобразим: долю слов в тексте, усредненную, для разных интервалов по позиции в выдаче, с выбранными ограничениями. Эти ограничения – отсутствие различных “лополнительных” параметров, могущих влиять на релевантность: слов в тайтле, в Hx, ссылающихся ключевиками страниц, большого (>2) числа найденных страниц сайта, и, наконец, отсутствии всех этих параметров. Страницы, в которых все эти вещи отсутствуют, появляются где-то со второй сотни.



Здесь идет усреднение доли (не процента) целевого слова в тексте в пределах каждой сотни результатов выдачи. Явно от 3% снижение идет до 1% в пределах тысячи, а затем идет “вторая”, мусорная часть выдачи.

Откуда берется это разделение на 2 части выдачи? В обеих частях выдачи есть сайты, близкие по параметрам. Единственно, что во второй части выдачи очень мало ссылающихся сайтов. Если учесть, что в собранных данных есть глюк – при 1 ссылающемся сайте в таблице их нариовано 0, а также то, что “тематические” внутренние ссылки сюда не попадают (просто яндекс их не дает) – вероятно, это разделение в основном из-за ссылок.

Хотя есть и другой вариант – наличие некоей “более качественной” части базы. Или “менее некачественной”.

В любом случае надо работать с тем, что есть – ни передаваемый ВИЦ ссылающихся, ни возможные “минимальные границы” по ВИЦу для учета этой сслыки в ссылочном ранжировании, ни внутренние ссылки мы учесть не можем – будем анализировать первую тысячу, предполагая, что все разделение именно из-за ссылок.

То же, но в пределах первой тысячи:



Есть разброс, не все гладко… Самым интересным графиком, по идее, должен быть график “без всего”. Однако, внутренние ссылки мы тут все равно не учли… Так что придется их рассматривать по-отдельности.

В общем, без различных важных параметров частота около 1-2% ближе к оптимальности… Наверное.

То же, но не с усреднениями, а с трендами



То же, но в пределах первой тысячи:


То же самое с трендом по 50 точек:



Все равно закидоны явные прослеживаются.

В общем, странная ситуация. Получается, что для малоцитируемых страниц лучше частоты около 1-2%. А частоты около 3-7% неоптимальны? В хвосте выдачи как раз страницы с такими частотами. Вот как можно изобразить связь между частотами в тексте и числом ссылающихся ключевиками сайтов и страниц: (усреднение по 20 точек)

Более подробно можно посмотреть здесь – (усреднение по 20 точек) – такое впечатление, что наиболее оптимальные среди малоцитируемых страниц (обл. 2) имеют около 1-2%, а страницы с частотой выше делятся на две группы – тематически цитируемые и вылезшие за счет ссылочного ранжирования (обл. 1) и все остальные, нецитриуемые, в хвосте (обл. 3):

Тематичность по Яндекс.каталогу



Доля сайтов из развлекательного раздела ЯК.

Резюме

Хрен его знает. Надо сравнить с выдачей по другим словам. И вообще, ничего нет лучше чистого эксперимента, без цитируемостей 🙂

А надо ли регистрироваться в Рамблер Топ100?

Собственно, считается за аксиому, что надо. А тут я недавно несколько сайтов в Рамблер добавил, а на Топ100 забил. Не до того было. И эти сайты неплохо находиться стали… Хотя тут много факторов…
Таки у Рамблера есть коэффициент популярности, который складывается из чего-то пейджранк-подобного и из данных Топ100 в качестве дополнительной информации (а может, проверки?).
Но ведь данные Топ100 могут и в минус играть. Если, скажем, реальная посещаемость страниц со счетчиком ниже “теоретической”, рассчитанной пейджранком.
Случай накруток и подкруток не рассматриваем.
И поскольку все обменные ссылки делаются не для посещаемости и не приносят ее – в общем случае установка счетчика Топ100 будет означать снижение “к-та популярности”. Т.к. оценка “по пейджранку” явно должна быть выше “оценки по посещаемости”.
Какие-нибудь примеры есть по сайтам, не внесенным в Топ100?

Еще один способ обратить на себя внимание

…на Яндексе: по запросу шубы меха первым идет сайт westfur.com, у которого сниппет – без пробелов – вылезает в правую часть страницы и прямо разрезает объявления Директа.
Смотрим в код – заголовок 9!! уровня:

< h9>ателье,головные,изделия,полушубки,продажа, салон,шапки,уборы,фабрика,меха,норка,лиса, бобр,бобёр,куница,соболь,шуба.< /h9>

Мдя. 9 уровень заголовка – это пять. 🙂

Про спам комментариев в блогах

Многие отключают комментарии в блогах. Потому, что их спамят. Я у себя использовал некое временное решение для борьбы с этим делом.
На этот блог было две “атаки” спаммеров – оба раза по 15-20 сообщений проспамили с промежутком недели в две. После первого раза я сделал одну вещь – при посте страница отдает error 500 и нормальный контент. После второго раза все прекратилось – видимо, когда спамерская тулза прожевала эту ошибку, она решила, что на блоге все плохо и не стоит с ним иметь дел. 🙂 Еще 4ХХ ошибка – тоже вариант.
В принципе, спамерские софты должны это отлавливать – им же не хочется спамить в мертвые блоги. 🙂
Хотя те, кто юзает готовые софты блогов, напрягутся посильнее, выискивая нужное место в скрипте…
Может, кому-то поможет…

Вау! конкурс стипендий Яндекса

В Яндексе вынесли решение по конкурсу стипендий.
Никто не знает, а я на самом деле подавал в Яндекс проект исследования. Я думал, подать или нет… Подал, и оно прошло! 🙂
Короче, вот здесь – http://company.yandex.ru/grant/result1.xml под вторым номером

101803 – «Оптимизация расчета ссылочной популярности и учета…»

-это мое как раз. Полностью называется так: Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.
А о чем там в аннотации написано – не скажу! 🙂

PS Еще и на пиво останется….

Google Suggest – борьба с нашей ленью

Google Suggest: http://www.google.com/webhp?complete=1&hl=en
При вводе части запроса в окошко предлагает формулировки с общим числом найденных результатов. Формулировки и как подстановка новых слов в запрос, так и на основе введенной части слова.
В FAQ написано, что они не знают, когда будут поддерживать другие языки… но русские запросы предлагаются нормально.
Как и написано в факе, “это сделано, чтобы помочь юзеру уточнять и переформулировать запрос”. Борьба с частотными однословными запросами, видимо.
А что, очень хорошая борьба. 🙂
Да, написано, что список формулировок получается в риалтайм, и что он не использует serach history юзера.

Our algorithms use a wide range of information to predict the queries users are most likely to want to see

-вот только непонятно, что-то вроде “ассоциативных” запросов там заложено или просто по частоте…
PS
Но и косячит его сильно… Вводит по собственному желанию дополнение, если оно единственное, а стрелку назад нажмешь – стирает все… 🙁

наши методисты…

Почему-то не читаю рассылку Андрея Иванова по почте, а захожу туда в архив на Сабскрайбе. Когда настроение почитать появляется. 🙂
*** off: наверное, это и есть причина популярности блогов – когда письмо приходит, настроения читать его нет, есть дела разные… А когда почитать охота, письмо уже завалялось и его не найдешь…
Итак, в одном из последних выпусков дали материал ТЕКСТОВЫЕ ПАРАМЕТРЫ РЕЛЕВАНТНОСТИ – в виде методики анализа оптимальной частоты кейвордов. Кстати, он почему-то не подписан… Наверное, методика настолько элементарна, что такую банальность стыдно своим имененем подписать.
Итак, методика.
Начало, “постановка задачи”:

Очевидно, что из перечисленных характеристик мы можем определить только пп. б) и г), размер же базы Яндекса и частота какого-то слова в ней нам неизвестны.

-ключевое слово “нам”. 🙂 “Вес слова в базе” или его подобие, во-первых, можно посмотреть в reqtext (кто знает, тот поймет :)), а во-вторых, частота слова в базе с хорошей прикидкой (плюс-минус 0.3 порядка) пропорциональна числу найденных документов по этому слову. С отклонениями в один-полтора порядка 🙂 для очень частотных слов, вроде “www”, которые часто употребляют на одной странице очень много раз. Проверено reqtext-ом.

Сформулируем еще короче.
Оптимальные веса для разных ключевых слов – различны

-я бы сформулировал подлиннее… Но если покороче :)… Оптимальные веса МОГУТ быть различными, да и не веса, а диапазоны весов. И эти диапазоны могут пересекаться…
Но, собственно, вернемся к методике.

Но опытный веб-мастер знает, что верхние строчки результатов поиска занимают ссылки на авторитетные, хорошо цитируемые сайты, и фактор цитируемости может исказить картину весовых коэффициентов. Поэтому анализировать стоит не только первые 10 позиций, но и посмотреть, каково распределение весов “пониже”, в Тор20, Тор30, Тор50

-странно. А почему не Топ100? Ведь документов по запросу выдается, как правило, куча. Туева. Почему не взять первые 10% хотя бы? Потому, что это очень много и SeMaster.ru не вынесет такого.
Итак, что предлагается.
Допустим, у меня есть мешок картошки и мне в закрытом оборонном НИИ поставили задачу – определить, какие особенные качества должны иметь картофелины, которые при длительном встряхивании мешка “всплывают” наверх.
И я, допустим, взял этот мешок и долго встряхивал, перераспределяя в нем картошку. Ну а потом взял и проанализировал… Ну, допустим, все картофелины из верхнего слоя. Допустим, их там 10… Нет, 10 мало, возьмем 20… 🙂
Проанализируем, и получим фигу. Потому, что всплытие картофелин может определяться не только и не столько их собственными качествами, сколько качествами их утонувших соседей.
Да и хуже того. Картофелины разного размера могут образовать конгломерат :), в котором в промежутки между сферическими 🙂 картофелинами одного размера R помещаются картофелины размера R/6, к примеру… И в вершине мешка будет смесь. Которую нельзя разделить на “оптимальные” компоненты. И усреднив параметр R, мы получим картофелину, которая туда не впишется. (пример – замешивание сайтов в выдачу по тематикам или по жанрам)
Да и еще хуже. При изменении размера картофелины она может по иным законам цепляться за соседей (или не цепляться) и вообще может не существовать оптимального размера…
*** off: это я к тому, что когда-то я выбрал всю выдачу по однословному запросу, и, пробив 4000 страниц, обнаружил, что в последних 2/3 сайтов средняя частота слова в тайтле около 1/3, но они чередуются – то ноль, то 1, то 0.5. То что-то другое.
*** Да, и влияние “общей релевантности” числа страниц с сайта тоже выбрасывать не стоит.
Но все-таки. Ладно, анализируем 20-40 места, строим таблицу и делаем скриншот.
И что бы видим? 2.56% средняя частота. Но в топе результатов (которые по умолчанию полагаются оптимальными или хотя бы более оптимальными, чем остальные :)) есть и 6.5%, и 0.60% – и вообще, огромный разброс. Да и в тайтле, о ужас, разное количество слов нарисовалось…
все поделить (с) Шариков 🙂
А все-таки… Если, скажем, у какого-то сайта цитируемость (по ссылкам правильными словами) ого-го, а процент, ну… допустим, выше оптимального? Пролезет этот сайт за счет цитируемости повыше в выдаче? Пролезет.
А если процент НИЖЕ оптимального? Вот черт… Тоже пролезет.
Тогда какой выхлоп? Семастер помучить и за доступ заплатить в будущем, что ли?
Таки смысла нет усреднять первые N или кусок их первых N. Надо всю выдачу анализировать. Или хотя бы ее значительную часть, в виде N*10% выдачи.
___
ЗЫ Кстати, похожим методом я пользуюсь, отличия – в том, что рассматриваются сайты с минимальными показателями цитируемости, типа чем ц-ть ниже – тем больше внимания обращаю на саму страницу 🙂 Да и то смысла мало при неравных тайтлах и Х1-3.

double opt-in рассылки

На одном из своих 🙂 сайтов подписываю народ на рассылку. Выскакивает поп-андер окошко, в котором предлагается оставить имя и е-мейл.
После чего человеку приходит письмо с требованием подтвердить подписку, кликнув по ссылке в письме.
Сегодня подбил результаты – по базе в 300 подписчиков около 40-60% подтверждают подписку (совсем в среднем – 46%). Маловато будет. Может, отказаться от этого подтверждения? Или написать “более правильное” письмо для просьбы о подтверждении?
Уже ставим ссылку на обещенный материал прямо в письмо с просьбой о подтверждении… Скоро дойдем до того, чтобы этот материал в первом же письме слать… Что ж, половину подписчиков терять?
У кого-нибудь есть статистика по тому, насколько охотно народ потверждает подписку? По темам?

Google AdSense приходит в Рунет

via alexmoskalyuk:

We wanted to let you know that today Google introduced its Google AdSense service in Russia, bringing to Russian webmasters increased value and the ability to maximize the earning potential of their site.

Google AdSense enables Russian websites to offer their users access to billions of web pages through Google’s advanced search technology. The program is an extension of the Google WebSearch program previously offered exclusively to larger websites and portals. This new online program enables qualified web publishers to place a Google search box on their websites and provide their users with Google search results and keyword-targeted advertisements. Google shares the revenue generated from ad clicks with the web publisher.

To join the new program, publishers fill out the online application for Google AdSense available at www.google.ru/adsense/. Once approved, publishers simply copy and paste a few lines of HTML onto their web pages to insert a Google search box. In addition to WebSearch, publishers can also add Google SiteSearch(TM) to help visitors find information easily within their web pages.

-вероятно, это Гугловый newsletter был источником… На https://www.google.com/adsense/?hl=ru&sourceid=aso&subid=us-et-ads написано вот что:

Разместите на своем сайте поисковое окно Google, с помощью которого поиск может производиться как по всему Интернету, так и непосредственно на Вашем сайте, и зарабатывайте деньги, когда Ваши посетители кликают на контекстные объявления, появляющиеся на страницах с результатами поиска. Узнать подробнее об AdSense для поиска.

В настоящее время программа Google AdSense для контекста недоступна для русскоязычных сайтов (кликните эдесь для просмотра поддерживаемых языков).