Теоретически…

Об анализе выдачи.
Вот есть, например, несколько факторов – например, в простейшем случае, % в тексте и ссылки со словами.
И есть вся выкачанная выдача по этому запросу.
Тогда разбиваем каждый фактор на диапазоны значений и смотрим, как распределены сайты в выдаче целиком – получается этакая таблица значений:

0 ссылок 1-5 ссылок 5-10 ссылок
0 % частота Ni% Ni% Ni% Ni%
0.01-1.99 % частота Ni% Ni% Ni% Ni%
2-5 % частота Ni% Ni% Ni% Ni%
Ni% Ni% Ni% Ni%

В ячейках – доля сайтов, попадающих в этот диапазон. Это получается общая статистика по всей выдаче по слову. Конечно, диапазонов может быть много, да и факторов – больше двух.
И так же выбираем “верхушку выдачи”, делаем аналогичный анализ и смотрим, как отличаются % сайтов, попавшие в разные ячейки. Можно делать “срезы” по выдаче, уходя в ее глубину.
Тогда вероятно, можно приблизиться к оптимальным значениям…
Но…
Сколько данных нужно? Положим, вся выдача Яндекса – 5000 результатов. Допустим, у нас 10 диапазонов каждого из 2-х параметров – итого 100. А нужно, чтобы статистика еще как-то существовала… Здесь в среднем получается по 50 результатов на ячейку (собственно, сами диапазоны надо выбирать именно так, чтобы внутри них статистика была приличной – где-то участить, где-то проредить).
Ну а если взяли, например, первые 500? По 5 результатов в клетке в среднем? Фигня, а не статитика. А если первые 100 анализируем? 🙂
Т.е., получается – либо отдельные гипотезы проверять остается, выбирая минимальное число диапазонов (2-3, например, в произведении 4-9), либо фигня получится.
Да и факторов млжет быть гораздо больше.
Хотя для выискивания зависимостей может подойти… Сначала предположить зависимость, потом напридумывать гениальных 🙂 гипотез и их проверять…
Иначе данных маловато получается.

Анализируем выдачу Яндекса

Данные

Выдача Яндекса по запросу “порно”. Скачать сырые данные здесь: report.zip 165Kb, формат данных:

N - номер в выдаче
url
CY
Inbound Pages - ссылающихся страниц
Inbound Sites - ссылающихся сайтов
Inbound Pages Thematic Links - по 
синтаксису a#href="url*"[порно] число страниц 
Inbound Sites Thematic Links - число ссылающихся
 правильными словами сайтов
Pages found - страниц с сайта найдено 
Yaca Name - категория ЯК, название
Yaca Url - категория ЯК, урл
Title Found words - найдено слов в тайтле
Title Numwords - всего слов
Title >4 Numwords - длинных слов
Title netweight - символов в тайтле нетто
Title brut weight - брутто
Hfirst Found words - в первом найденом заголовке hХ
Hfirst Numwords
Hfirst >4 Numwords
Hfirst netweight
Hfirst brut weight
Text Found words - найдено слов в тексте
Text Numwords - всего слов в тексте без тегов
Text >4 Numwords
Text netweight
Text brut weight
Text Found N different tags - сколько различных 
уникальных тегов включают в себя целевое слово
Text Found different tags list - список этих тегов

Pages found может глючить, показывать 2, когда надо 1.

Inbound Sites Thematic Links и Inbound Sites Thematic Pages могут глючить, показывать 0, когда надо 1.

CY – число ссылающихся страниц и сайтов


Видно, что среднее значение ИЦ примерно совпадает по всему диапазону с числом ссылающихся сайтов. Центр синей “колбасы”. Отклонения, правда, на полпорядка в обе стороны.

А вот с числом ссылающисхся страниц особо ничего не коррелирует.

Частоты в тексте, тайтле и Hfirst – по позиции



На графиках показаны частоты (в долях, не в процентах) целевого слова в разных частях страницы (по общему количеству слов). Видно, что выдача явственно разбита на 2 части – по крайней мере, по частоте слов в тексте. Примерно первые 1200 результатов имеют более низкую частоту в тексте, чем вторая часть выдачи.

Это валовые частоты. Без разбора групп страниц по цитируемости. Поподробнее посмотрим на первую часть выдачи, и тренд поставим по меньшему числу точек:



Не все так гладко… Да, вроде средняя частота в тексте приближается к 5%. Но ведь, во-первых, разброс все равно большой – в выдаче есть разные цифры, и только среднее около 5%. Во-вторых, это все цитируемые страницы, а на них выдача может быть и скорее всего перекошена цитируемостью.

Число ссылающихся сайтов, ссылающихся с нужными словами, CY, число найденных страниц – по позиции



На графиках показаны по позиции в выдаче в логарифимческих координатах – CY, число сайтов, ссылающихся с ключевым словом, число таких ссылающихся страниц, число найденных страниц на сайте.

Видно, что тЫЦ в “первой части” выдачи совсем немного отличается от второй – ну, немного побольше. А вот число ссылающихся сайтов (на 2 порядка) и число ссылающихся страниц (на 3 порядка) серьезно уменьшается. Практически, за 1000-м результатом на сайты уже никто не ссылается “нужными словами”. Правда, у этого экспериментального массива есть недочет – если ссылающийся сайт один, в данных он присутствует как ноль. Но сейчас это не принципиально.



Видно, как гладко снижается количество ссылающихся сайтов в пределах первых пяти! сотен. Это, конечно, тренд, и скачки в реальных данных есть. Но ведь и разную цитируемость ссылающихся страниц учесть мы тоже не можем… Так что остается считать, что цитируемость у ссылающихся страниц примерно одинакова – раз уж мы размазываем ссылки тонким слоем. Видимо, придется для анализа частот выбрасывать цитируемые страницы вообще.

Частоты в тексте при нулевых: числе ссылающихся сайтов, отсутствии текста в тайтле и hX – по позиции

Помучившись к Excel, написал себе сервис для выборок из этого массива данных через SQL – для выборок.

На графике изобразим: долю слов в тексте, усредненную, для разных интервалов по позиции в выдаче, с выбранными ограничениями. Эти ограничения – отсутствие различных “лополнительных” параметров, могущих влиять на релевантность: слов в тайтле, в Hx, ссылающихся ключевиками страниц, большого (>2) числа найденных страниц сайта, и, наконец, отсутствии всех этих параметров. Страницы, в которых все эти вещи отсутствуют, появляются где-то со второй сотни.



Здесь идет усреднение доли (не процента) целевого слова в тексте в пределах каждой сотни результатов выдачи. Явно от 3% снижение идет до 1% в пределах тысячи, а затем идет “вторая”, мусорная часть выдачи.

Откуда берется это разделение на 2 части выдачи? В обеих частях выдачи есть сайты, близкие по параметрам. Единственно, что во второй части выдачи очень мало ссылающихся сайтов. Если учесть, что в собранных данных есть глюк – при 1 ссылающемся сайте в таблице их нариовано 0, а также то, что “тематические” внутренние ссылки сюда не попадают (просто яндекс их не дает) – вероятно, это разделение в основном из-за ссылок.

Хотя есть и другой вариант – наличие некоей “более качественной” части базы. Или “менее некачественной”.

В любом случае надо работать с тем, что есть – ни передаваемый ВИЦ ссылающихся, ни возможные “минимальные границы” по ВИЦу для учета этой сслыки в ссылочном ранжировании, ни внутренние ссылки мы учесть не можем – будем анализировать первую тысячу, предполагая, что все разделение именно из-за ссылок.

То же, но в пределах первой тысячи:



Есть разброс, не все гладко… Самым интересным графиком, по идее, должен быть график “без всего”. Однако, внутренние ссылки мы тут все равно не учли… Так что придется их рассматривать по-отдельности.

В общем, без различных важных параметров частота около 1-2% ближе к оптимальности… Наверное.

То же, но не с усреднениями, а с трендами



То же, но в пределах первой тысячи:


То же самое с трендом по 50 точек:



Все равно закидоны явные прослеживаются.

В общем, странная ситуация. Получается, что для малоцитируемых страниц лучше частоты около 1-2%. А частоты около 3-7% неоптимальны? В хвосте выдачи как раз страницы с такими частотами. Вот как можно изобразить связь между частотами в тексте и числом ссылающихся ключевиками сайтов и страниц: (усреднение по 20 точек)

Более подробно можно посмотреть здесь – (усреднение по 20 точек) – такое впечатление, что наиболее оптимальные среди малоцитируемых страниц (обл. 2) имеют около 1-2%, а страницы с частотой выше делятся на две группы – тематически цитируемые и вылезшие за счет ссылочного ранжирования (обл. 1) и все остальные, нецитриуемые, в хвосте (обл. 3):

Тематичность по Яндекс.каталогу



Доля сайтов из развлекательного раздела ЯК.

Резюме

Хрен его знает. Надо сравнить с выдачей по другим словам. И вообще, ничего нет лучше чистого эксперимента, без цитируемостей 🙂

А надо ли регистрироваться в Рамблер Топ100?

Собственно, считается за аксиому, что надо. А тут я недавно несколько сайтов в Рамблер добавил, а на Топ100 забил. Не до того было. И эти сайты неплохо находиться стали… Хотя тут много факторов…
Таки у Рамблера есть коэффициент популярности, который складывается из чего-то пейджранк-подобного и из данных Топ100 в качестве дополнительной информации (а может, проверки?).
Но ведь данные Топ100 могут и в минус играть. Если, скажем, реальная посещаемость страниц со счетчиком ниже “теоретической”, рассчитанной пейджранком.
Случай накруток и подкруток не рассматриваем.
И поскольку все обменные ссылки делаются не для посещаемости и не приносят ее – в общем случае установка счетчика Топ100 будет означать снижение “к-та популярности”. Т.к. оценка “по пейджранку” явно должна быть выше “оценки по посещаемости”.
Какие-нибудь примеры есть по сайтам, не внесенным в Топ100?

Вау! конкурс стипендий Яндекса

В Яндексе вынесли решение по конкурсу стипендий.
Никто не знает, а я на самом деле подавал в Яндекс проект исследования. Я думал, подать или нет… Подал, и оно прошло! 🙂
Короче, вот здесь – http://company.yandex.ru/grant/result1.xml под вторым номером

101803 – «Оптимизация расчета ссылочной популярности и учета…»

-это мое как раз. Полностью называется так: Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.
А о чем там в аннотации написано – не скажу! 🙂

PS Еще и на пиво останется….

Google Suggest – борьба с нашей ленью

Google Suggest: http://www.google.com/webhp?complete=1&hl=en
При вводе части запроса в окошко предлагает формулировки с общим числом найденных результатов. Формулировки и как подстановка новых слов в запрос, так и на основе введенной части слова.
В FAQ написано, что они не знают, когда будут поддерживать другие языки… но русские запросы предлагаются нормально.
Как и написано в факе, “это сделано, чтобы помочь юзеру уточнять и переформулировать запрос”. Борьба с частотными однословными запросами, видимо.
А что, очень хорошая борьба. 🙂
Да, написано, что список формулировок получается в риалтайм, и что он не использует serach history юзера.

Our algorithms use a wide range of information to predict the queries users are most likely to want to see

-вот только непонятно, что-то вроде “ассоциативных” запросов там заложено или просто по частоте…
PS
Но и косячит его сильно… Вводит по собственному желанию дополнение, если оно единственное, а стрелку назад нажмешь – стирает все… 🙁

Google AdSense приходит в Рунет

via alexmoskalyuk:

We wanted to let you know that today Google introduced its Google AdSense service in Russia, bringing to Russian webmasters increased value and the ability to maximize the earning potential of their site.

Google AdSense enables Russian websites to offer their users access to billions of web pages through Google’s advanced search technology. The program is an extension of the Google WebSearch program previously offered exclusively to larger websites and portals. This new online program enables qualified web publishers to place a Google search box on their websites and provide their users with Google search results and keyword-targeted advertisements. Google shares the revenue generated from ad clicks with the web publisher.

To join the new program, publishers fill out the online application for Google AdSense available at www.google.ru/adsense/. Once approved, publishers simply copy and paste a few lines of HTML onto their web pages to insert a Google search box. In addition to WebSearch, publishers can also add Google SiteSearch(TM) to help visitors find information easily within their web pages.

-вероятно, это Гугловый newsletter был источником… На https://www.google.com/adsense/?hl=ru&sourceid=aso&subid=us-et-ads написано вот что:

Разместите на своем сайте поисковое окно Google, с помощью которого поиск может производиться как по всему Интернету, так и непосредственно на Вашем сайте, и зарабатывайте деньги, когда Ваши посетители кликают на контекстные объявления, появляющиеся на страницах с результатами поиска. Узнать подробнее об AdSense для поиска.

В настоящее время программа Google AdSense для контекста недоступна для русскоязычных сайтов (кликните эдесь для просмотра поддерживаемых языков).

Выделение в Рамблере

Странно. Иногда Рамблер не выделяет болдом найденный фрагмент в тайтле.
Я такое уже замечал, но тогда он выделял болдом первый и не выделял второй найденный фрагмент.
Пример: PIONEER KEH-P4020R – 1, 2, 5, 7, 11, 13, 15 номера выделены, остальные – нет.
При этом характерно, что у “невыделенных” ссылок в сниппетах ничего нету. Пустой сниппет. Хотя ежу понятно, что в тексте страниц есть фрагмент запроса, причем зачастую точный запрос есть и в большом количестве.
Может, он так борется со слишком большим трафиком на сайт? 🙂 И с переоптимизацией? 🙂 Или просто с оптимизацией?

Нужны ссылки с сайта Google нахаляву?

Яндекс наиндексировал 6200 страниц с результатов поиска Гугля для наладонников – они, чудилы, не закрыли google.ru/palm в robots.txt. 🙂
а) можно их качать спокойно
б) можно помочь Яндексу побольше мусора набрать…
Я б на месте Яндекса Гугл забанил за раздувание контента. 🙂

UPD: я гоню, там 23000 страниц 🙂

Ленинградские шубы Reloaded

В свое время была такая вещь – сайт leningradspb.ru находился на высоких местах по запросу “шубы” – история здесь – Гипотеза длинных ссылок – шубы кубы любы и Длина ссылок как мера добровольности их расставления.

Ленинград по “шубам” сейчас 8-9й в Яндексе. Для проверки я с блога поставил точно такую же ссылку. И сейчас почему-то при поиске страниц, ссылающихся на него с этим словом синтаксисом #link=”www.leningradspb.ru*” $anchor(шубы) находятся только 2 страницы этого блога, а синтаксисом a#link=”www.leningradspb.ru*”[шубы] – находится только исходная ссылка с www.vostochnik.ru/cgi-bin/gb.cgi?n=2281!
А должны находиться ссылки с обоих сайтов. Неужели оно их действительно сливает по тексту ссылок? 🙂
Кстати, длина ее – 100 символов. Это больше, чем стандартная длина ссылки в каталоге.
Может быть, такие длинные ссылки гарантированно считаются не-каталожными и имеют больший вес?


Новые позиции “Ленинграда”: Мальчик – 9, мальчик – 13, скрыпочка – 1, дудочка – 1, кастаньеты – 1, баян – 5, домбра – 1, туба – 5, куба – нет в 20, шуба – 9, люба – 18.
Вот вам и “человеческие факторы”… 🙂
PS Напостите плиз, кто может, сайтов поавторитетнее с обилием длинных ссылок. Внешних желательно, но и внутренние подойдут.