Анализируем выдачу Яндекса

Данные

Выдача Яндекса по запросу “порно”. Скачать сырые данные здесь: report.zip 165Kb, формат данных:

N - номер в выдаче
url
CY
Inbound Pages - ссылающихся страниц
Inbound Sites - ссылающихся сайтов
Inbound Pages Thematic Links - по 
синтаксису a#href="url*"[порно] число страниц 
Inbound Sites Thematic Links - число ссылающихся
 правильными словами сайтов
Pages found - страниц с сайта найдено 
Yaca Name - категория ЯК, название
Yaca Url - категория ЯК, урл
Title Found words - найдено слов в тайтле
Title Numwords - всего слов
Title >4 Numwords - длинных слов
Title netweight - символов в тайтле нетто
Title brut weight - брутто
Hfirst Found words - в первом найденом заголовке hХ
Hfirst Numwords
Hfirst >4 Numwords
Hfirst netweight
Hfirst brut weight
Text Found words - найдено слов в тексте
Text Numwords - всего слов в тексте без тегов
Text >4 Numwords
Text netweight
Text brut weight
Text Found N different tags - сколько различных 
уникальных тегов включают в себя целевое слово
Text Found different tags list - список этих тегов

Pages found может глючить, показывать 2, когда надо 1.

Inbound Sites Thematic Links и Inbound Sites Thematic Pages могут глючить, показывать 0, когда надо 1.

CY – число ссылающихся страниц и сайтов


Видно, что среднее значение ИЦ примерно совпадает по всему диапазону с числом ссылающихся сайтов. Центр синей “колбасы”. Отклонения, правда, на полпорядка в обе стороны.

А вот с числом ссылающисхся страниц особо ничего не коррелирует.

Частоты в тексте, тайтле и Hfirst – по позиции



На графиках показаны частоты (в долях, не в процентах) целевого слова в разных частях страницы (по общему количеству слов). Видно, что выдача явственно разбита на 2 части – по крайней мере, по частоте слов в тексте. Примерно первые 1200 результатов имеют более низкую частоту в тексте, чем вторая часть выдачи.

Это валовые частоты. Без разбора групп страниц по цитируемости. Поподробнее посмотрим на первую часть выдачи, и тренд поставим по меньшему числу точек:



Не все так гладко… Да, вроде средняя частота в тексте приближается к 5%. Но ведь, во-первых, разброс все равно большой – в выдаче есть разные цифры, и только среднее около 5%. Во-вторых, это все цитируемые страницы, а на них выдача может быть и скорее всего перекошена цитируемостью.

Число ссылающихся сайтов, ссылающихся с нужными словами, CY, число найденных страниц – по позиции



На графиках показаны по позиции в выдаче в логарифимческих координатах – CY, число сайтов, ссылающихся с ключевым словом, число таких ссылающихся страниц, число найденных страниц на сайте.

Видно, что тЫЦ в “первой части” выдачи совсем немного отличается от второй – ну, немного побольше. А вот число ссылающихся сайтов (на 2 порядка) и число ссылающихся страниц (на 3 порядка) серьезно уменьшается. Практически, за 1000-м результатом на сайты уже никто не ссылается “нужными словами”. Правда, у этого экспериментального массива есть недочет – если ссылающийся сайт один, в данных он присутствует как ноль. Но сейчас это не принципиально.



Видно, как гладко снижается количество ссылающихся сайтов в пределах первых пяти! сотен. Это, конечно, тренд, и скачки в реальных данных есть. Но ведь и разную цитируемость ссылающихся страниц учесть мы тоже не можем… Так что остается считать, что цитируемость у ссылающихся страниц примерно одинакова – раз уж мы размазываем ссылки тонким слоем. Видимо, придется для анализа частот выбрасывать цитируемые страницы вообще.

Частоты в тексте при нулевых: числе ссылающихся сайтов, отсутствии текста в тайтле и hX – по позиции

Помучившись к Excel, написал себе сервис для выборок из этого массива данных через SQL – для выборок.

На графике изобразим: долю слов в тексте, усредненную, для разных интервалов по позиции в выдаче, с выбранными ограничениями. Эти ограничения – отсутствие различных “лополнительных” параметров, могущих влиять на релевантность: слов в тайтле, в Hx, ссылающихся ключевиками страниц, большого (>2) числа найденных страниц сайта, и, наконец, отсутствии всех этих параметров. Страницы, в которых все эти вещи отсутствуют, появляются где-то со второй сотни.



Здесь идет усреднение доли (не процента) целевого слова в тексте в пределах каждой сотни результатов выдачи. Явно от 3% снижение идет до 1% в пределах тысячи, а затем идет “вторая”, мусорная часть выдачи.

Откуда берется это разделение на 2 части выдачи? В обеих частях выдачи есть сайты, близкие по параметрам. Единственно, что во второй части выдачи очень мало ссылающихся сайтов. Если учесть, что в собранных данных есть глюк – при 1 ссылающемся сайте в таблице их нариовано 0, а также то, что “тематические” внутренние ссылки сюда не попадают (просто яндекс их не дает) – вероятно, это разделение в основном из-за ссылок.

Хотя есть и другой вариант – наличие некоей “более качественной” части базы. Или “менее некачественной”.

В любом случае надо работать с тем, что есть – ни передаваемый ВИЦ ссылающихся, ни возможные “минимальные границы” по ВИЦу для учета этой сслыки в ссылочном ранжировании, ни внутренние ссылки мы учесть не можем – будем анализировать первую тысячу, предполагая, что все разделение именно из-за ссылок.

То же, но в пределах первой тысячи:



Есть разброс, не все гладко… Самым интересным графиком, по идее, должен быть график “без всего”. Однако, внутренние ссылки мы тут все равно не учли… Так что придется их рассматривать по-отдельности.

В общем, без различных важных параметров частота около 1-2% ближе к оптимальности… Наверное.

То же, но не с усреднениями, а с трендами



То же, но в пределах первой тысячи:


То же самое с трендом по 50 точек:



Все равно закидоны явные прослеживаются.

В общем, странная ситуация. Получается, что для малоцитируемых страниц лучше частоты около 1-2%. А частоты около 3-7% неоптимальны? В хвосте выдачи как раз страницы с такими частотами. Вот как можно изобразить связь между частотами в тексте и числом ссылающихся ключевиками сайтов и страниц: (усреднение по 20 точек)

Более подробно можно посмотреть здесь – (усреднение по 20 точек) – такое впечатление, что наиболее оптимальные среди малоцитируемых страниц (обл. 2) имеют около 1-2%, а страницы с частотой выше делятся на две группы – тематически цитируемые и вылезшие за счет ссылочного ранжирования (обл. 1) и все остальные, нецитриуемые, в хвосте (обл. 3):

Тематичность по Яндекс.каталогу



Доля сайтов из развлекательного раздела ЯК.

Резюме

Хрен его знает. Надо сравнить с выдачей по другим словам. И вообще, ничего нет лучше чистого эксперимента, без цитируемостей 🙂

Анализируем выдачу Яндекса: 7 комментариев

  1. Ещё всё подробно не прочитал, но общее впечатленее одобрительное.
    Как говорится – научный подход.

  2. Прочитал, блин. Резюме очень точное получилось.
    Вывод я так понял напрашивается один, частота в текте: 1-2% оптимальна при низкой цитируемости.
    Главный же вопрос остался: каков оптимальный процент, при ненулевом цитировании?
    В идеале эксперимент нужно проводить, создав 2 совершенно одинаковых по цитированию сайта и всё сверять по ним.

  3. Женя, это еще может значить что сайты, продвигаемые за счет ссылок совсем забили на текст …

  4. и скорее всего вся выдача – полностью перекошена за счет ссылок …

  5. Круто! Теперь Яндексу ничего не остается, как предложить тебе хорошее место…

    Кстати, не возникало мысли, что то, что исследуется – это впервую очередь не показатели ранжирования Яндекса, а анализ инструментария оптимизаторов? Что где-то таится тот главный скрытый тренд, который и регулирует выдачу?

    Либо суть – в массе мелких открытий, из который потом слепится этот мощный супертренд?

  6. Professor

    Женя, это еще может значить что сайты, продвигаемые за счет ссылок совсем забили на текст …

    -ну да, типа я так и думаю. Еще есть, на самом деле, куча вариантов:
    0) что все забили
    1) что для разных цитируемостей – разные оптимальные проценты (страшный вариант)
    2) что есть 2 раздела базы “разного качества”

    и скорее всего вся выдача – полностью перекошена за счет ссылок …

    Вот тут надо подумать. Я думаю, что разделение на диапазоны 1-1200 и 1200-3400 из-за этого. Так что вторую половину можно и считать нецитируемой (извне и по кейворду). Но мы тут не учтем внутренние ссылки никак. Теоретически, их можно учесть… Выкачав сайты целиком, а я что-то не готов к этому 🙂
    ONO, ну щаз, если бы все было так просто. 🙂

    что исследуется – это впервую очередь не показатели ранжирования Яндекса, а анализ инструментария оптимизаторов? Что где-то таится тот главный скрытый тренд, который и регулирует выдачу?

    -не понял…
    И вообще, скачивайте данные – я их для того и выложил, думайте, пишите сюда. 🙂

  7. Имелось ввиду, что мы анализируем какими методами работали оптимизаторы в уходящем 2004 году, а до главной жилы Яндекса (помимо кол-ва тематических ссылок, которые на поверхности) мы еще не добрались….

    Может, кому-нибудь пригодится табличка к вышеописанным графикам с возможными намеками на зависимость параметров – http://www.nedarom.ru/seo/analis1.pdf. Серьезно относиться не стоит – так, для мыслей…

Комментарии запрещены.