Данные
Выдача Яндекса по запросу “порно”. Скачать сырые данные здесь: report.zip 165Kb, формат данных:
N - номер в выдаче
url
CY
Inbound Pages - ссылающихся страниц
Inbound Sites - ссылающихся сайтов
Inbound Pages Thematic Links - по
синтаксису a#href="url*"[порно] число страниц
Inbound Sites Thematic Links - число ссылающихся
правильными словами сайтов
Pages found - страниц с сайта найдено
Yaca Name - категория ЯК, название
Yaca Url - категория ЯК, урл
Title Found words - найдено слов в тайтле
Title Numwords - всего слов
Title >4 Numwords - длинных слов
Title netweight - символов в тайтле нетто
Title brut weight - брутто
Hfirst Found words - в первом найденом заголовке hХ
Hfirst Numwords
Hfirst >4 Numwords
Hfirst netweight
Hfirst brut weight
Text Found words - найдено слов в тексте
Text Numwords - всего слов в тексте без тегов
Text >4 Numwords
Text netweight
Text brut weight
Text Found N different tags - сколько различных
уникальных тегов включают в себя целевое слово
Text Found different tags list - список этих тегов
Pages found может глючить, показывать 2, когда надо 1.
Inbound Sites Thematic Links и Inbound Sites Thematic Pages могут глючить, показывать 0, когда надо 1.
CY – число ссылающихся страниц и сайтов

Видно, что среднее значение ИЦ примерно совпадает по всему диапазону с числом ссылающихся сайтов. Центр синей “колбасы”. Отклонения, правда, на полпорядка в обе стороны.
А вот с числом ссылающисхся страниц особо ничего не коррелирует.
Частоты в тексте, тайтле и Hfirst – по позиции

На графиках показаны частоты (в долях, не в процентах) целевого слова в разных частях страницы (по общему количеству слов). Видно, что выдача явственно разбита на 2 части – по крайней мере, по частоте слов в тексте. Примерно первые 1200 результатов имеют более низкую частоту в тексте, чем вторая часть выдачи.
Это валовые частоты. Без разбора групп страниц по цитируемости. Поподробнее посмотрим на первую часть выдачи, и тренд поставим по меньшему числу точек:

Не все так гладко… Да, вроде средняя частота в тексте приближается к 5%. Но ведь, во-первых, разброс все равно большой – в выдаче есть разные цифры, и только среднее около 5%. Во-вторых, это все цитируемые страницы, а на них выдача может быть и скорее всего перекошена цитируемостью.
Число ссылающихся сайтов, ссылающихся с нужными словами, CY, число найденных страниц – по позиции

На графиках показаны по позиции в выдаче в логарифимческих координатах – CY, число сайтов, ссылающихся с ключевым словом, число таких ссылающихся страниц, число найденных страниц на сайте.
Видно, что тЫЦ в “первой части” выдачи совсем немного отличается от второй – ну, немного побольше. А вот число ссылающихся сайтов (на 2 порядка) и число ссылающихся страниц (на 3 порядка) серьезно уменьшается. Практически, за 1000-м результатом на сайты уже никто не ссылается “нужными словами”. Правда, у этого экспериментального массива есть недочет – если ссылающийся сайт один, в данных он присутствует как ноль. Но сейчас это не принципиально.

Видно, как гладко снижается количество ссылающихся сайтов в пределах первых пяти! сотен. Это, конечно, тренд, и скачки в реальных данных есть. Но ведь и разную цитируемость ссылающихся страниц учесть мы тоже не можем… Так что остается считать, что цитируемость у ссылающихся страниц примерно одинакова – раз уж мы размазываем ссылки тонким слоем. Видимо, придется для анализа частот выбрасывать цитируемые страницы вообще.
Частоты в тексте при нулевых: числе ссылающихся сайтов, отсутствии текста в тайтле и hX – по позиции
Помучившись к Excel, написал себе сервис для выборок из этого массива данных через SQL – для выборок.
На графике изобразим: долю слов в тексте, усредненную, для разных интервалов по позиции в выдаче, с выбранными ограничениями. Эти ограничения – отсутствие различных “лополнительных” параметров, могущих влиять на релевантность: слов в тайтле, в Hx, ссылающихся ключевиками страниц, большого (>2) числа найденных страниц сайта, и, наконец, отсутствии всех этих параметров. Страницы, в которых все эти вещи отсутствуют, появляются где-то со второй сотни.

Здесь идет усреднение доли (не процента) целевого слова в тексте в пределах каждой сотни результатов выдачи. Явно от 3% снижение идет до 1% в пределах тысячи, а затем идет “вторая”, мусорная часть выдачи.
Откуда берется это разделение на 2 части выдачи? В обеих частях выдачи есть сайты, близкие по параметрам. Единственно, что во второй части выдачи очень мало ссылающихся сайтов. Если учесть, что в собранных данных есть глюк – при 1 ссылающемся сайте в таблице их нариовано 0, а также то, что “тематические” внутренние ссылки сюда не попадают (просто яндекс их не дает) – вероятно, это разделение в основном из-за ссылок.
Хотя есть и другой вариант – наличие некоей “более качественной” части базы. Или “менее некачественной”.
В любом случае надо работать с тем, что есть – ни передаваемый ВИЦ ссылающихся, ни возможные “минимальные границы” по ВИЦу для учета этой сслыки в ссылочном ранжировании, ни внутренние ссылки мы учесть не можем – будем анализировать первую тысячу, предполагая, что все разделение именно из-за ссылок.
То же, но в пределах первой тысячи:

Есть разброс, не все гладко… Самым интересным графиком, по идее, должен быть график “без всего”. Однако, внутренние ссылки мы тут все равно не учли… Так что придется их рассматривать по-отдельности.
В общем, без различных важных параметров частота около 1-2% ближе к оптимальности… Наверное.
То же, но не с усреднениями, а с трендами

То же, но в пределах первой тысячи:

То же самое с трендом по 50 точек:

Все равно закидоны явные прослеживаются.
В общем, странная ситуация. Получается, что для малоцитируемых страниц лучше частоты около 1-2%. А частоты около 3-7% неоптимальны? В хвосте выдачи как раз страницы с такими частотами. Вот как можно изобразить связь между частотами в тексте и числом ссылающихся ключевиками сайтов и страниц: (усреднение по 20 точек)

Более подробно можно посмотреть здесь – (усреднение по 20 точек) – такое впечатление, что наиболее оптимальные среди малоцитируемых страниц (обл. 2) имеют около 1-2%, а страницы с частотой выше делятся на две группы – тематически цитируемые и вылезшие за счет ссылочного ранжирования (обл. 1) и все остальные, нецитриуемые, в хвосте (обл. 3):

Тематичность по Яндекс.каталогу

Доля сайтов из развлекательного раздела ЯК.
Резюме
Хрен его знает. Надо сравнить с выдачей по другим словам. И вообще, ничего нет лучше чистого эксперимента, без цитируемостей 🙂