наши методисты…

Почему-то не читаю рассылку Андрея Иванова по почте, а захожу туда в архив на Сабскрайбе. Когда настроение почитать появляется. 🙂
*** off: наверное, это и есть причина популярности блогов – когда письмо приходит, настроения читать его нет, есть дела разные… А когда почитать охота, письмо уже завалялось и его не найдешь…
Итак, в одном из последних выпусков дали материал ТЕКСТОВЫЕ ПАРАМЕТРЫ РЕЛЕВАНТНОСТИ – в виде методики анализа оптимальной частоты кейвордов. Кстати, он почему-то не подписан… Наверное, методика настолько элементарна, что такую банальность стыдно своим имененем подписать.
Итак, методика.
Начало, “постановка задачи”:

Очевидно, что из перечисленных характеристик мы можем определить только пп. б) и г), размер же базы Яндекса и частота какого-то слова в ней нам неизвестны.

-ключевое слово “нам”. 🙂 “Вес слова в базе” или его подобие, во-первых, можно посмотреть в reqtext (кто знает, тот поймет :)), а во-вторых, частота слова в базе с хорошей прикидкой (плюс-минус 0.3 порядка) пропорциональна числу найденных документов по этому слову. С отклонениями в один-полтора порядка 🙂 для очень частотных слов, вроде “www”, которые часто употребляют на одной странице очень много раз. Проверено reqtext-ом.

Сформулируем еще короче.
Оптимальные веса для разных ключевых слов – различны

-я бы сформулировал подлиннее… Но если покороче :)… Оптимальные веса МОГУТ быть различными, да и не веса, а диапазоны весов. И эти диапазоны могут пересекаться…
Но, собственно, вернемся к методике.

Но опытный веб-мастер знает, что верхние строчки результатов поиска занимают ссылки на авторитетные, хорошо цитируемые сайты, и фактор цитируемости может исказить картину весовых коэффициентов. Поэтому анализировать стоит не только первые 10 позиций, но и посмотреть, каково распределение весов “пониже”, в Тор20, Тор30, Тор50

-странно. А почему не Топ100? Ведь документов по запросу выдается, как правило, куча. Туева. Почему не взять первые 10% хотя бы? Потому, что это очень много и SeMaster.ru не вынесет такого.
Итак, что предлагается.
Допустим, у меня есть мешок картошки и мне в закрытом оборонном НИИ поставили задачу – определить, какие особенные качества должны иметь картофелины, которые при длительном встряхивании мешка “всплывают” наверх.
И я, допустим, взял этот мешок и долго встряхивал, перераспределяя в нем картошку. Ну а потом взял и проанализировал… Ну, допустим, все картофелины из верхнего слоя. Допустим, их там 10… Нет, 10 мало, возьмем 20… 🙂
Проанализируем, и получим фигу. Потому, что всплытие картофелин может определяться не только и не столько их собственными качествами, сколько качествами их утонувших соседей.
Да и хуже того. Картофелины разного размера могут образовать конгломерат :), в котором в промежутки между сферическими 🙂 картофелинами одного размера R помещаются картофелины размера R/6, к примеру… И в вершине мешка будет смесь. Которую нельзя разделить на “оптимальные” компоненты. И усреднив параметр R, мы получим картофелину, которая туда не впишется. (пример – замешивание сайтов в выдачу по тематикам или по жанрам)
Да и еще хуже. При изменении размера картофелины она может по иным законам цепляться за соседей (или не цепляться) и вообще может не существовать оптимального размера…
*** off: это я к тому, что когда-то я выбрал всю выдачу по однословному запросу, и, пробив 4000 страниц, обнаружил, что в последних 2/3 сайтов средняя частота слова в тайтле около 1/3, но они чередуются – то ноль, то 1, то 0.5. То что-то другое.
*** Да, и влияние “общей релевантности” числа страниц с сайта тоже выбрасывать не стоит.
Но все-таки. Ладно, анализируем 20-40 места, строим таблицу и делаем скриншот.
И что бы видим? 2.56% средняя частота. Но в топе результатов (которые по умолчанию полагаются оптимальными или хотя бы более оптимальными, чем остальные :)) есть и 6.5%, и 0.60% – и вообще, огромный разброс. Да и в тайтле, о ужас, разное количество слов нарисовалось…
все поделить (с) Шариков 🙂
А все-таки… Если, скажем, у какого-то сайта цитируемость (по ссылкам правильными словами) ого-го, а процент, ну… допустим, выше оптимального? Пролезет этот сайт за счет цитируемости повыше в выдаче? Пролезет.
А если процент НИЖЕ оптимального? Вот черт… Тоже пролезет.
Тогда какой выхлоп? Семастер помучить и за доступ заплатить в будущем, что ли?
Таки смысла нет усреднять первые N или кусок их первых N. Надо всю выдачу анализировать. Или хотя бы ее значительную часть, в виде N*10% выдачи.
___
ЗЫ Кстати, похожим методом я пользуюсь, отличия – в том, что рассматриваются сайты с минимальными показателями цитируемости, типа чем ц-ть ниже – тем больше внимания обращаю на саму страницу 🙂 Да и то смысла мало при неравных тайтлах и Х1-3.