наши методисты…

Почему-то не читаю рассылку Андрея Иванова по почте, а захожу туда в архив на Сабскрайбе. Когда настроение почитать появляется. 🙂
*** off: наверное, это и есть причина популярности блогов – когда письмо приходит, настроения читать его нет, есть дела разные… А когда почитать охота, письмо уже завалялось и его не найдешь…
Итак, в одном из последних выпусков дали материал ТЕКСТОВЫЕ ПАРАМЕТРЫ РЕЛЕВАНТНОСТИ – в виде методики анализа оптимальной частоты кейвордов. Кстати, он почему-то не подписан… Наверное, методика настолько элементарна, что такую банальность стыдно своим имененем подписать.
Итак, методика.
Начало, “постановка задачи”:

Очевидно, что из перечисленных характеристик мы можем определить только пп. б) и г), размер же базы Яндекса и частота какого-то слова в ней нам неизвестны.

-ключевое слово “нам”. 🙂 “Вес слова в базе” или его подобие, во-первых, можно посмотреть в reqtext (кто знает, тот поймет :)), а во-вторых, частота слова в базе с хорошей прикидкой (плюс-минус 0.3 порядка) пропорциональна числу найденных документов по этому слову. С отклонениями в один-полтора порядка 🙂 для очень частотных слов, вроде “www”, которые часто употребляют на одной странице очень много раз. Проверено reqtext-ом.

Сформулируем еще короче.
Оптимальные веса для разных ключевых слов – различны

-я бы сформулировал подлиннее… Но если покороче :)… Оптимальные веса МОГУТ быть различными, да и не веса, а диапазоны весов. И эти диапазоны могут пересекаться…
Но, собственно, вернемся к методике.

Но опытный веб-мастер знает, что верхние строчки результатов поиска занимают ссылки на авторитетные, хорошо цитируемые сайты, и фактор цитируемости может исказить картину весовых коэффициентов. Поэтому анализировать стоит не только первые 10 позиций, но и посмотреть, каково распределение весов “пониже”, в Тор20, Тор30, Тор50

-странно. А почему не Топ100? Ведь документов по запросу выдается, как правило, куча. Туева. Почему не взять первые 10% хотя бы? Потому, что это очень много и SeMaster.ru не вынесет такого.
Итак, что предлагается.
Допустим, у меня есть мешок картошки и мне в закрытом оборонном НИИ поставили задачу – определить, какие особенные качества должны иметь картофелины, которые при длительном встряхивании мешка “всплывают” наверх.
И я, допустим, взял этот мешок и долго встряхивал, перераспределяя в нем картошку. Ну а потом взял и проанализировал… Ну, допустим, все картофелины из верхнего слоя. Допустим, их там 10… Нет, 10 мало, возьмем 20… 🙂
Проанализируем, и получим фигу. Потому, что всплытие картофелин может определяться не только и не столько их собственными качествами, сколько качествами их утонувших соседей.
Да и хуже того. Картофелины разного размера могут образовать конгломерат :), в котором в промежутки между сферическими 🙂 картофелинами одного размера R помещаются картофелины размера R/6, к примеру… И в вершине мешка будет смесь. Которую нельзя разделить на “оптимальные” компоненты. И усреднив параметр R, мы получим картофелину, которая туда не впишется. (пример – замешивание сайтов в выдачу по тематикам или по жанрам)
Да и еще хуже. При изменении размера картофелины она может по иным законам цепляться за соседей (или не цепляться) и вообще может не существовать оптимального размера…
*** off: это я к тому, что когда-то я выбрал всю выдачу по однословному запросу, и, пробив 4000 страниц, обнаружил, что в последних 2/3 сайтов средняя частота слова в тайтле около 1/3, но они чередуются – то ноль, то 1, то 0.5. То что-то другое.
*** Да, и влияние “общей релевантности” числа страниц с сайта тоже выбрасывать не стоит.
Но все-таки. Ладно, анализируем 20-40 места, строим таблицу и делаем скриншот.
И что бы видим? 2.56% средняя частота. Но в топе результатов (которые по умолчанию полагаются оптимальными или хотя бы более оптимальными, чем остальные :)) есть и 6.5%, и 0.60% – и вообще, огромный разброс. Да и в тайтле, о ужас, разное количество слов нарисовалось…
все поделить (с) Шариков 🙂
А все-таки… Если, скажем, у какого-то сайта цитируемость (по ссылкам правильными словами) ого-го, а процент, ну… допустим, выше оптимального? Пролезет этот сайт за счет цитируемости повыше в выдаче? Пролезет.
А если процент НИЖЕ оптимального? Вот черт… Тоже пролезет.
Тогда какой выхлоп? Семастер помучить и за доступ заплатить в будущем, что ли?
Таки смысла нет усреднять первые N или кусок их первых N. Надо всю выдачу анализировать. Или хотя бы ее значительную часть, в виде N*10% выдачи.
___
ЗЫ Кстати, похожим методом я пользуюсь, отличия – в том, что рассматриваются сайты с минимальными показателями цитируемости, типа чем ц-ть ниже – тем больше внимания обращаю на саму страницу 🙂 Да и то смысла мало при неравных тайтлах и Х1-3.

наши методисты…: 21 комментарий

  1. Кстати, похожим методом я пользуюсь, но в чем отличия – не скажу. 🙂

    Ну и сиди себе – жадничай…

  2. >ЗЫ Кстати, похожим методом я пользуюсь, отличия – в том, что рассматриваются сайты с минимальными показателями цитируемости, типа чем ц-ть ниже – тем больше внимания обращаю на саму страницу 🙂
    Это же чистой воды метод покоординатного спуска – им все пользуются =)

  3. Надеюсь, в вескресенье встретимся – у меня тот же вопрос. Не все так ясно и однозначно в графиках анализа выдачи поисковиков. Прямые линии Тренда на графиках мало соответствуют выдаче. Кое-где видна зависимость, но нужен чистый (свой) эксперимент. Что бы контент быо предсказуем…

    До встречи.

  4. >Не все так ясно и однозначно в графиках анализа выдачи поисковиков
    -а где такие графики дают? 🙂 К тому же, может, это внутреннее свойство именно этих графиков?

  5. Графики строятся в любой удобной программе. Ошибки скорее будут не в графиках, а в данных… Сейчас прилаживаю графики к Semastr’у – если параметров анализа будет много и качество их сбора не будет вызывать сомнений, то может не плохой инструмент получиться. Примерчик по 3 темам (в т.ч. с ноутбуками) – http://www.nedarom.ru/seo/seo_graf_03.gif. Там есть еще примерчики 01.gif и 02.gif – если интересно…

    Кстати 02.gif – это иллюстрация к сообщению на seachase с вопросом "Что в графике принять за лучший показатель – наименьшие, средние, пиковые значения или только динамику изменений?"

  6. цитата

    Жень, мне эту банальность своим именем подписывать не стыдно. "Выхлоп" от таких метод очень простой: люди вместо того, чтобы писать на форум и читать ответы а ля "читайте этот форум", "ну… 3-7%" и т.п. думать начинают. Ты вот, например, сразу вспомнил про reqtext (я не знаю), законы про утопление
    картофеля и упомянул, что твоя метода в принципе похожа. :0)

    Я не собираюсь двигать Семастер, как машинку, которая дает ответы. Она дает информацию для размышлений. Ты посмотрел, что и число слов в титуле (ой, блин, надо же!) разное, и разброс значений велик (ни фига себе!) и посмотрел быстро. Вот и хорошо, вот это и нужно было. А уж интерпретацию результатов делай как тебе хочется.

    В идеале – об этом я в рассылке не писал, чтобы на совсем уж утописта не походить – машинке надо задать диапазон, поисковик, запрос, параметры и… методику обсчета, где в методики поставить как предложение стандартных, со всеми матстатистическими наворотами по проверке достоверности гипотезы, так и возможность запрограммировать пользовательский вариант обсчета.

    Но не уверен, что доживу до такого идеала инструмента, рынок изменится быстрее.

    В конце статьи написал: "Конечно, не факт, что снижение частоты слова "фейерверк", либо увеличение объема документа на сравниваемой странице продвинет ее выше 41-й позиции. Но подумайте – если бы у вас была задача двигать данную страницу в поиске, пользуясь только текстовыми критериями, что бы вы сделали с весом, обладая данными вышеприведенного анализа? Я бы – понизил, дождался переиндексации и оценил изменение позиции."

    Это – четкий совет. Ты говоришь, что он неверный. Напиши верный – опубликую.

  7. Кхе уважаемые гуру. Всё как обычно в нашей жизни. Какая женщина не хочет быть красивой в независимости от возраста? И сколько косметологических фирм на этом бабки делают? А может дешевле кого в Яндексе купить?
    Тяжёлые шутки на ночь глядя 🙂 — 🙁

  8. цитата

    Не совсем, уважаемый Fly. Есть хотелось бы сказать определенные, но не могу – есть неопределенные правила игры. И я, и Женя знакомы лично с сотрудниками Яндекса. Но в правила входит, что Яндекс, как и другие поисковики, не выдает наружу информацию, которая могла бы быть использована в качестве руководства для раскрытия алгоритма ранжирования.

    Попробуйте кого-нибудь "по дешевке" купить в Яндексе – это тоже, кстати, один из теоритески возможных "алгоритмов" для оптимизации. Вряд ли Вы после попытки будете писать подобные реплики.

  9. (онанимно) это надо понимать видимо andre
    >Попробуйте кого-нибудь "по дешевке" купить в Яндексе. Вряд ли Вы после попытки будете писать подобные реплики.
    Андрей конечно же это нужно понимать не более чем тяжёлую шутку. Разумеется если бы я такую оптимизацию сделал то уже не трендел 😉 Да и если бы попытался и не получилось бы, то тоже помолчал бы 🙂
    Но в каждой шутке есть доля шутки 🙂 Вот вспомнилась история всплывшая всвязис событиями с пультом.ру 🙁 Тоже можно понимать как "по дешевке" купить 🙁

  10. цитата

    Помню. Некрасивая была история, в самом деле. Насчет доли шутки Вы правы – Яндекс занял такую позицию, что попытки задешево или задорого купить "святое место" просто неизбежны.

  11. andre, типа извини, конечно, 🙂 информация для размышлений это всегда хорошо.
    Я только не понимаю, почему это есть методика?
    Дело как бы не в том, что я считаю, что ответ неверный, я просто считаю, что верного ответа получить таким способом (анализом верхушки) нельзя в принципе. Т.е., отличить верный ответ от неверного нельзя.
    Я поскольку даже не вкурсе, кому семастер принадлежит, предположил, что это его рекламная акция. Извини еще раз. 🙂

  12. Да, фигня, Жень, я просто надеялся, что ты… это… "перо" узнаешь, но не Пушкин, оказывается. 🙂

    Насчет "методы" придется опять себя цитировать – из форума Маузера, переписка с ONO:
    "ONO:
    Хотелось бы начать ветку в форуме по исследованиям в SEMaster’е результатов выдачи поисковиков. Одно дело задать вопрос и получить цифирки, другое – сделать правильные выводы! Как говорила Колмановская, здесь год работы целого НИИ нужен… "

    "andre:
    Попробую высказать размышления на тему. Как задать вопрос и получить цифирь – это вытекает из "природы" ранжирования результатов. О том, что есть параметры знают все, но машинки для получения цифр раньше не было. Как раз сейчас создаем.

    А вот с правильными выводами – это проблема. Правильные – это что? Колмановская верно говорит, что с научной точки зрения нужен и НИИ, и год работы. Потому что научная методика подразумевает проверяемость и повторяемость фактов. Получили цифру для одной модели, проверили на другой, третьей – обобщили и имеем уверенность, что данное значение можно применять для всех подобных моделей. Т.е. открыли закономерность.

    Но мы знаем, чего стоят "закономерности" в поисковых системах. Поэтому давайте сразу отбросим иллюзии, что при помощи Семастера можно получить алгоритм, всегда гарантирующий результат – повышение позиции. Как бы мне ни хотелось так рекламировать машинку – не получится.

    Тогда что может предложить Семастер? Ответ – "цифровой" метод изучения поисковиков и цифровые модели экспериментов для каждого конкретного случая.

    Два главных вопроса в работе оптимизатора:
    – что делать в данном конкретном случае (запрос сайт поисковик плохая позиция);
    – как определить похожие случаи (в прошлый раз я сделал так, если в этот раз повторю прием – сработает или нет).

    Многие решают эти вопросы "на глазок", аргументируя (не для заказчика – для себя!) свои действия типа "кажется, это примерно похоже на тот случай", "наверное, эта страница пере- недооптимизирована", "конкуренты так хорошо смотрятся, скорее всего, потому что…" и т.п. Ответы неопределенные, их нельзя к чему-то привязать, кроме воспоминаний и личного опыта.

    Поисковая система для каждого оптимизатора – классический черный ящик: на него можно воздействовать, но по каким законам формируется ответ – точно неизвестно. Изучать эту машинку можно вполне научным методом – придумывая и параметрируя воздействия и анализируя повторяемость результатов.

    Например, в прошлой статье дан метод: получить среднее значение топ20-40 по нужному запросу и сравнить эти данные с данными сайта, находящегося на 41 позиции – это параметрирование, количественная оценка ситуации. И дальше сдвинуть значения анализируемых параметров продвигаемой страницы в сторону среднего – это метод воздействия.

    Любой человек, даже не знакомый со "сложной наукой поиска" и "оптимизации" сможет элементарно это повторить. Каков будет результат в одном случае, в ста, в среднем? Можно ли сказать, что метод сдвига объема документа и веса ключевых слов в сторону среднего по тор20-40 в большинстве случаев повышает позицию? Или понижает? Или не изменяет? Или результаты лягут 50:50, или на 33:33:33%%?

    Сказать этого никто сейчас не сможет, но метод – воспроизводим, потому что описан количественными параметрами.

    Семастер для любого оптимизатора дает техническую возможность:
    – создать гипотезу,
    – описать ее количественными параметрами,
    – проверить на практике.

    Кто-то предпочтет работать по 2-3 характеристикам, кто-то по 10, у каждого могут быть свои комбинации работающих в большинстве случаев приемов, опыт ошибок. Т.е. попросту значительно ускоряет процесс набивания руки, дает больше пищи для размышлений и анализов, способствует быстрому профессиональному росту.

    Простая аналогия, при желании яму выкопать можно только при помощи рук, но лопатой это намного быстрее и легче сделать. Семастер и является такой вот "лопатой", приложением к пытливому уму."

  13. Андрей, респект. Во времена золотой лихорадки заработали больше те, кто продавал лопаты.

  14. Ограничения на 100 позиций снять – залезть в конфиг да цифры переправить. Только есть ли смысл это делать на двух параметрах?

  15. >ЗЫ Кстати, похожим методом я пользуюсь, отличия – в том, что рассматриваются сайты с минимальными показателями цитируемости, типа чем ц-ть ниже – тем больше внимания обращаю на саму страницу 🙂 Да и то смысла мало при неравных тайтлах и Х1-3.

    Я часто использую конструкцию типа

    (фраза) ~~ $title(фраза)

    чтобы title не мешали и смотрю в районе 5000 места в выдаче
    Правда там часто очень длинные файлы. Ищешь диапазон в выдаче где количество фраз меняется на единицу. Считаешь предложения. Потом варьируешь веса слов. И чешешь затылок 🙂

    А теперь после подсказки Профессора и Евгения (большое Вам спасибо), можно и через reqtext анализы делать.

  16. >(фраза) ~~ $title(фраза)
    -идея-то хорошая, только не вполне ясно, как эта фильтрация происходит… Может, оно сначала по релевантности "фразе" упорядочит, а потом тупо выбросит все документы с "фразой" в тайтле. Это, конечно, проверяется сравнением выдачи по "фразе", отфильтрованной руками.
    Короче говоря, я к тому, что не факт, что при этом подходе работает именно релевантность текста документа. Ну, как минимум, ссылки работают. А если релевантность сайта в целом тоже работает – тогда и влияния тайтлов не избежать.

  17. Вы правы Euhenio. Работы все равно много экспериментальной. Мне особенно частотность мешает экспериментальные странички генерить. А будешь новые слова (придуманные) генерить – тоже неясно как на это Яндекс реагирует. Я в основном с числами работал, но они тоже разную частотность имеют. И устойчивые "числосочетания" (после 1345 скорее всего идет 1346 как устойчивое словосочетание 🙂

    А после 10000 20000 🙂

Комментарии запрещены.