Относительная конкурентность запросов / фсем фтыкать!

Некоторое время назад мы встречались с тов. Gutorin (привет!) по разным вопросам, и от него же я узнал русским языком о том, что думает тов. Миныч, он же ikozlov на форуме searchengines.ru.
Ну, на форуме он изъяснялся не очень ясно, но лично сэр Gutorin рассказал, а потом и сам Миныч опубликовал (я не собирался вперед него, что вы!).
Вот на это – фсем фтыкать!
Короче, идея проста: мы ищем в Яндексе запрос типа фаллос|кондиционер, при этом предполагается, что эти термины не встречаются в документах вместе. А если встречаются, пересечения можно вычистить запросом фаллос && кондиционер.
Затем мы смотрим на то, что дает колдунщик Яндекса, и начинаем менять веса слов, забивая переколдованный запрос со своими весами. В результате мы получаем некоторые хитрые данные, которые позволяют нам ОЦЕНИТЬ релевантность (общую: текстовую и ссылочную) разных сайтов и даже в некоторых единицах (с некоторой точностью) относительно какого-то сайта, выдающегося, например, первым по запросу фаллос.
Т.е., релевантность каждого сайта из верха выдачи по кондиционер можноо отранжировать в цифрах относительно первого (например) сайта по запросу фаллос.
***
Миныч, правда, как обычно, у себя выразился неясно. Ну, я не виноват. Если что, пост могу убрать. 🙂

Относительная конкурентность запросов / фсем фтыкать!: 13 комментариев

  1. Аха, читали, знаем.
    Вот когда товарищ Миныч предложит методику как отделить ссылочную составляющую от текстовой, я готов начать сбор на его прижизненный памятник 🙂

  2. Привет, ребята, памятник не надо, я еще живой 🙂
    Смотрю, ко мне сегодня пять щелчков с этой страницы пришло.
    Решил тоже поинтересоваться, с чего бы это.

    Отделение возможно просто потому, что тексты разные, когда текст в ссылке находится, а на странице – нет. Конечно не на всех страницах это можно легко проверить, но ведь вначале выявляем закономерность, а потом делаем расчет. Потом для верности делаем проверку альтернативным способом.

    Пример для внутренних ссылок:
    Ищем что-то типа
    kdvnkwnvklrn|Крупа
    где крупа есть на странице только с маленькой буквы
    Совсем недавно нам Яндекс сообщал:
    крупа, найден по ссылке и поехали… сравниваем как найден по ссылке сравним просто с найден.

    А вообще, ребята, как-то верблюда спросили, что ему больше нравится, подьем или спуск? – Есть еще третья мразь: грязь….

    Это я к тому, что ВСЕ (или я ошибаюсь?) оптимизаторы зациклились на двух вещах: ссылки и контент…
    А я бы добавил, есть еще третья …. ШТУКА….
    Так как определения для нее нет, наверное надо придумать 🙂
    Если иносказательно, то "число найденных страниц", суммарный "вес" найденных страниц, "кворум" фразы и веса страницы, и т.д…..

    На вес найденных слов очень сильно влияет их наличие на других страницах сайта, настолько сильно, что в ряде случаев ссылки не помогают 🙂
    Это экспериментально установленный факт (по крайней мере для меня очевидный).
    Никто не обратил внимания на Яндексовский хелп?:
    5. Количество и ранг ("авторитетность") всех страниц сайта с этим словом
    http://www.yandex.ru/info/webmaster3.html

    Я не слежу особо за хелпом, но мне показалось, что это НОВЫЙ пункт в НОВОМ хелпе. И я его как раз прочитал ПОСЛЕ того, как над этой ШТУКОЙ поэкспериментьировал (месяца 2 назад, точнее не помню). и, кстати, почувствовал, что "очень тепло" все.

    К сожалению, масштабных исследований провести не удалось ввиду отсутствия "подручных" сайтов и отсутствия финансирования, посему все проверялось на том, что под руку попалось в сети, на сайтах, которые под ногами валялись и не были созданы специально под эту ШТУКУ.
    (в частности, на сайте library.mephi.ru просьба на него ссылки не ставить, может быть еще пригодится) .

    В отношении ссылок, что их нельзя отделить….
    Хотите верьте, хотите нет 🙂 Каждому свое.
    Повторюсь: "закономерность" утром, вечером "стулья", то бишь расчетно экспериментальное действие.

    Простой вопрос. Кто-либо, кроме меня, измерял зависимость релевантности от размера документа для ссылочного фактора?
    Или, измеряли ли зависимость релевантности от числа найденных слов на странице?
    Измерял ли кто зависимость релевантности двусловной фразы от расстояния между словами?

    Я к тому, что у того, кто это делал, появляются мощные и точные инструменты для еще более широкого круга задач.

    Догадывается ли кто либо как использовать оператор % в экспериментах?

  3. >Если иносказательно, то "число найденных страниц", суммарный "вес" найденных страниц
    -ну, это всегда было. "общую релевантность сайта" никто не отменял. 🙂
    >Никто не обратил внимания на Яндексовский хелп?: 5. Количество и ранг ("авторитетность") всех страниц сайта с этим словом
    -эта фраза была в хелпе всегда. 🙂

  4. >Отделение возможно просто потому, что тексты разные, когда текст в ссылке находится, а на странице – нет. Конечно не на всех страницах это можно легко проверить, но ведь вначале выявляем закономерность, а потом делаем расчет.
    -конечно, не на всех, и в большей части – есть… Оптимизаторы, как правило, пишут слова запроса на старнице. 🙂

  5. Извините за возможную глупость, но тогда стоит сделать сайт с максимально возможным количеством релевантных нужным запросам страниц и накачать их извне ссылками. Причем создание таких страниц на автомате для "плохих дяденек и тетенек" на самом деле не является особой проблемой: проанализировали частотность запросов, по которым выходят на сайт, получили список страниц, на которые "упали" эти запросы, а потом сгенерировали кучу подобных страниц распарсив выдачу других поисковиков по этим же запросам. (Вадим Ласто что-то такое уже писал: http://lasto.com/shop/site_emulator_b.html)

  6. Минычу громадный респект. Этот вариант исследования мне нравится куда больше многих других.

  7. Никто не обратил внимания на Яндексовский хелп?:

    5. Количество и ранг ("авторитетность") всех страниц сайта с этим словом

    http://www.yandex.ru/info/webmaster3.html

    Я не слежу особо за хелпом, но мне показалось, что это НОВЫЙ пункт в НОВОМ хелпе.

    Пункт очень старый и тянется еще с "допейджранковой" истории Яндекса. В 2000-м очень сильно рулил, добавляя новые страницы сайт с точным вхождением запроса в тег title (title тоже очень сильно рулил) можно было запросто "выталкивать" наверх выдачи наиболее релевантную этому запросу страницу сайта.
    После введения алгоритма на основе PageRank эта фишка осталась, но влияние ее уже стало очень небольшим. Об этом в своем докладе на 1-й оптимизаторской конференции упоминает Илья Сегалович. Когда он рассматривает это фактор, то замечает, что они стараются его использовать очень осторожно дабы не дать необоснованного преимущества сайтам с большим количеством страниц.
    Впрочем, обо всём этом я уже писал на форуме серченжайнс.ру

  8. Честно, не помню этого 5 пункта (что был раньше), склероз.
    Тем не менее он очень запутывает картину СЕЙЧАС.

    to Wolf
    Как раз для больших сайтов эта ШТУКА дает не преимущество, а убыток. Так как, если качественно охарактеризовать это влияние, то оно похоже на логарифм(IDF) ДЛЯ САЙТА, причем не для слова, а для НАЙДЕННЫХ ДОКУМЕНТОВ с НАЙДЕННЫМ ПАССАЖЕМ.
    А так как В ЧИСЛО НАЙДЕННЫХ войдут НЕ ВСЕ найденные документы (что-то типа кворума), то 🙂 🙂 🙂

    Пример: найдено 10, а на сайте 10000 документов. Делим 10/10000 и берем логарифм. А если Яндекс еще распределение Пуассона использует для фильтрации нехороших документов? Или, что реальнее, по разному учитывает вклад найденных документов, и убыток от общего числа документов на сайте.

    Еще пример. Найдено 10000 из 10000. Однако стоит фильтр: учитывать не более 100. тогда 100/10000 хуже, чем 100/100

    Тут еще у Сегаловича очень правильная мысль, которую я лично всегда держу в уме: СЕЙЧАС, в том плане, что все течет и меняется.

    Вот мой Ногинск раньше тоже с процентом переколдовывался и восклицательным знаком, а сейчас его опять понизили в ранге, процент убрали.

    А вот если официальный сайт Ногинска, то СЕЙЧАС процент стоит у официального сайта (был ли раньше, не знаю).

    Сейчас ТИЦа нет, завтра он будет учитываться, сейчас кворум есть, завтра его не будет, завтра PR будет использоваться не для страницы в целом, а для комбинации (страница-ключевик) и передаваться будет только через ссылки с данным словом. Введем глобальный вес слова и алгоритмом, аналогичным гуглевскому, перераспределим его на все страницы интернета ( а может так уже и есть?).

    Насчет "нетривиальных" вещей в алгоритме.
    Практикующему сеологу достаточны даже очень грубые модели для практических результатов.

    В свое время мне очень понравилась теория вариационного исчисления. Так что "распределенные" системы мне нравятся, более того, они риски снижают.

  9. Практикующему сеологу достаточны даже очень грубые модели для практических результатов.

    Это точно. Но побольше о внутренней кухне поисковика всё равно знать не мешает. Для общего развития. 🙂

  10. to Wolf
    Полностью согласен с Вами. Сам иногда натыкаюсь на неожиданности в Яндексе. Думаешь, что во всем уже разобрался, потом "бац", понимаешь, что не учел метатег "description" (просто его проигнорировал, или проще упустил возможность проверить его влияние). Или еще какой нюанс.
    Особенно сложно там, где много просто "технических" моментов, например "зеркал" – сайтов, страниц сайтов, ссылок, текстов ссылок,… нечетких дублей и т.п. И там, где спамят по крупному (нельзя апроксимацию делать с ситуации, где спама нет).

    Пока Яндекс не использует "контрразведку" (следующую ступень, по сравнению с "разведкой"). Вот когда начнет использовать более изощренные способы "развода" оптимизаторов, станет по настоящему интересно, чисто по человечески.

    Пример из жизни. Американцы во время войны во Вьетнаме разработали ракеты Шрайк, самонаводящиеся, которые очень точно попадали в наши радиолокационные станции, тютелька в тютельку в центр параболической антенны. Наделали ракет. А наши спецы придумали работать "парами". Работают две станции попеременно. Шрайки – ракеты инерционные, попадали точно в середку между станциями…
    Это нам в ЛГУ на военной кафедре майор рассказывал, который сам же в этой войне и участвовал (на стороне Северного Въетнама (Вьетконга), как советник).

    Я вот все думаю, кто я в этой игре? Чайник, перворазрядник,…? 🙂

  11. А че думать, приходится работать как есть. Вот мы все думаем а как они, мониторим их, а они мониторят нас, и при этом они знают о нас куда больше, чем мы о них…

  12. (title тоже очень сильно рулил)

    да и сейчас, похоже, рулит. В порядке эксперимента title у 30% страниц сайта был изменен – на 1 место был поставлен ключевик, допустим, \"блошки\", в результате ключевик \"плошки\" улетел из топа в 4 десяток, по ключевику \"блошки\" картинка получилась с точностью до наоборот. Ну не из 4 десятка он в топ 10 прыгнул, с 3. Но прыгнул, а ведь более высокочастотный. И всего-то ерундовинка – игрушки с title – определенно – ссылочное не при чем, потому как ссылками к тому моменту не баловались больше месяца и бэки стояли соответственно. Да, плошки из title не ушли, они просто переехали на 2 позицию, слазу за блошками 🙁

Комментарии запрещены.