Перемножать или складывать?

Волнует вопрос: как учитывается совокупность параметров страницы поисковиками.
Пусть есть один параметр, например, частота слова в тексте. Пусть есть другой, например, частота слова в тайтле.
Конечно, зависимость от частоты может быть очень грубой, может быть интервал “одинаковооптимальных” значений частоты.
Но пусть есть 2 параметра (текстовых) релевантности. Скажем, “релевантность по тексту” (x) и “релевантность по тайтлу” (y).
Как они должны комбинироваться при расчете релевантности документа, имеющего и то, и другое?
Первый вариант – перемножить. Но тогда документы с нулевым значением одного из параметров будут в дауне. Если мы ориентируемся на этот вариант, надо набрать максимальное количество “разных” параметров и каждому придать ненулевое значение, а лучше оптимальное. Оптимизировать, типа.
Второй вариант – сложить. Этот вариант плох тем (с т.зр. качества поиска), что действительно релевантные документы, имеющие и то, и другое, не получают преимуществ перед документами, имеющими что-нибудь одно. Если мы ориентируемся на этот вариант, методика действий – выбрать действенный (наиболее) параметр и размножать его. Хотя это напрямую не следует.
***
Отвлечемся.
В каждом из параметров релевантности могут быть намешаны интенсивные (частота слова, f) и экстенсивные (число слов, n) величины. И экстенсивные реально есть. Поэтому тут возможна такая ситуация, что “оптимальности” нет – грубо говоря, возьми страницу в 2 раза больше с такой же частотой слова и получи в 1.89 раза больше релевантности по этому слову. И так далее, пока фантазии хватит.
По-хорошему, здесь зависимость могла бы быть чем-то вроде “колокола” по интенсивной величине, умноженное на экстенсивную величину с затуханием на некоем ее размере.
Что-то вроде:
x=exp(-(1-f/f0)^2)*[1 плюс (n-1)*exp(1-(n/nmax))]
***
Вроде как нужна комбинация первого и второго варианта. Что-то вроде:
R=ax плюс bxy плюс cy

Рамблер во искупление своего отношения…

…поставил подбаненный сайт (в виде той самой показательной акции) на первые страницы по многим хорошим запросам вида “ноутбуки бренд”. Ну в крайнем случае на вторые страницы.
А сайт-то по цитируемости нулевый. И по посещаемости морды тоже. Да и проиндексировано мало. Не зря на форуме говорят об апдейте Рамблера. 🙂
Но логика выпихивания страниц и правда дурная какая-то. Ссылки с выдачи ведут не на разделы, соотвествующие брендам, как должно быть, а на страницы моделей. Причем страницы разделов проиндексированы.
Мдя.

Стоимость ссылок с морды и с сайта…

Подумалось, что стоимость купленной ссылки “с каждой страницы сайта” не может и не должна быть больше, чем ДВЕ стоимости такой ссылки “с морды”. Независимо от количества страниц.
Логика: предположим, все ссылки извне направлены на морду сайта.
Поэтому при проставлении 1 ссылки с морды ты получишь долю PR = k*PRmordy*1/L (где L=число ссылок на морде всего, k=d~=0.9).
При этом если все L-1 ссылок направлены внутрь сайта, то внутрь переходит доля PR = k*PRmordy*(L-1)/L
Если с каждой из внутренних страниц ты тоже имеешь одну ссылку на себя и общее количество ссылок на каждой из внутренних страниц тоже близко к L (близкий к реальному случай), то еще ты получаешь долю PR = k/L*k*PRmordy*(L-1)/L ~< k^2*PRmordy/L Т.к. L~=L-1 и k^2~=k, добавочное кол-во PR мельше полученного с морды и близко к нему. Соответственно, платя со своей точки зрения "за PageRank" умножать надо на 2 и менее при размещении ссылок "по всему сайту".

Яндекс индексирует Flash

Яндекс индексирует Flash – пресс-релиз

Яндекс научился индексировать документы, созданные по технологии Macromedia Flash (*.swf). Уже сейчас в базе Яндекса десятки тысяч flash-страниц, содержащих текст, и сотни тысяч страниц, содержащих ссылки

Заодно и в расширенном поиске появился новый формат “FLASH”.
Интересно, он там заголовки как-нибудь понимает?
Тайтлы не понимает однозначно, их, очевидно, в самой технологии не предусмотрено.
Как размеры шрифта проверить, я не догадался. Надо будет нарыть доку по разбору флэша, которую Макромедиа написала для роботов.
Сначала думалось, что это технология рулит для спама. Например, если посмотреть на этот флеш-сайт (третий в приведенной выше выдаче), то обнаружится, что, например, текст из раздела “Geography” проиндексирован как текст этой стрнаицы (см. сохраненную копию в Яндексе):

The Armenian Republic is located in Transcaucasia, bordered by Georgia on the north, Azerbaijan on the east, Iran on the south, and Turkey on the west.

По идее-то, надо, чтобы этот раздел был “отдельной страницей”, содержащей только этот текст. Так что весь сайт умещается в один лист.
Ясно, почему так – ведь не получится “дать ссылку” именно на этот раздел.
Еще и посетители будут недовольны… Нет, народ точно будет против. Флешовые сайты ведь в основном многостраничные. Каково юзверю будет попадать “на морду” такого сайта по запросу к внутренней странице?
Или они должны иметь “минус” в ранжировании. А индексировать их хотят только лишь “для полноты базы”.
Ну и логично, что по цитате с этой Geography по сайту www.saberatours.am – в выдаче только одна страница, и никакой флешовой страницы. Хотя принудительным поиском по флешу – эту страницу находит.
Вывод: “для спама” непригодно. 🙂

‘новый’ оператор в Яндексе – rhost

Тема форума Запрос в Яндекс – поиск поддоменов.
Оператор поиска по урлу с обратным порядком перечисления, комментарий Саши Садовского:

rhost=”tld.domain.*”

В этом операторе используется обратный порядок перечисления доменов — вначале первого уровня, затем второго и т.д. Например:

rhost=”ru.exler.*”

или

rhost=”ua.kharkov.kpi.*”

В результате будут найдены все документы в заданной группе доменов

r – это, наверное, от reverse…

Показ частот слов в документе

Написал “ссылки” для показа частот слов в документе (самые частотные слова). Ссылку надо перетащить на Links панель и “согласиться”. При клике оно покажет в алерте частоты в % с двумя знаками. При клике не происходит никаких обращений к внешним серверам.
Почему-то у меня не все варианты работают из панели ссылок. Не могу понять почему. Из документа все работают нормально.
Тип первый – частоты всех слов до 1/4 частоты самого частотного слова: lim) {out+=i+’ = ‘+Math.round(10000*nums[i]/arr.length)/100+’% (‘+nums[i]+’)\r\n’; };}; alert(out); void(0)”>%l
Тип второй – то же, что и первый, но 10 наиболее частотных слов с упорядочением по убыванию (не работает из панели): %0
То же, но для слов из 3 и более символов (не работает): %0l
Может, кто протестирует у себя? А то вдруг у меня MSIE кривой. Причем сообщений об ошибках JS нету!
Гринвуд, ликуй – называется. 🙂

Показ тИЦ и “пальцев”

Перетащите на панель ссылок в броузере вот эти ссылки, и при клике оно покажет рядом с каждой ссылкой на другой домен для этого домена:
Показ кнопки тИЦа: 0) {linkdomain=document.links[i].href.substring(7,document.links[i].href.indexOf(‘/’,8)); if (linkdomain!=thisdomain && linkdomain.indexOf(nowww)==-1 && linkdomain!=’hghltd.yandex.com’) { document.links[i].outerHTML+=’‘;};}; }; void(0)”>W

(Метод собезьянничал у Professor’a)

Я делаю сабмиттер в каталоги. И скоро открою!

Типа ура и наконец-то.
История такая. Захотел я сделать сабмиттер в каталоги, который бы подставлял данные юзера в форму. И собирал бы потихоньку данные для будущего автосабмита (какие имена какой смсыл имеют, и какие есть категории).
И сделал его на perl в виде “прокладки” между человеком и сайтом каталога.
Но тут возникли сложности:
Во-первых, хтмл код люди пишут ну настолько косо, что даже человек не поймет. Даже иногда имена переменных не пишут!
Во-вторых, большая проблема была – надо переколбасить все ссылки так, чтобы они указывали на нужные страницы “через меня”.
В-третьих, почему-то скрипт не хотел иногда заполнять поля и даже глотал непредсказуемым образом куски кода… Думал-думал, не придумал.
В-четвертых, сабмит с одного IP – потенциально могут отрубить.
Короче, выложил его на http://submitter.promosite.ru/ Регистрироваться (и тем более платить) не надо, смотрите демки.
Но вот возникли более правильные мысли. Делать разбор полей яваскриптом и отказаться от идеи “серверной прокладки”. И вот, о чудо! Все работает.
Почти.
Короче, недельки через 2 сделаю все полностью. И на некоторое время (пару месяцев) открою в свободный полнофункциональный доступ – базу-то надо обучить… 🙂
Может, есть мнения, -сколько может вся эта радость стоить в денежном выражении по по уму. И на сколько месяцев ее стоит открыть на начальный период.

Тег textarea в Яндексе

Древнее – предревнее наблюдение: при поисках по различным словам в Яндексе очень часто вываливались страницы “форумов” by Matt Wright, но не страницы с текстом, с страницы “для ответа”, которые отличались практически только тем, что весь текст засобачен в тег < textarea >.
Отсюда делался вывод, что этот тег дает плюс в релевантности.
***
Сейчас смотрел, и оказалось, не прошли еще те времена. По запросу В компании Рамблер, которую я представляю, сейчас открылось несколько вакансий web-программистов первой вылезает страница с ответом, цитирующая все в textarea, вместо страницы сообщения.
А в Рамблере такого найти не удалось. Сессии, видно, не понравились Рамблеру.

Rambler is watching You!

Суть: люди из Рамблера следят персонально за оптимизаторами. Но смотрят как-то немного криво, хотя лучше от этого не становится.
Подробно:
Живет у меня сайт про ноутбуки. Чувствует себя вроде неплохо. Там три субдомена, один из которых – новостной. Проиндексированы Рамблером были вроде, ну там, как обычно поначалу – какое-то копьё по посещаемости с Рамблера было (счетчика не крутили).
Тут вижу – оппаньки, а основной домен и еще один – из Рамблера выкинуты (оба имеют коммерческую направленность), а новостной субдомен – живет нормально, даже подрос чуток.
Пишу в форму. Мол, непонятно, однако. Ответа нет.
Пишу через недельку на [email protected] . Типа, не понимаю, ничего не нарушал.
Мне в ответ приходит буквально следующее:

Мы категорически против экспериментов, проводимых над поисковой
машиной, приводящих к ухудшению качества индекса и адекватности
ранжирования результатов поиска( см.
http://blog.promosite.ru/comments.php?68 ).

Мы не сможем нормально ранжировать сайты, использующие спамерские
методы оптимизации.


C уважением,
служба технической поддержки Rambler

Что в общем, лестно, но неприятно. Читают – то читают, но ежу ведь ясно, что эксперимент был вывален на другой домен. И там же был благополучно прибанен Рамблером (и Яндексом).
А этот сайт – видишь как, наказали. Ударим, так сказать, долларом. Если ничем другим не можем.
Типа по-русски: разберемся как следует и накажем, кого попало. 🙂
Я в ответ предложил список сайтов послать – пусть все забанят тогда. Если кто хочет в этот список сайты своих конкурентов включить – пишите, я не жадный, поделюсь. 🙂
Ну, и называется – веди блог после этого.
Думайте…
А вот данные по посещениям этого блога:

81.19.65.50 Mozilla/5.0 (compatible; Konqueror/3.2; FreeBSD) (KHTML, like Gecko)
81.19.65.204 Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; T312461)
81.19.65.127 Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)

Вот с каких данных пришло письмо:

Received: from [81.19.64.101] (helo=park.rambler.ru)
Received: from Marinas.rambler.stack.net (marinas.rambler.stack.net [81.19.65.204])

Бот Рамблера ходил на блог с 81.19.66.9 и 81.19.66.6, сетка 81.19.64.0 – 81.19.66.255
Rambler is watching You…