Яндекс: число слов в ссылке

Денис Иванов публикует результаты своего эксперимента – из текста ссылки учитываются первые 16 слов.
На экспериментальной странице ссылка на яндекс со словами от word001 до word100, яндекс находится по ссылке по запросу word016, но не находится по word017.

Получается, в ссылке учитывается 16 слов, кстати – похоже на тайтл – в нем, кажется, 15 слов 🙂
А что яндекс.хмл дает 32 слова – да и хрен с ним.

поспешные выводы…

Вот тут я увидел отчет об “эксперименте” Вадима Ласто, который сделал индикатор PR, получил ссылки, и ожидал счастья, но его не наступало.
Многие высказались в комментариях (меня там не было), и Вадим Ласто подытожил:

Будем считать, все высказались. А потому можно сформулировать некоторые предварительные соображения.
Вывод первый, как водится, к делу не относящийся.
Неожиданно, но факт.
Лёгкий стиль изложения в ненапрягающей манере, так культивируемый на Западе, в условиях Раши даёт побочный и совершенно дикий эффект. Почему-то у читателя создаётся впечатление, что написано это полным профаном, и каждый считает своим долгом разразиться сакраментальным “кг/ам”. Никакого глубинного смысла никто даже не пытается разглядеть- видят только то, что сформулировано вербально, без интерпретации и контекстного осмысления.

Добро. Будем впредь писать так, чтобы аж скулы сводило. Не обессудьте.

Теперь по сабжу.
Господа, речь вовсе не о том, что “ам”, и потому написал полную блажь, пребывая в блаженном состоянии наивного несмышлёныша, либо хорошенько приняв на грудь, и не найдя для себя лучшего занятия, чем испоганить пару виртуальных страниц формата А4. Если кто не понял, выше утверждается буквально следующее: простые баки без текста в якоре фактически не дают вклада ПиЭр. Более того, и скорее всего, на них и внимания-то не обращается. 4 месяцев вполне достаточно для обнаружения баков, среди коих есть сайты с PR 3-4. Про двойки и единицы даже и речи не идёт- это обыденность. А имеем мы со всего этого ровно ноль.

Понятно, что это явно видно только в сравнении с классическим случаем (текстовый якорь). Там абсолютно то же самое, только в миниатюре и меньших масштабах, легко даёт ожидаемую двойку, по поводу чего не возникает никаких вопросов. Это, естественно, проделывалось.

Ну а то, что по запросу Google Page Rank при поиске по русскоязычным ресурсам Гугл даёт первое место (на сей момент) не интересно в принципе и к делу не относится. Разговор идёт лишь о PR и его явном несоответствии математическому ожиданию в данном конкретном случае.

Возможно, отрицательно сказалось небольшое время эксперимента (хотя для “классического случая” его оказалось достаточно- интересно, правда?). Однако что-то мне подсказывает, что лимитирует вовсе не данный фактор
Да, и попрошу расценивать это именно как эксперимент. Увидел эффект, заметил, что результат явно неадекватен, сказал об этом. Всё просто, краевые условия экспириенса оговорены чётко, и попрошу не выходить за эти рамки, комментируя тут абсолютно левые относительно темы обсуждения вещи.

Особенно выделю слова:

Если кто не понял, выше утверждается буквально следующее: простые баки без текста в якоре фактически не дают вклада ПиЭр. Более того, и скорее всего, на них и внимания-то не обращается. 4 месяцев вполне достаточно для обнаружения баков, среди коих есть сайты с PR 3-4. Про двойки и единицы даже и речи не идёт- это обыденность. А имеем мы со всего этого ровно ноль.

-вот как оно…
А на самом-то деле, если зайти на http://lasto.com/google/ – там красуется ожидаемый PR=3. Просто PageRank недавно пересчитали.
Я так считаю, это не просто эксперимент – это два эксперимента. 🙂 Второй – про поспешные выводы.

пример “эксперимента”

Человек сделал хитрейшую весчь: методом заразного маркетинга понаставил ссылок на свой сайт с других сайтов (сделав индикатор pagerank), не получил ожидаемого результата, теперь ждет к себе в гости неких “гуру”, чтобы их “порвать”.
Кстати – непонятно, зачем ему этот pagerank… И ссылки пустые в индикаторе (без текста), нет чтобы заранее подумать… И странички ссылающиеся нулёвые, не удивительно… И вообще непонятно, сколько времени он ждал – может, пиар и появится скоро…
Аналог: http://cbrf.magazinfo.ru – информер по валютам – ссылок всего около 86, PR4, 600-800 хостов в день, подписчиков не считал. И никакого заразного маркетинга и тем более, понтов. Правда, сайт существует подольше, больше года.
Но только в ссылке информера текст есть. На тематические страницы, с разных информеров.

Как бы я давил дорвеи, сделанные по «цепям Маркова»

В одном из постов ниже я выплескивал все свои гадкие мысли по поводу убийства дорвеев. Однако, есть класс дорвеев, который не убивается такими способами. Это дорвеи, генеренные с использованием цепей Маркова – они сохраняют грамматику оригинала (с пунктуацией, правда, проблемы, но ее отлавливать вряд ли возможно)

Что такое «цепи Маркова»?

Есть компьютерная игрушка – алгоритм, угадывающий мысли. Я тоже когда-то писал по нему программу :). Мысли человек формулирует в виде последовательности ноликов и единичек, введенных в компьютер. А компьютер отвечает или не отвечает так: после того, как ты задумал число, он пытается его угадать, а ты потом его вводишь. Обманывать компьютер нельзя, это нечестно! 🙂

Через некоторое время он начинает прилично угадывать. Даже удивительно. А алгоритм основан на том, что датчик случайных мыслей (цифирок :)) в человеке не случаен, а берет на вход предыдущие сгенеренные цифирки. И то, что следующим ходом человек сгенерит, определяется тем, какие цифры он сгенерил до того. И как ему компьютер отвечал (как вариант игры – он может угадывать втихую и не отвечать сразу, а отвечать потом).

Короче говоря, вся ситуация отслеживается на N ходов назад, и данные аккумулируются в таком виде: для каждой последовательности из N введенных ранее [0,1] считаем число введенных ПОСЛЕ этой последовательности единичек и число нулей. И считаем вероятность того, что человек введет следующим ходом. Если статистика по единичкам сильно больше, значит, «угадываем» единичку. Наоборот – ноль. Примерно одинаково – генерим случайно. А еще есть вариант игры с ответом «не знаю» в виде двойки, только тогда для эффективного угадывания данные накапливать дольше надо.

Вот такая простая скотина этот человек :). Сложным натурам можно на 3 хода назад отслеживать, простым – на 2.

Так вот цепи Маркова – это цепи событий. Они используются в жизни таких вариантах:

  • когда надо посчитать некое стационарное состояние (распределение) при наличии ограниченного набора событий. Например, перескоки электронов по энергетическим уровням. Или перескоки юзера по матрице ссылок при расчете PageRank: http://www.yandex.ru/yandsearch?text=цепи маркова pagerank&stype=www
  • Или когда надо предсказать поведение системы на основе ее нынешнего состояния. Тут используется понятно какая гипотеза – что развитие ситуации определяется тем, как она развивалась раньше на N ходов. Например, тот же текст может быть описан как последовательность и по ней выбрано слово, появление которого в тексте «следующим ходом» наиболее вероятно.

Так вот про текст и говорим. Слов, однако, гораздо больше, чем 2 (ноль и единица), поэтому эффективно угадать следующее слово не выйдет. А неэффективно, но грамматически связно – пожалуйста! Это и есть генерация по цепям Маркова.

***
Вот несколько ссылок по теме:

Про PageRank: http://www.mediacraft.ru/sections/articles/1/2.html
На форуме SeoChase: http://www.seochase.com/viewtopic.php?t=2149
Про генерацию текстов: http://predpinimatel-cd.com.ru/book/Programming/Praktical_programing/Glava3/Index2.htm (терминология там, правда, стремная)
***
Короче говоря, вероятности в случае генерации связного текста можно выбросить за ненадобностью… Алгоритм получается такой:
0) берем текст, разбиваем его по предложениям, а внутри каждого предложения выделяем последовательности из N (допустим, 2-х) слов и пишем в таблицу
1) Берем случайно одно из «первых» слов в предложении, и ставим эту пару как первую.
2) По второму слову в паре выбираем все те пары, в которых это слово идет первым и дополняем текст вторым словом
3) Идем к предыдущему пункту 2, не забывая иногда закрывать предложение (например, парами, которые встречаются в концах предложений)

Вот примерно так. Это дает грамматически связный текст в любых количествах. Для размножения можно использовать и вероятности появления той или иной последовательности, и увеличивать N, выбирая одно следующее слово по предыдущим N-1. И все цепочки слов (здесь: пары) встречаются в реальной жизни, а на пробивку по тройкам и N-кам слов никаких ресурсов у поисковика не хватит.

А как бороться с «дорвеями по цепям Маркова»?

А так, что основная цель дорвейщика – увеличить количество текста. И, взяв на вход 100-200 КБ (15-30 тыс. слов), получить на выходе огромную гору текста, разбитую по страницам.

Но свойство любого текста будет в том, что распределение тех же пар слов будет иметь длинный и тонкий хвост из редко (1 раз, например) используемых словосочетаний. Просто потому, что в русском языке слов – до фига. Даже словарный запас из 100 тыс. слов –больше, чем весь исходный для дорвейщика текст. И длина этого хвоста (ну, скажем, число пар, встречающихся в тексте 1 раз, поделенное на общее число пар) – будет измеряться в десятках процентов. А то и до 70-90%, чую, доходить будет. Ну это поверяется легко.

А поскольку лорвейщик текста нагенерил в 10-100 раз больше, чем был исходный текст, словосочетания там поюзаны многократно. Гораздо больше, чем 1 раз. Конечно, дорвейщик разбил текст по страницам, так что ловить надо в пределах сайта.

В принципе, даже ресурсов много не надо… Пробить по нескольким хорошим крупным сайтам свойства текстов. Прикинуть, например, сколько из 10 тыкнутых наугад пар слов встречаются на сайте более 1 раза. Допустим, 10-30%.

А у дорвейщика будет сильно больше 99%. Например, если дорвейщик из 100 Кб текста нагенерил 10 Мб, он каждое словосочетание использует где-то 100 раз. Ну и вероятность, что ты попадешь на уникальное в пределах сайта словосочетание – порядка 1%. А 99 будут неуникальных.

Ну и дальше сайт – ф топку. Т.е., звонок модератору.

Ленинградские шубы Reloaded

В свое время была такая вещь – сайт leningradspb.ru находился на высоких местах по запросу “шубы” – история здесь – Гипотеза длинных ссылок – шубы кубы любы и Длина ссылок как мера добровольности их расставления.

Ленинград по “шубам” сейчас 8-9й в Яндексе. Для проверки я с блога поставил точно такую же ссылку. И сейчас почему-то при поиске страниц, ссылающихся на него с этим словом синтаксисом #link=”www.leningradspb.ru*” $anchor(шубы) находятся только 2 страницы этого блога, а синтаксисом a#link=”www.leningradspb.ru*”[шубы] – находится только исходная ссылка с www.vostochnik.ru/cgi-bin/gb.cgi?n=2281!
А должны находиться ссылки с обоих сайтов. Неужели оно их действительно сливает по тексту ссылок? 🙂
Кстати, длина ее – 100 символов. Это больше, чем стандартная длина ссылки в каталоге.
Может быть, такие длинные ссылки гарантированно считаются не-каталожными и имеют больший вес?


Новые позиции “Ленинграда”: Мальчик – 9, мальчик – 13, скрыпочка – 1, дудочка – 1, кастаньеты – 1, баян – 5, домбра – 1, туба – 5, куба – нет в 20, шуба – 9, люба – 18.
Вот вам и “человеческие факторы”… 🙂
PS Напостите плиз, кто может, сайтов поавторитетнее с обилием длинных ссылок. Внешних желательно, но и внутренние подойдут.

Сижу и парюсь над экспериментальным массивом

…страниц для расчета всяких оптимальных параметров HTML-страниц.
Перл хотя и рулит, но фантазия “а что б еще такое проверить” скоро уйдет в отпуск…
Если у кого есть желание принять участие в эксперименте, плиз, отмечайтесь (сюда или лучше в почту, если неохота афишировать сайты). Желанию должна сопутствовать возможность поставить ссылку с более-менее цитируемого, и, главное, стабильно цитируемого сайта на одну или несколько страниц массива и держать ее “вечно”. 🙂 С доступом к результатам эксперимента, естессно.
“френдз онли”. 🙂

Длина ссылок как мера добровольности их расставления

Интересная тема про длину ссылок:
http://www.searchengines.ru/forum/showthread.php?s=&postid=757220
Вопрос в том, имеет ли значение разнообразие ссылок на сайт? Такие мысли в голову приходят, наверное, всем. Но тут еще одно замечание – в теме о влиянии длинных ссылок и ее продолжении есть замечание – все эти ссылки – были в единственном числе! Т.е., “суперважных” ссылок не бывало 2 одинаковых и более.
Теоретически это могло бы быть одним из критериев “добровольности” проставления ссылки и учитываться как часть… “социальной структуры”?.
Так это или не так? Положим, так. Тогда при наличии второй ссылки с тем же текстом – ее влияние должно уменьшиться.
Поставим еще одну ссылку на Ленинград (блин, да он с 6 до 4 места по запросу “шубы” поднялся!) – точную копию той самой ссылки:
Мальчик со скрыпочкой и с дудочкой и с кастаньетами (но без баяна, домбры, тубы, шубы, кубы и любы)
и подождем… Может, еще где разместить…
***
В общем-то, критерий “одинаковости” длинных ссылок как меры “добровольности” ее размещения имеет смысл. Но для коротких, однословных ссылок – в них ведь сложно ошибиться? Может быть, и это тоже учитывается…
Тогда можно предполагать, что те, кто говорят, что “блоки ссылок работают отлично” тоже правы…

Длина учитываемого текста в title

Иногда раздаются возгласы, что мол, в тайтле учитываются только первые 50 символов или 7-8 слов. Ну, короче, мало. Причем авторитетно люди заявляют, со знанием дела…

Проверим:
1) Для начала найдем сайт с длинным тайтлом. Как его искать? Я сам навскидку не знаю… Попробуем с языком запросов, поиграемся расстоянием – ищем в тайтле часто употребляемые слова, с большим расстоянием между ними:

$title(сайт / 22 сайт)
-первый результат, http://www.vizavi.ru/cgi-bin/ank.cgi – уже не существует. Но ничего, возьмем кеш проиндексированной страницы. Тайтл там такой:

Агентство Визави Консалт Работа Поиск работы Агентство по подбору персонала поиск работы работы консалтинг деловые игры управленческое и кадровое консультирование консалтинг сопровождение и адаптация Job Get a job Need a job job agency Job agency сайт сервер web страница компьютерная сеть бесплатно javascript Click Trough Ratio ctr отклик cgi java java script photoshop Javascript сервер site сайт веб страничка ищу работу есть работа безработный специалист специальность

Несложно подсчитать. 474 символа, 65 слов
2) Ищем по последней фразе – безработный специалист специальность
Искомый сайт – на первом месте.

Вывод: бред сивой кобылы. Учитывается в тайтле гораздо больше.
___
По теме
http://www.searchengines.ru/forum/showthread.php?s=&threadid=3922

http://www.searchengines.ru/forum/showthread.php?s=&threadid=10374

http://www.searchengines.ru/forum/showthread.php?s=&threadid=5943