Евгений Трофименко – Страница 41 – Евгений Трофименко: SEO и не только

Яндекс учитывает окружение ссылки?

Очередная тема на форуме: Яндекс учитывает окружение ссылки? Часть 2.. Первая часть была про тег map, после которого как-то криво весь текст до следующей ссылки попадал в индекс.
Тема о том, что по запросу anchor#link=”www.fit-pro.ru*”[различные тренажеры], где слова “различные” в ссылке нет – Яндекс:
1. Выбирает из массы ссылающихся только ссылающиеся со словом “различные” в пределах предложения:

Различные тренажеры для вашего дома. | Хатха йога – упражнения | спутниковые GPS навигаторы | рукоделие, вышивание, шитье | лунный календарь …

… ремни ликвидация оптимизация налогов Терминалы сбора данных Symbol Различные силовые тренажеры на ваш выбор. цветочный магазин, цветы продажа …

2. Не подсвечивает слово “различные” в сниппете, только “тренажеры”. Т.е., вроде как и “не находит”, но и ведь выбирает в то же время из 70 ссылающихся на www.fit-pro.ru со словом “тренажеры” только те 2, где в пределах предложения есть слово “различные”.
***
Перво-наперво я полез в reqtext – смотреть, вдруг “различные” по кворуму не обязательны. Нет, вес 27% – обязательны для двусловного запроса. Потом начал на ссылающемся сайте и другие примеры выбирать…
Действительно, взять из конца предложения ссылку и поискать с текстом другой ссылки – находит, но не все подсвечивает! anchor#link=”www.mebelproekt.ru”[Изготовление печатей && Шкафы Mr Doors, Купе]. Уже довольно глупо – учитывать текст просто соседний еще ладно, но если это ТЕКСТ СОСЕДНИХ ССЫЛОК – лажа полная получится.
Я бы считал доказательством, если бы по точному запросу в кавычках, где часть запроса НЕТ в ссылке, ссылаемый сайт находился бы как “найден по ссылке”. Но таких примеров найти не удалось. Например, “Различные тренажеры для вашего дома” – полный текст ссылки, кроме sportime.ru ничего не находим.
***
с другой стороны, я начал пробовать “поиск по тексту ссылок” оператором $anchor() – если он не “назовет” ненужное текстом ссылок, то вроде все нормально. Например, по запросу $anchor(спортивные тренажеры для дома) на 10 месте находим некий сайт, похожий на каталог:

ДК СПОРТ- спортивные тренажеры для дома – Кроненберг
Фабрика “DK-sport” основана в 1998 году. Продукция фабрики соответствует Российским стандартвм качества. Это обеспечивает надежность и безопасность тренажеров. Базовый модуль тренажеров выполнен из
www.cronenbergclub.com/catalog/?link=27 · 5 КБ

Смотрим его код – подсвеченные слова “тренажер” в выдаче вообще не являются ссылкой, а находятся на расстоянии нескольких предложений от ссылки.
С другой стороны, текст ссылки совпадает с тайтлом страницы. И выводится без болда на слове “тренажер”. Видимо, сам текст ссылки не попадает в сниппет, т.к. точно тот же текст уже есть в тайтле, и яндекс экономит на выводе одинаковых фрагментов. Такие случаи, что при пустом тайтле вместо тайтла выводится фрагмент найденного есть.
При поиске по словам из описания $anchor(тренажеры стандартвм) находим кучу сайтов, тех же каталогов, в том же виде – в качестве тайтла текст ссылки (совпадает с тайтлом), в качестве описания – описание со словами.
В общем, операторы anchor#link и $anchor() как-то размазывают… Выдают не только текст ссылок, но и окружение. Но вроде как и фильтруют по текстам одновременно. Еще пример того, что оно понимает расстояние в предложениях: $anchor(спортивные тренажеры для дома &&/3 стандартвм).
С другой стороны, примера, в котором по “левым” словам выдается сайт как “найденный по тексту ссылок” я так и не нашел. Поэтому продложаю думать, что это “пользовательская фича” для операторов поиска по тексту ссылок – расширять поиск на осн. текст. Или веса слов там как-то криво учитываются. Короче, поиск по ссылкам же для юзверя сделан, не для нас 🙂
Короче, не думаю, что поиск по текстам окружения ссылок работает. Плюс глупо юзать тексты ОКРУЖАЮЩИХ ССЫЛОК (пример выше).
PS в найденных желтым все нормально выделяет. В описании нет желтого “тренажера”.

Неужели у Сегаловича в статье ошибка?

В статье Яндекс на РОМИП-2004 у Сегаловича приведена формула доли веса пассажа, которую нужно преодолеть, чтобы пассаж был найденным:

“где Softness соответствует величина от 0 до 1, а QL — длина запроса в словах”
***
Проверяю. Не сходится…
Беру одно значащее слово и N разных абракадабр с весом ::1, разделенных оператором поиска в документе &&.
Типа такого: окна::1479 && semhfwj1::1 && semhfwj2::1 && semhfwj3::1 && semhfwj4::1 && semhfwj5::1 && semhfwj6::1 && semhfwj7::1 && semhfwj8::1 && semhfwj9::1 && semhfwj10::1 && semhfwj11::1 && semhfwj12::1 && semhfwj13::1 && semhfwj14::1 && semhfwj15::1
И получаю такие веса слова “окна”, при которых еще ничего не найдено, но если прибавить единицу – будет найдено:

Термов	Вес "окон"	Доля веса по кворуму
2	1395	0.9400
3	790	0.8632
4	726	0.8029
5	742	0.7550
6	785	0.7158
16	1478	0.5163

По формуле – не выходит… По формуле QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) доли веса получаются:

Термов	Доля веса по кворуму=QuorumWeight=(1-0.06)^(1/SQRT(QL-1))
2	0.9400
3	0.9572
4	0.9649
5	0.9695
6	0.9727
16	0.9842

…что даже не соотвествует тому, что написано в статье:

В частности, при равных по весу словах запроса и коэффициенте мягкости 0.06 (того, что использовался при выполнении заданий РОМИП), в пятисловном запросе достаточно 4-х слов (или 76% веса), а в 16-словном всего лишь 8 слов (или 52% веса) для преодоления кворума.

А у меня как раз-таки соотвествует.
После небольшого метода тыка приходим к выводу, что формула выглядит так:
QuorumWeight=1-Softness^(1/SQRT(QL-1))
…ну, короче, скобочками Сегалович ошибся… 🙂 1-Softness не надо в скобочки ставить…

PS блин, а я чуть голову не сломал…

Минус-слова в разном контексте, оказывается, бывают

Как-то по умолчанию предполагал, что если запрос в Яндексе с минус-словом – то это минус-слово должно минусоваться в документном контексте.
Я замечал, что минус-слово в колдунщике ставится с оператором расстояния, но не придавал этому значения, думал, колдунщик тупо ставит, а там уже все равно его “вычитают” по документу.
А вот хрен там.
Примеры:
!Иванов &/(1 1) -Андрей – поиск на расстоянии плюс одно слово: во втором сниппете “Андрей Иванов” (минус одно слово)
!Иванов &/(-1 1) -Андрей – этого уже нет.
!Иванов -Андрей – переколдовывается с расстоянием в 3 предложения до “минус андрея”. Включения тоже нет.

А раз такие дела, то “отсутствие слова” в таком запросе может тольковаться как вклад в релевантность, меняться число термов в запросе (и кворум, кстати!) – и меняться выдача…

то-то она иногда меняется с минус словами… а мы можем списать это на “пробивание кеша” 🙂

Статистика по операторам колдунщика Яндекса

Вот так по нашей массе запросов колдунщик Яндекса “любит” вставлять разные операторы (в % относительно &):

&		100%
&/(-2 4)	8.813
&/(-1 3)	9.914
&/(1 1)		1.784
&/(0 0)		0.035
&&/(-7 7)	15.212
&&/(-3 3)	14.705
&&		6.714
!!%		0.035
! 		0.699

Длинные слова

По мотивам того, что у artlebedev на хомяке в тайтле есть слово экстраультрагиперпупервротебупермегасупернадежный и Яндекс с Рамблером его не находят (ноль результатов), хотя знают (статистика слов: 49). via Aik и itman.
Больше всего мне нравится коммент itman, а точнее третья версия -вторая часть:

Во-первых, некоторые поисковые машины игнорируют слова, которые есть только в тайтле. Во-вторых, они могут игнорировать слишком длинные тайтлы. В-третьих, они могут игнорировать слишком длинные слова. И тут могут быть варианты. То есть слово может обрезаться, а может и просто не индексироваться. Насколько я проверил, Яндекс слово не обрезает, хотя в закешированной текстовой версии слово есть, значит Яндекс новую версию странички сжевал.

-думаю, что Яндекс не ищет по длинным словам и не обрезает. Может, ему просто западло показывать эти длинные слова в поиске? Они длинные и неудобные… И, соотвественно, искать по ним неудобно. Пример:
по запросу студия артемия лебедева ваш && партнер показывается тайтл:

Студия Артемия Лебедева – ваш …

А по запросу поиска внутри сайта слова партнер показывается:

Студия Артемия Лебедева – … партнер

Т.е., слова до и после длинного яндекс знает, ему просто западло его в выдачу отгружать. При малейшем добавлении в запрос слов из тех, что ДО экстраультрагиперпупервротебупермегасупернадежный – конец обрезается многоточием.
UPD.
Рамблер тоже – слова не находит, но в выдаче показывает и болдом что надо выделяет:

Студия Артемия Лебедева — ваш экстраультрагиперпупервротебупермегасупернадежный партнер

“найденных слов” в онлайн в Яндексе больше не будет?

Обалдел, увидев вместо ссылки “найденные слова” в Яндексе ссылку “сохраненная копия”. Было ломанулся копировать дисковый кеш пробитых позиций по Яндексу… Но с ребятами посмотрели в урл ссылки – reqtext там еще есть… Насколько – неизвестно…
Но копию кеша все равно сделали. На всякий случай. 🙂
Но, видимо, в онлайне смотреть подсветку нам больше не дадуд.

число входящих ссылок на сайт

Вот рисунок по данным Яндекс-грантов 2004. Нарисовано “число сайтов в группе в зависимости от числа входящих ссылок на сайт” в логарифмических координатах. Т.е., группа хостов, имеющих 1 входящую ссылку, состоит из N1 хостов и т.д.

Довольно приличная линейность. Расколбас в области больших цитируемостей – из-за того, что мне было лениво выбирать представительные интервалы (от и до).
В среднем по больнице PR (нелогарифмированное значение) коррелирует с числом входящих ссылок на сайт.
Дальше: пилим этот треугольник по горизонтальной оси на 10 частей, и делаем ступеньки PageRank.

исследование

Сэр Тутубалин опубликовал исследование тИЦов и ПиАров в рунете.
Из всего этого следует вывод:

Высокий ТИЦ встречается в Рунете реже высокого PageRank, а значит высокий ТИЦ почетнее.

* коммент: вывод фантастический – люди уже обсасывают: “ТИЦ престижней PR”. Если в отдельно взятой москве N людей занимаются сексом, а N/1000 – художественным фистингом, то мы делаем вывод, что фистинг – “почетнее”. Поскольку его меньше.
хе-хе.

Что понравилось: средние значения тицов при различных пиарах. буду обращать внимание при покупке ссылок 🙂 Раньше я считал, что пиару 6 должен соответствовать тыц не меньше 2-3 тыс. А получается 750. Будем иметь в виду…

Яндекс: разное

1. Это, кажется, было давно, но: Яндес объявил гранты “интернет-математика-2007” http://company.yandex.ru/grant/
Основные интересы яндекса – сообщества по ссылкам, поведение людей, тематическая классификация запросов, новые меры ссылочной цитируемости (трастранк?), жанры текста и мн.др

2. MyStem Сегаловича выложен в открытый доступ http://company.yandex.ru/technology/products/mystem/mystem.xml (это, в принципе, и раньше было, но сейчас есть примеры работы), я даже удивился – неужели там полнотектсовая морфология зашита? А ведь не должна. Но судя по примерам, части речи оно определяет… пойду скачивать и втыкать.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Автор: Евгений Трофименко

Популярные движки форумов