Встала задачка выяснить, какие движки форумов наиболее популярны… Выяснил более-менее:
phpBB – 2294
“Invision Power Board” – 1700
vBulletin – 1472
PunBB – 1054 (никогда о таком не слышал)
Ikonboard – 333
***
Какие-нибудь другие популярные (в рунете) движки форумов есть? Также есть потребность (платно или бесплатно, договоримся :)) написания доп. возможностей (3 php или perl скрипта) для разных видов движков. Кто знает какие-то движки достаточно хорошо (на уровне, что что означает в базе) – прошу обращаться в очту [email protected]
Автор: Евгений Трофименко
Яндекс учитывает окружение ссылки?
Очередная тема на форуме: Яндекс учитывает окружение ссылки? Часть 2.. Первая часть была про тег map, после которого как-то криво весь текст до следующей ссылки попадал в индекс.
Тема о том, что по запросу anchor#link=”www.fit-pro.ru*”[различные тренажеры], где слова “различные” в ссылке нет – Яндекс:
1. Выбирает из массы ссылающихся только ссылающиеся со словом “различные” в пределах предложения:
Различные тренажеры для вашего дома. | Хатха йога – упражнения | спутниковые GPS навигаторы | рукоделие, вышивание, шитье | лунный календарь …
… ремни ликвидация оптимизация налогов Терминалы сбора данных Symbol Различные силовые тренажеры на ваш выбор. цветочный магазин, цветы продажа …
2. Не подсвечивает слово “различные” в сниппете, только “тренажеры”. Т.е., вроде как и “не находит”, но и ведь выбирает в то же время из 70 ссылающихся на www.fit-pro.ru со словом “тренажеры” только те 2, где в пределах предложения есть слово “различные”.
***
Перво-наперво я полез в reqtext – смотреть, вдруг “различные” по кворуму не обязательны. Нет, вес 27% – обязательны для двусловного запроса. Потом начал на ссылающемся сайте и другие примеры выбирать…
Действительно, взять из конца предложения ссылку и поискать с текстом другой ссылки – находит, но не все подсвечивает! anchor#link=”www.mebelproekt.ru”[Изготовление печатей && Шкафы Mr Doors, Купе]. Уже довольно глупо – учитывать текст просто соседний еще ладно, но если это ТЕКСТ СОСЕДНИХ ССЫЛОК – лажа полная получится.
Я бы считал доказательством, если бы по точному запросу в кавычках, где часть запроса НЕТ в ссылке, ссылаемый сайт находился бы как “найден по ссылке”. Но таких примеров найти не удалось. Например, “Различные тренажеры для вашего дома” – полный текст ссылки, кроме sportime.ru ничего не находим.
***
с другой стороны, я начал пробовать “поиск по тексту ссылок” оператором $anchor() – если он не “назовет” ненужное текстом ссылок, то вроде все нормально. Например, по запросу $anchor(спортивные тренажеры для дома) на 10 месте находим некий сайт, похожий на каталог:
ДК СПОРТ- спортивные тренажеры для дома – Кроненберг
Фабрика “DK-sport” основана в 1998 году. Продукция фабрики соответствует Российским стандартвм качества. Это обеспечивает надежность и безопасность тренажеров. Базовый модуль тренажеров выполнен из
www.cronenbergclub.com/catalog/?link=27 · 5 КБ
Смотрим его код – подсвеченные слова “тренажер” в выдаче вообще не являются ссылкой, а находятся на расстоянии нескольких предложений от ссылки.
С другой стороны, текст ссылки совпадает с тайтлом страницы. И выводится без болда на слове “тренажер”. Видимо, сам текст ссылки не попадает в сниппет, т.к. точно тот же текст уже есть в тайтле, и яндекс экономит на выводе одинаковых фрагментов. Такие случаи, что при пустом тайтле вместо тайтла выводится фрагмент найденного есть.
При поиске по словам из описания $anchor(тренажеры стандартвм) находим кучу сайтов, тех же каталогов, в том же виде – в качестве тайтла текст ссылки (совпадает с тайтлом), в качестве описания – описание со словами.
В общем, операторы anchor#link и $anchor() как-то размазывают… Выдают не только текст ссылок, но и окружение. Но вроде как и фильтруют по текстам одновременно. Еще пример того, что оно понимает расстояние в предложениях: $anchor(спортивные тренажеры для дома &&/3 стандартвм).
С другой стороны, примера, в котором по “левым” словам выдается сайт как “найденный по тексту ссылок” я так и не нашел. Поэтому продложаю думать, что это “пользовательская фича” для операторов поиска по тексту ссылок – расширять поиск на осн. текст. Или веса слов там как-то криво учитываются. Короче, поиск по ссылкам же для юзверя сделан, не для нас 🙂
Короче, не думаю, что поиск по текстам окружения ссылок работает. Плюс глупо юзать тексты ОКРУЖАЮЩИХ ССЫЛОК (пример выше).
PS в найденных желтым все нормально выделяет. В описании нет желтого “тренажера”.
Неужели у Сегаловича в статье ошибка?
В статье Яндекс на РОМИП-2004 у Сегаловича приведена формула доли веса пассажа, которую нужно преодолеть, чтобы пассаж был найденным:
“где Softness соответствует величина от 0 до 1, а QL — длина запроса в словах”
***
Проверяю. Не сходится…
Беру одно значащее слово и N разных абракадабр с весом ::1, разделенных оператором поиска в документе &&.
Типа такого: окна::1479 && semhfwj1::1 && semhfwj2::1 && semhfwj3::1 && semhfwj4::1 && semhfwj5::1 && semhfwj6::1 && semhfwj7::1 && semhfwj8::1 && semhfwj9::1 && semhfwj10::1 && semhfwj11::1 && semhfwj12::1 && semhfwj13::1 && semhfwj14::1 && semhfwj15::1
И получаю такие веса слова “окна”, при которых еще ничего не найдено, но если прибавить единицу – будет найдено:
Термов Вес "окон" Доля веса по кворуму 2 1395 0.9400 3 790 0.8632 4 726 0.8029 5 742 0.7550 6 785 0.7158 16 1478 0.5163
По формуле – не выходит… По формуле QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) доли веса получаются:
Термов Доля веса по кворуму=QuorumWeight=(1-0.06)^(1/SQRT(QL-1)) 2 0.9400 3 0.9572 4 0.9649 5 0.9695 6 0.9727 16 0.9842
…что даже не соотвествует тому, что написано в статье:
В частности, при равных по весу словах запроса и коэффициенте мягкости 0.06 (того, что использовался при выполнении заданий РОМИП), в пятисловном запросе достаточно 4-х слов (или 76% веса), а в 16-словном всего лишь 8 слов (или 52% веса) для преодоления кворума.
А у меня как раз-таки соотвествует.
После небольшого метода тыка приходим к выводу, что формула выглядит так:
QuorumWeight=1-Softness^(1/SQRT(QL-1))
…ну, короче, скобочками Сегалович ошибся… 🙂 1-Softness не надо в скобочки ставить…
PS блин, а я чуть голову не сломал…
Минус-слова в разном контексте, оказывается, бывают
Как-то по умолчанию предполагал, что если запрос в Яндексе с минус-словом – то это минус-слово должно минусоваться в документном контексте.
Я замечал, что минус-слово в колдунщике ставится с оператором расстояния, но не придавал этому значения, думал, колдунщик тупо ставит, а там уже все равно его “вычитают” по документу.
А вот хрен там.
Примеры:
!Иванов &/(1 1) -Андрей – поиск на расстоянии плюс одно слово: во втором сниппете “Андрей Иванов” (минус одно слово)
!Иванов &/(-1 1) -Андрей – этого уже нет.
!Иванов -Андрей – переколдовывается с расстоянием в 3 предложения до “минус андрея”. Включения тоже нет.
А раз такие дела, то “отсутствие слова” в таком запросе может тольковаться как вклад в релевантность, меняться число термов в запросе (и кворум, кстати!) – и меняться выдача…
то-то она иногда меняется с минус словами… а мы можем списать это на “пробивание кеша” 🙂
Статистика по операторам колдунщика Яндекса
Вот так по нашей массе запросов колдунщик Яндекса “любит” вставлять разные операторы (в % относительно &):
& 100% &/(-2 4) 8.813 &/(-1 3) 9.914 &/(1 1) 1.784 &/(0 0) 0.035 &&/(-7 7) 15.212 &&/(-3 3) 14.705 && 6.714 !!% 0.035 ! 0.699
Длинные слова
По мотивам того, что у artlebedev на хомяке в тайтле есть слово экстраультрагиперпупервротебупермегасупернадежный и Яндекс с Рамблером его не находят (ноль результатов), хотя знают (статистика слов: 49). via Aik и itman.
Больше всего мне нравится коммент itman, а точнее третья версия -вторая часть:
Во-первых, некоторые поисковые машины игнорируют слова, которые есть только в тайтле. Во-вторых, они могут игнорировать слишком длинные тайтлы. В-третьих, они могут игнорировать слишком длинные слова. И тут могут быть варианты. То есть слово может обрезаться, а может и просто не индексироваться. Насколько я проверил, Яндекс слово не обрезает, хотя в закешированной текстовой версии слово есть, значит Яндекс новую версию странички сжевал.
-думаю, что Яндекс не ищет по длинным словам и не обрезает. Может, ему просто западло показывать эти длинные слова в поиске? Они длинные и неудобные… И, соотвественно, искать по ним неудобно. Пример:
по запросу студия артемия лебедева ваш && партнер показывается тайтл:
Студия Артемия Лебедева – ваш …
А по запросу поиска внутри сайта слова партнер показывается:
Студия Артемия Лебедева – … партнер
Т.е., слова до и после длинного яндекс знает, ему просто западло его в выдачу отгружать. При малейшем добавлении в запрос слов из тех, что ДО экстраультрагиперпупервротебупермегасупернадежный – конец обрезается многоточием.
UPD.
Рамблер тоже – слова не находит, но в выдаче показывает и болдом что надо выделяет:
Студия Артемия Лебедева — ваш экстраультрагиперпупервротебупермегасупернадежный партнер
“найденных слов” в онлайн в Яндексе больше не будет?
Обалдел, увидев вместо ссылки “найденные слова” в Яндексе ссылку “сохраненная копия”. Было ломанулся копировать дисковый кеш пробитых позиций по Яндексу… Но с ребятами посмотрели в урл ссылки – reqtext там еще есть… Насколько – неизвестно…
Но копию кеша все равно сделали. На всякий случай. 🙂
Но, видимо, в онлайне смотреть подсветку нам больше не дадуд.
число входящих ссылок на сайт
Вот рисунок по данным Яндекс-грантов 2004. Нарисовано “число сайтов в группе в зависимости от числа входящих ссылок на сайт” в логарифмических координатах. Т.е., группа хостов, имеющих 1 входящую ссылку, состоит из N1 хостов и т.д.
Довольно приличная линейность. Расколбас в области больших цитируемостей – из-за того, что мне было лениво выбирать представительные интервалы (от и до).
В среднем по больнице PR (нелогарифмированное значение) коррелирует с числом входящих ссылок на сайт.
Дальше: пилим этот треугольник по горизонтальной оси на 10 частей, и делаем ступеньки PageRank.
исследование
Сэр Тутубалин опубликовал исследование тИЦов и ПиАров в рунете.
Из всего этого следует вывод:
Высокий ТИЦ встречается в Рунете реже высокого PageRank, а значит высокий ТИЦ почетнее.
* коммент: вывод фантастический – люди уже обсасывают: “ТИЦ престижней PR”. Если в отдельно взятой москве N людей занимаются сексом, а N/1000 – художественным фистингом, то мы делаем вывод, что фистинг – “почетнее”. Поскольку его меньше.
хе-хе.
Что понравилось: средние значения тицов при различных пиарах. буду обращать внимание при покупке ссылок 🙂 Раньше я считал, что пиару 6 должен соответствовать тыц не меньше 2-3 тыс. А получается 750. Будем иметь в виду…
Яндекс: разное
1. Это, кажется, было давно, но: Яндес объявил гранты “интернет-математика-2007” http://company.yandex.ru/grant/
Основные интересы яндекса – сообщества по ссылкам, поведение людей, тематическая классификация запросов, новые меры ссылочной цитируемости (трастранк?), жанры текста и мн.др
2. MyStem Сегаловича выложен в открытый доступ http://company.yandex.ru/technology/products/mystem/mystem.xml (это, в принципе, и раньше было, но сейчас есть примеры работы), я даже удивился – неужели там полнотектсовая морфология зашита? А ведь не должна. Но судя по примерам, части речи оно определяет… пойду скачивать и втыкать.