Очередные возможности языка запросов Яндекса

А.Садовский на форуме рассказывает об операторе нечеткого поиска в Яндексе и дает ссылку на Тезисы выступления на Диалоге-99.
Кажется, этот оператор (многословный запрос)//[0-100] не описан. Число явно на выдачу влияет, но что оно означает по смыслу…
Из тезисов больше удивило вот это:

Поисковый спам можно (довольно условно) разделить на две категории:

Спам по определенной тематике. Как правило, тематика совпадает с тематикой содержательной части документа. В этом случае автор спама, расчитывает на получение преимущества перед документами конкурентов на ту же тему. Можно считать такой вид спама не очень вредным, поскольку пользователь в этом случае получает примерно то, что искал.

Спам по “самым популярным словам в запросах”. В этом случае автор рассчитывает обеспечить максимально возможную популярность документу, пытаясь высоко позиционировать документ в выдаче поисковых систем по самым популярным запросам. При этом нередко сам документ абсолютно бессодержателен, поскольку практически ничего, кроме спама, он не содержит. Такие документы могут ухудшить качество поиска по самым популярным запросам до полной непригодности – если спам не подавлять.

В Яндексе обеспечена возможность подавлять спам избирательно.

-т.е., тематический спам по коммерческим запросам с редиректом – не считается таким уж серьезным. 🙂

Подсчет числа ссылок на странице

Очередная ссылка для перетаскивания на панель ссылок Links. При клике в алерте показывается общее число ссылок на данной странице, число яваскриптовых и нормальных: links

То же самое, но отдельно показывается число внутренних и внешних ссылок: links2 (у меня из панели опять не работает…)
Кстати, ссылки, напечатанные из яваскрипта как document.write(“< a href....< /a >“) (в частности, счетчики) оно принимает за нормальные ссылки.

Яндекс: учет чисел в запросах

Когда-то в теме о дорвеях у меня возникло подозрение, что Яндекс числа в запросах как-то по-особому учитывает.
Например, он умеет приписывать и убирать нолики справа: по запросу 038 94 Яндекс выделяет болдом (и ищет, соотв.) по числам 38 и 094 в том числе. Еще можно БК 0010 поискать.
Но и это еще не все!
Яндекс умеет убирать пробел между числами, если первое число из одной цифры. По запросу 7(пробел)110 выдаются страницы про 7110. А если давать запрос 71(пробел)10 – все как и должно быть. Причем если во втором числе не 3 цифры, а одна или две – не сливает! 🙂
PS
Нет, это даже работает, когда первое число длиннее одной цифры! Главное, чтобы второе было длинным.
Интересно, как это в Директе отображатеся… По ходу, в статистику попадает “конечный” запрос – он пишет Запросов за месяц: 7100 — 3235.

Яндекс: “еще с сайта” странно работает

Некоторое время назад столкнулся со странной вещью. В Яндексе по “длинным” запросам выползали простейшие странички, с минимумом текста. При этом смотришь “еще с сайта” – а там наиболее релевантной (первой) идет “нужная” страница, т.е. не та, которая в выдаче.
Вот странно. Я всегда считал, что первая страница “еще с сайта” должна быть той же, что и в выдаче.
А иначе мысли нехорошие закрадываются…
Сегодня опять на такой пример наткнулся. В чем еще дело-то: ладно бы выдавалась одна из страниц моего сайта, пусть и не та, что задумывалась. Но на ноутбучном сайте у меня что-то типа торговой системы, и выдается страница товара – чужого магазина! Сам себе, называется, подгадил.
А у меня эта торговая система на субдомене. Так я и подумал, что либо надо продолжать думать нехорошие мысли про специальное понижение, либо Яндекс при выдаче “еще с сайта” как-то неправильно ранжирует разные субдомены. И пример увидел тут же (на чужом сайте).
Пример: acer aspire 1705smi – 4й результат: nb.dgshop.ru/model812.htm. Смотрим Еще с сайта – в начале вместо той страницы, что в выдаче, страницы с субдомена forum.dgshop.ru.
Тогда что же получается.
Либо данные “еще с сайта” косячит в ранжировании субдоменов, либо иной алгоритм при поиске “по сайту”, который должен проявляться и в примерах, не связанных с субдоменами.
И то, и другое разумно, особенно иной алгоритм. Это ведь заткнутая дырка для определения релевантности с помощью экспериментов.
Может, вместе поищем примеры? Нужен пример, когда первый результат в выдаче “еще с сайта” отличается от того, который в основной выдаче. И при этом они оба на одном (суб)домене.

whois на панель ссылок

Написал очередную ссылку для показа whois по домену, на котором посетитель находится. Перетащить ссылку на панель ссылок, при клике идет переход на nic.ru:
whois

‘обмен ссылками’ в Яндексе и rus-abc.com

В Яндексе по запросу oбмен ссылками первым номером стоит ссылочная страничка в пол-мега с заголовком 29.09.2004 в обмене 2632 порталов.
Что характерно. Я так понял, что там все “клиенты” этого обменника перечислены, и в остальной части этой страницы слова “обмен” и “ссылки” вряд ли много попадаются.
А вот в начале страницы – ссылка на www.rus-abc.com с таким текстом:

Проект Linkpartner – Linktausch – Linkexchange – Обмен ссылками на РУССКИЙ АРСЕНАЛ ™ соответствует следующим стандартам: хостинг, хостинг за границей, хостинг за рубежом, кластерный хостинг, домены бесплатно, домен бесплатно, платный хостинг, дешевый хостинг, недорогой хостинг, услуги хостинга, веб хостинг, цуи-программирование, хостинг размещение, хостинг домен, дизайн студия, веб-дизайн, корпоративный сайт, сайт, портал, дизайн, автоматизированные системы обмена ссылками, автоматизированные системы обмена линками, тематический обмен ссылками, тематический обмен линками, обмен кнопками, обмен ссылками, обмен линками, автоматизированный обмен ссылками, автоматизированный обмен линками, автоматический обмен ссылками, автоматический обмен линками, автоматизированная система обмена ссылками, автоматизированная система обмена линками, автоматическая система обмена ссылками, автоматическая система обмена линками, каталог ссылок, каталог линков, каталог кнопок, каталог баннеров, каталог обмена ссылками, каталог обмена линками, каталог обмена кнопками, PageRanking, PageRank, обмен ссылками, обмен линками, автоматизированный обмен ссылками, автоматизированный обмен линками, автоматизированная система обмена ссылками, автоматизированная система обмена линками, каталог ссылок, каталог линков, каталог кнопок, каталог обмена ссылками, каталог обмена линками, каталог обмена кнопками, автоматическая система обмена посетителями, автоматизированная система обмена посетителями, обмен посетителями, автоматизированный обмен посетителями, автоматический обмен посетителями, автоматическая система обмена тематическими ссылками, автоматическая система обмена тематическими линками, автоматизированная система обмена ссылок, автоматическая система обмена ссылок, тематические ссылки, тематические линки, каталог рубрик, система обмена ссылками, система обмена линками, обменяться ссылками, обменяться линками, регистрация ресурсов, регистрация в каталогах, регистрация в поисковиках, регистрация в рейтингах, система раскрутки, система продвижения, раскрутка, раскрутка сайта, раскрутка портала, профессиональная раскрутка, продвижение сайта, увеличение посещаемости, реклама, текстовая реклама, система обмена текстовыми ссылками, система обмена текстовыми линками, текстовая баннерная система, текстовые баннерные системы, баннерная сеть, интернет-каталог, сеть обмена ссылками, сеть обмена линками, каталог интернет-ресурсов, добавить адрес, добавить сайт, Linkpartner, Linktausch, Linkexchange, suggest url, suggest site, submit url, submit site, add url, add site, add links, exchange links, url submitting, url suggesting, site submitting, site suggesting, google, search engine, news.

– и все слова в сниппете именно из нее.
Ясно, что попытка использовать длинную ссылку, может быть, проверка. И проверка показала все наоборот. Вместо rus-abc выдается ссылающаяся на нее…
Хи-хи.

Яндекс – дубликаты или бан?

Из доменов:
TRIADA.RU
LASKA.RU
MADEIN.RU
METALS.RU
SRAVNI.RU
В Яндексе находятся только страницы TRIADA.RU. Остальных сайтов нет. На добавление TRIADA.RU, METALS.RU, LASKA.RU отвечает “Сайт внесен в нашу базу” На MADEIN.RU, SRAVNI.RU – запрещен к индексированию.
Вот к чему ведет тупое использование перекупленных доменов.

Если бы я был поисковой системой,

… я бы сдвигал параметры “текстовой” оптимальности страницы в завистимости от цитируемости (ее самой или морды сайта).
Представьте: оптимизировали сайт, получили результат по менее конкурентным запросам, двигаетесь дальше – наращивете ссылки на себя – и проваливаетесь на фиг.
Страшно, а? 🙂

Редиректы в Yahoo

Только что заметил. При поиске “всех страниц с домена” в Yahoo вылезают редиректы.
Пример: domain:yaca.yandex.ru – все редиректы после второй страницы считаются как будто бы они на сайте Яндекса!
При этом редирект 301, урл яндекс-каталожный, а тайтл – от целевого сайта!
Интересно, учел ли Яху эти ссылки? Вроде да, из категорий ЯК ссылки нашлись: link:xttp://www.tnk.ru domain:yaca.yandex.ru (при этом первая ссылка – опять якобы с домена yaca!).
Чушь получается. Он что, считает редиректную ссылку и ссылкой, и страницей на ссылающемся сайте одновременно?
Хотя может, все проще – бага языка запросов.

Язык запросов Рамблера: изменения

Влад Шабанов сообщает на форуме Рамблера от 29 сентября: Язык запросов: изменения в семантике операторов.

Изменение в поисковой машине затронуло язык запросов. Основная идея — сейчас между словами вставляется некоторый “клей”, примерно как в TeX (см. книжку Дональда Кнута “Все про TeX”). Поведение – аналогичное, только вот ядро Рамблера не имеет возможности решать задачу поиска наикратчайшего пути в графе (см. главу 14).

Сейчас “снаружи” доступны следующие операторы:

a & b
— документы, где одновременно есть a и b, чем ближе, тем лучше. Фактически амперсанд здесь означает кусочек клея с некоторыми стандартными настройками сжимаемости, растяжимости и “оборачиваемости”.

a &< b a &<< b a &<<< b -- вариант оператора & с более жестким клеем. Клей &<<< совсем плохо сжимается и почти не растягивается. a &> b
a &>> b
a &>>> b
— вариант оператора & с более мягким клеем. Запрос, где слова склеены клеем &>>> ранжируется почти как && (см. ниже)

a && b
a AND b
— документы, где одновременно есть a и b, причем все равно на каком расстоянии.

a &&& b
— сайты, где одновременно есть документы, содержащие a и b, причем не обязательно, чтобы a и b были в одном документе. &&& – это еще один вид клея, который помещается уже не между словами, а между документами одного сайта.

a | b
— документы, где есть a или b, причем одновременно a и b — лучше, а уж если рядом, то совсем хорошо

a || b
— документы, где есть a или b, все равно, радом или нет, на ранжирование не влияет

(N, a & b & c …)
— ограничение расстояния между словами.

“a * b”
— буквальный поиск, * — джокер (любое слово или знак препинания). Найдет все документы, где есть a и b, причем между ними стоит в точности одно слово. Разумеется, звездочек может быть несколько.

a NOT b
— отрицание.

Операторы &&&&, |||, ||||, &<.> и так далее зарезервированы на будущее.

Пробелы, знаки препинания — это такие “волшебные” операторы, которые в зависимости от контекста заменяются на
что-то из перечисленного выше (или еще на что-нибудь :-).

Вот бы Яндекс так сообщал…
Все, иду тестить. 🙂