Я:Р ~ 3:1?

На экспериментальном сайте около 400 хостов в день…
При этом Яндекс с Рамблером идут вровень, плюс-минус 5%, однако при том, что Рамблер заиндексировал в 3 раза больше страниц, чем Яндекс.
Цитируемость у сайта никакая. Давит только массой.

Рамблер засосал все 30К…

…страниц экспериментального сайта.

Кстати, странно. При поиске по сайтам – по умолчанию – подарки к 23 февраля – посказывает кучу отдельных страниц сайта вида http://www.omar.ru/conf/home/***.shtml
И не показывает “еще с сайта”.
Автоматом переключает выдачу на вариант “страницы по релевантности”, что ли? Результаты, вроде, одинаковые.

Зеркалирование карт сайта в Яндексе

Когда очень много страниц, большие карты сайтов получаются. Особенно, если при их генерации вставлять в ссылки на страницы уникальные тексты (их названия, например). Так что в таких случаях я разбивал карту на части и вдобавок делал одну карту, где тексты ссылок на документы – цифирками обозначены. Чтоб меньше карта была.
А тут пришлось вообще очень много страниц скармливать. И тогда даже цифирки не спасли. Пришлось карту разбить на много похожих карт с разными ссылками, разумеется, но для экономии опять-же, все цифирки начинались от 1, т.е., тексты карт были почти одинаковы.
И Яндекс их зазеркалил… Вот неприятность. 🙂 Это при разных ссылках с цифирок. Общее число карт было – несколько десятков, после зеркалирования осталось полдесятка.
Ну, пришлось цифры разными делать – нормально все варианты карты теперь показывает.

объемы

если у яндекса Уникальных серверов: 1 722 162, уникальных документов: 457 501 435, то:
457501435 не вмещается в 3 байта, т.е., id страницы должен занимать 4 байта (если по битам не считать). Если на каждой странице по рунету в среднем 20 ссылок (внутренних плюс внешних), объем для хранения графа ссылок будет 36.6 Гб – многовато.
1722162 входит в 3 байта, если по 100 внешних ссылок с сайта (число взято от балды) – объем графа хостов будет 516 Мб.
Как раз на CD войдет. А вот как его обсчитывать…

Спортивный браслет в Маркете…

Ищу кроссовки, смотрю Маркет – http://market.yandex.ru/catalogoffers.xml?hid=91272 – раздел Одежда, обувь и принадлежности / Спортивная одежда и обувь
Первым, самым релевантным :), идет –

Браслет из циркония
Цена: 2 800 р. Лоза
Доставка: Россия
Браслет помогает при различных заболеваниях,а также используется как украшение мужчинами и женщинами

-вот интересно, браслет – это одежда или обувь? И почему он спортивный?
Хотя я не знаю, как у них в Маркете в этом сезоне носят… 🙂
PS Кроссовок в маркете не нашел.

Примерчик насчет CTR позиций в Яндексе

Два сайтика по мобилкам. Заходы в основном по запросам вида “Бренд Модель”.
Ситуация: два сайта стоят вторым и третьим номерами в выдаче Яндекса. Описания такие:

2 Мобильные телефоны Бренд Модель
Сравнить Бренд Модель с другими телефонами
Характеристики Бренд Модель
3 Бренд Модель / сотовый телефон – купить сейчас?
Сотовый телефон Бренд Модель (1)
Сотовый телефон Бренд Модель

-и CTR отклика на первый почти точно 20%, второй – почти точно 10%, т.е., в 2 раза ниже.
CTR рассчитывал по цифре из Директа, деленной на 30, при этом из запроса в Диретк “Бренд Модель” вычитались все более мелкие частоты запросов, идущих ниже, т.е. это примерно нормальная “бывшая” точная частота. Она вдвое меньше получилась, чем в Директе было.
Статистика за день, но она приличная.

Рамблер…

Никто не замечал такой штуки? Есть на сайте несколько разделов, разбитых как директории, хотя это и не очень важно. Важно, что все документы из этой директории имеют определенную особенность – слова, которым “посвящен весь сайт” там встречаются в гораздо более выраженном виде.
Ссылки на этот раздел почти абсолютно такие же, как на другие разделы, внешних ссылок нет.
В результате при поиске словосочетания по сайту, ! не встречающегося в тайтле и hx, а встречающейся в футере страницы – Рамблер при поиске страниц по сайту с упорядочением по релевантности страниц – упорно выпихивает в первых рядах документы из этой директории?
Разброс по размерам документов в каждой директории б-м. одинаковый – есть мелкие и крупные. В одной директории неск. сотен документов, директорий несколько десятков.
И одна лидирует.
Встречался кто-нибудь? Такое впечатление, что он этим страницам “заведомо бОльшую релевантность” приписал…

“подавление повторений на стадии индексации”

… в Яндексе как-то плохо работает.
Например, по этому запросу, позиция 54 (echo.msk.ru/interview/33150/q.html) – почему не “подавлено”? Подсвечивается нормально
Так тоже ищет нормально
Или запрос нецелевой? 🙂

Зеркалинг Яндекса

К примеру. На этом блоге заметка может выдаваться в виде “для комментариев” ( http://blog.promosite.ru/comments.php?182 ) и в виде “по датам” ( http://blog.promosite.ru/bydate.php?2005-01-03 ). Текст практически одинаковый.
Но. Ищем в Яндексе цитату, например, “XML-вид каталога Яндекса” – пишет, 2 результата еще с сайта.
Однако, заходим в эти 2 результата – показывают один. При этом и одну, и другую страницы он вроде знает.
Похожее и со ссылками: a#link=”www.leningradspb.ru*”[шубы] – 8 страниц, а зайдешь посмотреть – одна, и та уже несколько месяцев как не существует. Черт его поймет.

А щастье было так возможно…

Как сказано в статье Ильи Сегаловича про поиск Яндекса, “на стадии индексации подавляются множественные вхождения запросов, предназначенные для накачки рел-ти” или типа того.
Сначала я забыл про это “на стадии индексации”. Потом до следующего утра думал, что вот, в руках алгоритм Яндекса – не терпелось опробовать. 🙂
Но не вышло. На стадии индексации вырезаются.
***
Что хотел сделать? В “подсветку”, как известно, передается заколдованный запрос пользователя. И id документа (d). И еще что-то (ds).
А зачем туда передавать заколдованный запрос, что, разве нельзя тупо подсветить все слова запроса в документе? Я по определению думал, что должны подсвечиваться все слова – даже не тестил никогда. Потом обалдел, когда увидел, что подсвечены не все слова! Тут и понял, что подсветка идет по найденным пассажам. Т.е., подсветка работает сродни поиску, по тому же алгоритму. Для этого и переколдованный запрос передается.
Сначала подумал, что часть документа выбрасывается как “переоптимизированная”. Но нет, при переформулировании запроса можно добиться подсветки любого словосочетания. Так же при изменении “мягкости” можно тоже подсветить все.
Отличный инструмент получается – что подсвечено, то Яндекс учитывает при ранжировании. А неподсвеченные слова – бесполезны. А если словосочетание обязано быть подсвеченным по операторам контекста, но не подсвечивается – значит, оно вырезано как спаммерское (таких примеров, правда, не видел пока).
Я-то что думал. Ведь при подсветке Яндекс забирает страницу заново с сервера… А ведь ее можно поменять и снова подсветить… И так понять правила “вырезания переоптимизации”. 🙂
Но увы.
Поигрался изменениями. Забавно, Яндекс конец предложения считает только, если после точки слово начинается с большой буквы, а если с маленькой – не считает… В общем, о разделителях можно узнать.
***
Примеров спама с тупыми перечислениями слов запроса напостите, плиз, кому не лень. 🙂