Яндекс-вебмастер: “слишком много ссылок” ~ 3000

Втыкаю в “панель вебмастера”, обнаружил новое забавное.
В разделе “ошибки” есть ошибка под названием: слишком много ссылок. Таких ошибочных нашлось 44 страницы. Это страницы со ссылками на внутренние страницы сайта в большом количестве – такого плана http://www.nomina.ru/current/added.php?date=2008-08-19 Ну а поскольку в некоторые дни доменов регистрируется особо много, то и страницы такие есть.
Там же ссылка на хелп http://help.yandex.ru/webmaster/?id=995304 :

Ошибки обработки
Перечень ошибок, возвращаемых роботами в случае, если дальнейшая обработка загруженного документа (был получен код ответа сервера 200) оказалась невозможной.

Документ содержит мета-тег refresh Документ не индексируется, т. к. содержит мета-тег refresh. Этот тег заставляет страницу обновлять свое содержимое, из-за чего пользователи, найдя ее в поиске, не смогут увидеть текст, который проиндексировал робот.
Документ содержит мета-тег noindex Документ не индексируется, т. к. содержит мета-тег noindex.
Неверная кодировка Документ содержит символы не соответствующие заявленной кодировке.
Документ является логом сервера Документ распознан как лог сервера. Если это страница, созданная для посетителей сайта, попробуйте изменить ее так, чтобы она не была похожа на лог сервера.
Неверный формат документа При анализе документа обнаружено несоответствие документа заявленному формату (html, pdf, doc, rtf, swf, xls, ppt).
Кодировка не распознана Кодировка документа не распознана. Возможно, документ не содержит текста или содержит текст в различных кодировках.
Язык не поддерживается Язык документа не распознан, либо не поддерживается. Поддерживаются русский, украинский, белорусский, английский, французский и немецкий языки.
Слишком много ссылок Количество ссылок на странице превышает допустимый предел.
Ошибка распаковывания Произошла ошибка при распаковывании gzip- или deflate-потока данных с сервера.

Я посмотрел – навскидку на этих “ошибочных” страницах было примерно 3100 ссылок (не считая меню), например: 3213, 3250, 3202, 3283, 3185, 3107, 3198, 3137. Так что “слишком много” – это три тыщи ссылок.
Причем эти страницы, на которых много ссылок – отсутствуют в выдаче. По урлу нет. По тексту не смотрел. То есть – совсем большая ошибка. 🙂
Но если повытыкать в хелп, есть интересные пункты. Например, “Документ является логом сервера”. Уж не статсы ли это вебалайзера? 🙂 Или просто текстовый файл имеется в виду?
Но еще интереснее “Неверная кодировка”: Документ содержит символы не соответствующие заявленной кодировке. Это что же получается – если случайно кто-нибудь наспамил в форму не в той кодировке, документ не проиндексируется? Или, например, поставили сапу на сайт и неправильно кодировку указали? 🙂
Надеюсь, все-таки имеются в виду все символы документа. Хотя на случай части неправильных символов есть “Кодировка не распознана” – Возможно, документ содержит текст в различных кодировках. Мдя. Наспамить в комменты в не тех кодировках и страница вылетит?

В этом хелпе “Ошибки загрузки” тоже интересные.
Размер текста превышает заданный предел – интересно, сколько?
Неверная длина сообщения, Передано неверное количество данных – он как бы хочет сказать нам, что на всякий случай content-length вобще лучше не выдавать? 🙂
Длина HTTP-заголовков превышает предел – Длина HTTP-заголовков превысила предел. Возможно, это вызвано попыткой передать слишком много cookies. – интересно, сколько. Я где-то читал, что 4 килобайта куков поддерживается. Интересно, сколько у яндекса.
Длина URL превышает предел Длина адреса (URL) превышает предел – тоже вроде 4 кб стандартно. Интересно, сколько у яндекса.

Короче – 3000 ссылок – это слишком много. Даже внутренних. 🙂

Такое впечатление, что у Яндекса “сопли” близко

Сопли – supplemental results, как у Гугля.
Есть у меня сайтик, который инфу по доменам ru выдает – и поиск, и группировка, и все такое.
Тыц 20. Но при этом тыце Яндекс наиндексировал 150-160 тысяч страниц. Это страницы с инфой по каждому домену: доменов – то много. Вот и наиндексировал.
Вдруг бац: все выпало, осталось 1600 страниц (держится больше недели, и подросло до 1700). Поиском по сайту остальное не находим.
Ну я думаю: попробую применить прогрессивную технологию sitemap-ов. 🙂 Создал там все, добавил в панель вебмастер.
А сайтмэпы вложенные: один указывает на несколько других, и так пока число урлов больше 10 тысяч (в спецификации 50 тыс. позволяется, но…).
И еще не успел всосаться корневой сайтмэп (там пишется, когда обработан), как уже кажет структуру сайта. И в этой структуре написано, что страниц тех известно 285 тысяч. 🙂
Это точно не из-за сайтмэпов: там еще известны страницы, которых в карте нет и они вообще в роботсе запрещены.

Теперь вот сижу и думаю: либо Яндекс те страницы знает, но просто не кажет (как "не особо важные"), либо реально выпало и просто "вебмастер" старую инфу выдает.
Кстати, вблизи находки это произошло – вполне может быть, сопли ввели. Страницы – то с доменами не изобилуют инфой – правда, и "обвязки" мало.

u3 флешки рулят

Занадобилось флешку купить, старую в фоторамку вставить, пусть фотки показывает.
А за новой – захожу на яндекс маркет, а оно там кажет параметр U3 Smart Drive

USB-накопитель с U3 Smart Drive может использоваться для хранения "рабочего места" пользователя. На такой флэшке можно содержать программы, данные, пароли и настройки пользователя. При работе на компьютере все данные и результаты работы сохраняются непосредственно на U3 Smart Drive и программы также запускаются с него. Вы можете вставить устройство U3 Smart Drive в любой компьютер и продолжить работу, начатую в другом месте.
U3 Smart Drive можно порекомендовать людям, которые используют несколько рабочих мест, например, домашний компьютер и офисный, или много путешествуют.

Короче, идея такая, что с флешки можно запускать софт. То ли автораном, то ли еще как-то запускается программулина, которая прописывает в регистре параметры софта и "монтирует" новый диск, в результате софт запускается с нового диска. А при вытыкании реестр восстанавливается. И все данные хранятся на флешке, история и все такое.
Короче, это гораздо удобнее таскания с собой ноутбучка на отдых, например. Вот асус-ееее-пс многие хвалят. А тут воткнул флешку в инет-кафе, и все работает.
Я сначала опасался, что из-под неадмина работать не будет. Но не работает только если поставлен пароль на флешку, оно то создает диск, то удаляет, короче, не работает. Но если пароля не стоит – из под бесправного юзера работает.
Правда, не всякий софт туда можно поставить, только специально обученный.
Список софта.
Полный джентльменский набор бесплатного софта:
1. Браузер: firefox (+с гугль тулбаром), макстон, опера. Причем я яндекс-бар поставил дополнительно – пришлось его скачать, положить на диск, и с диска запустить. Но это оттого, наверное, что была "ошибка даунлоада", наверное, надо настроить место, куда даунлоадится.
2. Почтовик: thunderbird (пока не пробовал)
3. FTP и SSH клиент (wsftp, putty)
Так-то все, что нужно.
Ну и всякое разное – менеджеры паролей, опеноффис, скайп, миранда (типа вместо аськи можно юзать?), антивирусы, блокноты.

И запоминай в браузере пароли, и в почте, и почту с собой носишь. И настройки сцайтов – короче, все что нужно 🙂
Теоретически на 16 гб они существуют, но в наличии только 8 гб нашел. И стоит не знаю на сколько дороже, но практически столько же, как и обычная флешка.

А вот хранение рабочего места пока не пробовал.
Кстати, бага: при втыкании по моей иконке на десктопе запускается не "старый" файрфокс, а "новый" 🙂

Хорошо забытое старое-2

Тут несколько месяцев назад я с удивлением обнаружил, что аддурилка стала работать по-другому.
Раньше если сайт не существовал, домен был не делегирован и т.п. – Яндекс отказывался его проверять, и нельзя было понять – забанен он или нет.
А сейчас наоборот. При добавлении в аддурилку:
1. Сначала проверяется зеркалинг. Если на домене был когда-то прописан главным зеркалом урл (с, без) www или редирект – Яндекс ругнется, что "домен такой-то может быть внесен по такому-то адресу".
2. Потом проверяется бан. Если даже домен свободен, его можно проверить на бан ("индексация запрещена")
3. Потом проверяется доступность домена: "не был внесен в базу Яндекса, так как ресурс ***.ru не существует (он неизвестен DNS-серверу)
4 Потом проверяется индексация "уже проиндексирован и доступен для поиска"
5 Потом robots.txt (если домена не существует – тоже ругнется: "не был внесен в базу Яндекса, так как он запрещен к индексации в файле robots.txt, или при обращении к robots.txt сервер вернул ошибку 5xx")
6 Потом ответ сервера ("К сожалению, мы не смогли дождаться ответа от")

А раньше если домена не существовало, проверить на бан было нельзя.

Хорошо забытое старое-1

Несколько месяцев назад с удивлением обнаружил, что теперь тИЦ по всем субдоменам, не занесенным в ЯК, не сливается в одно значение, а считается отдельно для каждого субдомена.
Есть, скажем, домен с тысячей субдоменов – на каждый куплено по одной ссылке с сапы. Раньше тИЦ был 60 (общий) – вдруг обнулился (когда стал раздельный).
Ну или вот пример (домены не в ЯК):
http://promosite.ru/ – тиц 250
http://blog.promosite.ru/ – тиц 80
http://tools.promosite.ru/ – тиц 10
nonexistent.promosite.ru – тиц 0

Пора бы уже сапе взять на вооружение и разрешить добавление нескольких субдоменов с одного домена – тИЦ же раздельный теперь.

Странно, что радостных воплей я не услышал по этой теме… Перспективы – можно эффективно выделять ссылки/сайты, дающие тиц 🙂

Яндекс – как образуются темы дня

Выложили презентацию доклада Темы дня в блогах: Как это работает на конференции Russir2008 (Андрей Мищенко, Антон Волнухин)
Интересная статистика:

• Около 200 тысяч записей блогах каждый день
• Около 400 тысяч комментариев в день
• Более 380 миллионов записей всего
• Более 400 миллионов комментариев
• Более 5 миллионов блогов

-получается, в средний блог пишут раз в 25 дней, и у одной записи в среднем 2 каммента. 🙂 Маловато.
Я раньше думал, что каким-то образом классифицируют записи и ссылки в камментах, когда выделяются массовые ссылки или признаки, рассматривают их подробнее. А оказывается, гипотезу человек выдумывает:

• Источники гипотез являются внешними по отношению к системе определения тем дня.
• Записи в блогах работают не как источник тем, а как фильтр гипотез.

Источники гипотез тем дня
• Яндекс.Афиша – названия фильмов, идущих сейчас в кинотеатрах,
• Яндекс.Открытки – названия праздников, недавно прошедших и скоро наступающих,
• НИНИ (Непостоянство Интересов Населения Интернета) запросы к Яндексу,
• Яндекс.Новости – заголовки сюжетов.

Что интересно – показали формулу скорости роста (X=записей сегодня, Y=за предыдущее время) параметр "темовитости": ln(x/y)*(x − y)

Формула «темовитости»
• Вычитание? Плохо. Например, 100 -> 200 и 10000 -> 10500
• Деление? Тоже плохо. Например, 10 -> 30 и 1000 -> 2000
• Нужно подобрать «золотую середину».
ln(x/y)*(x − y)

Склейка разных тем делается через похожесть списков записей в блогах по этим темам:

• Как установить связь между двумя гипотезами, не имеющими ничего общего в смысле текста? Снова с помощью поискового индекса.
• Если две гипотезы тем дня часто встречаются в одних и тех же записях, – это с большой вероятностью об одном и том же

via

Об автобанах

Народ на сёрче регулярно жалуется на автобан, вот например: Автобан за CMsimple.
Тут же часть народа рапортует – мол, точно бан, столько-то сайтов забанено! Другая часть не менее бодро отчитывает тех – мол, за цмски не банят!
🙂
Сэры, не надо забывать, что общая идея яндекса – обучение программ. Например, есть сайтик, заходит на него асессор – и помечает как спам или как нормальный сайт. А потом железный компьютер думает – есть набор сайтов и набор меток. И у каждого сайта набор признаков.
И цель состоит в том, чтобы каждому признаку или совокупности признаков (какие они?) сопоставить сколько-то спаммерских баллов. И, например: превысил границу по баллам – автобан.
А почему бы отдельные элементы кода (или там структуру сайта) и элементы сайта (отсутствие цифирок, похожих на телефон, отсутствие контактных мейлов, форм обратной связи) не считать такими признаками? И они бы добавили свой балл в общую спамность сайта.
И по совокупности – бан.
Таким признаком может быть и общее большое число внешних ссылок. 🙂

Жадин надо отключать, точно.

Еще в тему обсуждения, нужно ли отключать жадных рекламодателей в контекстной рекламе.

Все уже упарились друг другу всякие аргументы приводить.

А вот мне пришло на ум доказательство того, что надо отключать. Довольно простое. 🙂

1. Если рекл завел рекламную кампанию и кинул бабла, будет ли откручено его бабло? Ответ: будет.
2. Если рекламодетель жадный и выставил низкую цену за клик, будет ли откручено его бабло, даже при малом отклике и полной опущенности его объяв? Ответ: все равно будет. Только показов потребуется больше.

Всё. Ответ очевиден – как ни крути эффективностью и не извращайся, все равно есть хорошие объявы и есть плохие – что влияет на CTR. И еще есть дорогие объявы и есть дешевые – что влияет на доход площадки. Конечно, улучшение кликабельности возможно за счет соответствия текстов страницы, тематик сайта, поведенческого таргетинга – но всему есть предел.

И даже плохая объява с малой ценой клика открутится все равно.

Так пусть она открутится у <strike>каких-нибудь мудаков</strike>беззаботных вебмастеров, которые верят в "эффективность" контекстных систем и их "ум".

Надо отключать жадин.
***
Единственный вопрос остается – в соотношении потраченного геморроя и полученной выгоды. Ну – только крупных жадин будут отключать. 🙂

Об отключении рекламодателей: Денис Иванов vs Yukko

Тов. Иванов написал мегастатью на тему – почему не следует отключать дешевых рекламодателей.. Все ахнули и сказали спасибо.

С одной стороны как бы очевидно, что рекламная сеть (как с Гугла повелось) ранжирует объявления по убыванию произведения CTR*(цена клика). Т.к. это произведение – пропорционально скорости истечения бабла из кармана рекламодателя. Теоретически.

Но вот тов. Yukko остро подметил, что:

Хелп, на который ты ссылаешься, предназначен для рекламодателей. С точки зрения РСЯ там все логично:
чем лучше CPM объявления (ctr*bid*1000) тем больше и быстрее денег уйдет от рекламодателя в Яндекс.

Владельцам площадок же абсолютно по барабану, какой CPM или, как ты выражаешься, «средний CPM» имеет конкретное объявление, конкретного рекламодателя. Вебмастера волнует эффективный CPM страниц своего сайта, а это средний доход с 1000 показов рекламных объявлений.

Стоит отметить, что рекомендации вебмастерам по увеличению eCPM страниц их сайтов могут быть отличными от рекомендаций рекламодателю по увеличению CPM их объявлений.

В общем, надежда на мудрость крутилки рекламы – это, конечно, хорошо… Но.

Ежу понятно, что ресурс, которым обладает вебмастер – это таки показы. А вовсе не клики. И именно выхлоп с показов ему надо максимизировать.

Я слышал такой термин – "рынок продавца" или "рынок покупателя". Ну, это значит – кто в дефиците – тот и рулит. Так примерно то же обязательно есть и в вебе – рынок рекламодателя (их мало, вебмастера грызутся, цена низкая) или рынок вебмастера (цены высокие, просмотров мало, а рекламы много).

Понятное дело, что в двух таких разных случаях оптимальные стратегии разные. Например, если рынок рекламодателя – то площадке надо показывать что дают и не чирикать. А если рынок вебмастера – выгодно вырезать жадин из рекламы.

Ну тут еще осложняется все дело тем, что в разных областях (=по разным запросам) реальность может быть разной. Например, развлекательная тема, знакомства – показов куча, а систем всего две – рекламироваться хрен кого заставишь – рынок рекламодателя. Наоборот, узкие профессиональные услуги – наоборот, площадок и тематических показов мало.

Это не говоря уже о том, что действительно могут быть "выгодные" и "невыгодные" пары площадка – объявление. Невыгодные, конечно, логично отключить – а кто его знает лучше, чем владелец площадки…

Кстати, в блоге Иванова у них прямо дискуссия, достойная оформления в виде статьи.