яндекс потерял неделю индексации, что ли?

Яндекс выложил индекс за 2 дня – 17 и 18, в предыдущее выкладывание были выложены 9 и 10 числа.
В промежутке, за 11-15 числа насколько я понимаю, был выложен зарубежный индекс.
А как же русская неделя? 🙂
Это, кстати, не первый раз. Например, между 16 декабря (макс. дата выложенного) и 23 декабря (мин. дата выложенного) тоже неделька потерялась, и тоже количество выложенного (~300-400 тыс сайтов) похоже на зарубежный индекс…
Яндекс зохавал кусок индекса 🙂

Опять зарубежный индекс Яндекса?

Как в прошлый раз, выложили зарубежный индекс Яндекса – 400-500 тыс сайтов с датами за 11-15 февраля.

Точно так же, если проверить запросы вида date="yyyymmdd" domain="com" /(1 1) domain="root" – много сайтов в Я.XML, а date="yyyymmdd" domain="ru" /(1 1) domain="root" – порядка 10 сайтов…

Опять на Серче возмущаются, что Маул ничего не показал 🙂

Может, уже пора делать отдельную анализировалку сделать для зарубежа? 🙂
Это ж просто.

Яндекс: как указать незначащие cgi-параметры роботу

http://webmaster.ya.ru/replies.xml?item_no=3116

Если адреса страниц вашего сайта содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий, пользователей, рефереров и т.д.), вы можете описать их при помощи директивы Clean-param в robots.txt. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Иван Наймушин и команда разработки поискового робота

еще одна фича.

А ведь много уже нафигачили они в роботсе за последнее время.
Из того, что я помню, Crawl-delay и Allow. Но сейчас обнаружил еще и указание Sitemap – чтобы не добавлять спецом в яндекс-вебмастер, удобно, однако – в роботсе указал и все. И использование спецсимволов "*" и "$" – круто, я даже как-то не заметил.

Сколько интересного 🙂

Сегодняшний ап Яндекса – зарубежный индекс?

На сёрче сегодня тема про ап, но говорят, что подвижки маленькие.
Мой апометр ничего не показал, Ивановский тоже.
С другой стороны, Яндекс-вебмастер говорит, что ап.

У меня на апометре за сегодня цифры такие – в час ночи появилось 300-400 тыс. сайтов с датой от 3-5 декабря, в 2 ночи вывалено еще по 300-400 тысяч сайтов за 6-8 декабря.

Но по норме (с датой 2 декабря и раньше) бывает 1.7, 2.8, 3.1 миллиона сайтов. Т.е., это не норма. А у меня как раз чисто по числу сайтов смотрит, там быстроробота еще много подмешивается, поэтому малые числа сайтов апом не считаются. 🙂

А не зарубежный ли это индекс? Смотрим запросы с датой по домену com (это все в XML лучше смотреть):
date="20081203" domain="com" /(1 1) domain="root" – 125 тыс. сайтов
date="20081204" domain="com" /(1 1) domain="root" – 151 тыс. сайтов
date="20081205" domain="com" /(1 1) domain="root" – 169 тыс. сайтов

А по домену ru:
date="20081203" domain="ru" /(1 1) domain="root" – 77! сайтов
date="20081204" domain="ru" /(1 1) domain="root" – 58! сайтов
date="20081205" domain="ru" /(1 1) domain="root" – 111! сайтов

При этом за второе декабря, выложенное в прошлый ап, date="20081202" domain="ru" /(1 1) domain="root" – 455 тыс. сайтов, все штатно.

Так что я думаю, зарубежный индекс выложили. Поэтому и изменения у всех маленькие.

Как, скажите – надо ли в апометр добавлять отдельную пробивку зарубежного и русского индекса, например, таким образом? Или на фиг?

UPD Кажись, начали откатывать – за 5 и 4 декабря в час дня было уже 98-160 сайтов 🙂

Гугль индексирует сканированные PDF

Гугль пишет: http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html

Приведены примеры запросов, сканенные документы в выдаче:
http://www.google.com/search?q=public+statements+iraq
http://www.google.com/search?q=theory+of+interstellar+trade

Интересно, жырнее весит, чем обычный текст? Нагенерить дорвеи-то посложнее будет 🙂 Сейчас все начнут сайты сканированные делать 🙂

via

Гурешовский поисковик “Янга”

на роеме пишут, что Гурешовский поисковик “Янга” не только заработал, но и научился показывать обратные ссылки на сайты
Смешно, что там сейчас написан бесплатный домен http://yanga.net.ru/ , а тов. под ником ludkiewicz смотрел на http://www.yanga.co.uk/ , который был прописан в теме. Меняют на ходу, что ли? Копят восимисят рублей на домен? 🙂

Особенно мне нравится это “не только заработал, но и …”. 🙂 Заработать просто – это вообще достижение.

Кто-то там написал, что малая глубина индексации, хуже, чем у яху. А Гурешов пишет, что “Количество беков будет увеличено в ближайшую неделю в 100 раз”.

Интересно, а что там у Гурешова с Вебальтой? Что-то они стали разбрасываться. Хотя может быть, что у вебальты там куча инвесторов, выибут, есличо. И Гурешов решил свой отдельный личный поисковик сделать? 🙂

Яндекс-вебмастер: переходы и показы сайта

Gray сообщил, что консоли вебмастера появился отчет "Поисковые запросы" – в нем приведены 25 самых популярных запросов, по которым данный сайт показывался, и еще 25 – по которым на сайт переходили из результатов поиска.

Круто. Теперь можно прикидывать и кликабельность разных запросов, и кликабельность разных мест выдачи, и кликабельность разных сниппетов.

Обнаружил, что у запроса "как открыть свое дело" CTR 9-й позиции – ажно целых 10%. Зато у запроса "статистика запросов" CTR 6-й позиции ~ 0.6%. С моими сниппетами, конечно. 🙂

Жаль – 25 топовых показов и переходов маловато :)..

Яндекс-вебмастер: “слишком много ссылок” ~ 3000

Втыкаю в “панель вебмастера”, обнаружил новое забавное.
В разделе “ошибки” есть ошибка под названием: слишком много ссылок. Таких ошибочных нашлось 44 страницы. Это страницы со ссылками на внутренние страницы сайта в большом количестве – такого плана http://www.nomina.ru/current/added.php?date=2008-08-19 Ну а поскольку в некоторые дни доменов регистрируется особо много, то и страницы такие есть.
Там же ссылка на хелп http://help.yandex.ru/webmaster/?id=995304 :

Ошибки обработки
Перечень ошибок, возвращаемых роботами в случае, если дальнейшая обработка загруженного документа (был получен код ответа сервера 200) оказалась невозможной.

Документ содержит мета-тег refresh Документ не индексируется, т. к. содержит мета-тег refresh. Этот тег заставляет страницу обновлять свое содержимое, из-за чего пользователи, найдя ее в поиске, не смогут увидеть текст, который проиндексировал робот.
Документ содержит мета-тег noindex Документ не индексируется, т. к. содержит мета-тег noindex.
Неверная кодировка Документ содержит символы не соответствующие заявленной кодировке.
Документ является логом сервера Документ распознан как лог сервера. Если это страница, созданная для посетителей сайта, попробуйте изменить ее так, чтобы она не была похожа на лог сервера.
Неверный формат документа При анализе документа обнаружено несоответствие документа заявленному формату (html, pdf, doc, rtf, swf, xls, ppt).
Кодировка не распознана Кодировка документа не распознана. Возможно, документ не содержит текста или содержит текст в различных кодировках.
Язык не поддерживается Язык документа не распознан, либо не поддерживается. Поддерживаются русский, украинский, белорусский, английский, французский и немецкий языки.
Слишком много ссылок Количество ссылок на странице превышает допустимый предел.
Ошибка распаковывания Произошла ошибка при распаковывании gzip- или deflate-потока данных с сервера.

Я посмотрел – навскидку на этих “ошибочных” страницах было примерно 3100 ссылок (не считая меню), например: 3213, 3250, 3202, 3283, 3185, 3107, 3198, 3137. Так что “слишком много” – это три тыщи ссылок.
Причем эти страницы, на которых много ссылок – отсутствуют в выдаче. По урлу нет. По тексту не смотрел. То есть – совсем большая ошибка. 🙂
Но если повытыкать в хелп, есть интересные пункты. Например, “Документ является логом сервера”. Уж не статсы ли это вебалайзера? 🙂 Или просто текстовый файл имеется в виду?
Но еще интереснее “Неверная кодировка”: Документ содержит символы не соответствующие заявленной кодировке. Это что же получается – если случайно кто-нибудь наспамил в форму не в той кодировке, документ не проиндексируется? Или, например, поставили сапу на сайт и неправильно кодировку указали? 🙂
Надеюсь, все-таки имеются в виду все символы документа. Хотя на случай части неправильных символов есть “Кодировка не распознана” – Возможно, документ содержит текст в различных кодировках. Мдя. Наспамить в комменты в не тех кодировках и страница вылетит?

В этом хелпе “Ошибки загрузки” тоже интересные.
Размер текста превышает заданный предел – интересно, сколько?
Неверная длина сообщения, Передано неверное количество данных – он как бы хочет сказать нам, что на всякий случай content-length вобще лучше не выдавать? 🙂
Длина HTTP-заголовков превышает предел – Длина HTTP-заголовков превысила предел. Возможно, это вызвано попыткой передать слишком много cookies. – интересно, сколько. Я где-то читал, что 4 килобайта куков поддерживается. Интересно, сколько у яндекса.
Длина URL превышает предел Длина адреса (URL) превышает предел – тоже вроде 4 кб стандартно. Интересно, сколько у яндекса.

Короче – 3000 ссылок – это слишком много. Даже внутренних. 🙂

Такое впечатление, что у Яндекса “сопли” близко

Сопли – supplemental results, как у Гугля.
Есть у меня сайтик, который инфу по доменам ru выдает – и поиск, и группировка, и все такое.
Тыц 20. Но при этом тыце Яндекс наиндексировал 150-160 тысяч страниц. Это страницы с инфой по каждому домену: доменов – то много. Вот и наиндексировал.
Вдруг бац: все выпало, осталось 1600 страниц (держится больше недели, и подросло до 1700). Поиском по сайту остальное не находим.
Ну я думаю: попробую применить прогрессивную технологию sitemap-ов. 🙂 Создал там все, добавил в панель вебмастер.
А сайтмэпы вложенные: один указывает на несколько других, и так пока число урлов больше 10 тысяч (в спецификации 50 тыс. позволяется, но…).
И еще не успел всосаться корневой сайтмэп (там пишется, когда обработан), как уже кажет структуру сайта. И в этой структуре написано, что страниц тех известно 285 тысяч. 🙂
Это точно не из-за сайтмэпов: там еще известны страницы, которых в карте нет и они вообще в роботсе запрещены.

Теперь вот сижу и думаю: либо Яндекс те страницы знает, но просто не кажет (как "не особо важные"), либо реально выпало и просто "вебмастер" старую инфу выдает.
Кстати, вблизи находки это произошло – вполне может быть, сопли ввели. Страницы – то с доменами не изобилуют инфой – правда, и "обвязки" мало.

Хорошо забытое старое-2

Тут несколько месяцев назад я с удивлением обнаружил, что аддурилка стала работать по-другому.
Раньше если сайт не существовал, домен был не делегирован и т.п. – Яндекс отказывался его проверять, и нельзя было понять – забанен он или нет.
А сейчас наоборот. При добавлении в аддурилку:
1. Сначала проверяется зеркалинг. Если на домене был когда-то прописан главным зеркалом урл (с, без) www или редирект – Яндекс ругнется, что "домен такой-то может быть внесен по такому-то адресу".
2. Потом проверяется бан. Если даже домен свободен, его можно проверить на бан ("индексация запрещена")
3. Потом проверяется доступность домена: "не был внесен в базу Яндекса, так как ресурс ***.ru не существует (он неизвестен DNS-серверу)
4 Потом проверяется индексация "уже проиндексирован и доступен для поиска"
5 Потом robots.txt (если домена не существует – тоже ругнется: "не был внесен в базу Яндекса, так как он запрещен к индексации в файле robots.txt, или при обращении к robots.txt сервер вернул ошибку 5xx")
6 Потом ответ сервера ("К сожалению, мы не смогли дождаться ответа от")

А раньше если домена не существовало, проверить на бан было нельзя.