http://www.google.com/brains – 404 Not Found

Тов. Мэтт Катс сообщает, что Google protects itself from zombies – типа у него в robots.txt написано:

User-agent: zombies
Disallow: /brains

Смешно. А я попробовал зайти на http://www.google.com/brains – 404 Not Found.

Мозги у гугля не найдены, короче. 🙂

Гурешовский поисковик “Янга”

на роеме пишут, что Гурешовский поисковик “Янга” не только заработал, но и научился показывать обратные ссылки на сайты
Смешно, что там сейчас написан бесплатный домен http://yanga.net.ru/ , а тов. под ником ludkiewicz смотрел на http://www.yanga.co.uk/ , который был прописан в теме. Меняют на ходу, что ли? Копят восимисят рублей на домен? 🙂

Особенно мне нравится это “не только заработал, но и …”. 🙂 Заработать просто – это вообще достижение.

Кто-то там написал, что малая глубина индексации, хуже, чем у яху. А Гурешов пишет, что “Количество беков будет увеличено в ближайшую неделю в 100 раз”.

Интересно, а что там у Гурешова с Вебальтой? Что-то они стали разбрасываться. Хотя может быть, что у вебальты там куча инвесторов, выибут, есличо. И Гурешов решил свой отдельный личный поисковик сделать? 🙂

rusppc vs Valez

Лол.
Некий русппц (я уже в них запутался уже) написал мегажалобу на всё и вся на тему "Яндекс и Google не любят блогхостинги". 🙂

Проведено и успешно провалено 2 эксперимента с блогхостингами.

Суть первого заключалась в создании на LiveJournal сетки автонаполняемых сплогов и использовании её в последствии в качестве трамплина для быстрого пуска своих MFS/MFA сайтов. Была создана тестовая сеточка на 100 ЖЖ-аккаунтов, записи на автомате по расписанию подло импортировались из другого заведомо нелюбимого Яндексом блогхостинга. Сетка перелинковывалась между собой рандомно постовыми. По истечении месяца в индексе Яндекса не обнаружено присутсвия ни одного аккаунта!

А между тем недавно Valez (то ли создатель лирушных блогов, то ли типа того), написал, что лиру вопасносте – "копии наших дневников, сделанные ботами в ЖЖ".

Непонятно до конца с какими целями, ради накрутки числа записей в блог.яндексе, которая, безусловно, существует или ради влияния на рейтинги авторитетности в том же блог.яндексе происходят такие вещи, о которых я не могу не сказать сразу же, как узнал сам.

я-Михаил обнаружил, что в livejournal создаются копии дневников, думаю не только нашего сайта, а вообще любых дневников. Вот найденные им примеры

Прикольно. Вот бы кто бы из доброжелателей послал Валезу координаты русппц. 🙂

Яндекс-вебмастер: переходы и показы сайта

Gray сообщил, что консоли вебмастера появился отчет "Поисковые запросы" – в нем приведены 25 самых популярных запросов, по которым данный сайт показывался, и еще 25 – по которым на сайт переходили из результатов поиска.

Круто. Теперь можно прикидывать и кликабельность разных запросов, и кликабельность разных мест выдачи, и кликабельность разных сниппетов.

Обнаружил, что у запроса "как открыть свое дело" CTR 9-й позиции – ажно целых 10%. Зато у запроса "статистика запросов" CTR 6-й позиции ~ 0.6%. С моими сниппетами, конечно. 🙂

Жаль – 25 топовых показов и переходов маловато :)..

Яндекс-вебмастер: “слишком много ссылок” ~ 3000

Втыкаю в “панель вебмастера”, обнаружил новое забавное.
В разделе “ошибки” есть ошибка под названием: слишком много ссылок. Таких ошибочных нашлось 44 страницы. Это страницы со ссылками на внутренние страницы сайта в большом количестве – такого плана http://www.nomina.ru/current/added.php?date=2008-08-19 Ну а поскольку в некоторые дни доменов регистрируется особо много, то и страницы такие есть.
Там же ссылка на хелп http://help.yandex.ru/webmaster/?id=995304 :

Ошибки обработки
Перечень ошибок, возвращаемых роботами в случае, если дальнейшая обработка загруженного документа (был получен код ответа сервера 200) оказалась невозможной.

Документ содержит мета-тег refresh Документ не индексируется, т. к. содержит мета-тег refresh. Этот тег заставляет страницу обновлять свое содержимое, из-за чего пользователи, найдя ее в поиске, не смогут увидеть текст, который проиндексировал робот.
Документ содержит мета-тег noindex Документ не индексируется, т. к. содержит мета-тег noindex.
Неверная кодировка Документ содержит символы не соответствующие заявленной кодировке.
Документ является логом сервера Документ распознан как лог сервера. Если это страница, созданная для посетителей сайта, попробуйте изменить ее так, чтобы она не была похожа на лог сервера.
Неверный формат документа При анализе документа обнаружено несоответствие документа заявленному формату (html, pdf, doc, rtf, swf, xls, ppt).
Кодировка не распознана Кодировка документа не распознана. Возможно, документ не содержит текста или содержит текст в различных кодировках.
Язык не поддерживается Язык документа не распознан, либо не поддерживается. Поддерживаются русский, украинский, белорусский, английский, французский и немецкий языки.
Слишком много ссылок Количество ссылок на странице превышает допустимый предел.
Ошибка распаковывания Произошла ошибка при распаковывании gzip- или deflate-потока данных с сервера.

Я посмотрел – навскидку на этих “ошибочных” страницах было примерно 3100 ссылок (не считая меню), например: 3213, 3250, 3202, 3283, 3185, 3107, 3198, 3137. Так что “слишком много” – это три тыщи ссылок.
Причем эти страницы, на которых много ссылок – отсутствуют в выдаче. По урлу нет. По тексту не смотрел. То есть – совсем большая ошибка. 🙂
Но если повытыкать в хелп, есть интересные пункты. Например, “Документ является логом сервера”. Уж не статсы ли это вебалайзера? 🙂 Или просто текстовый файл имеется в виду?
Но еще интереснее “Неверная кодировка”: Документ содержит символы не соответствующие заявленной кодировке. Это что же получается – если случайно кто-нибудь наспамил в форму не в той кодировке, документ не проиндексируется? Или, например, поставили сапу на сайт и неправильно кодировку указали? 🙂
Надеюсь, все-таки имеются в виду все символы документа. Хотя на случай части неправильных символов есть “Кодировка не распознана” – Возможно, документ содержит текст в различных кодировках. Мдя. Наспамить в комменты в не тех кодировках и страница вылетит?

В этом хелпе “Ошибки загрузки” тоже интересные.
Размер текста превышает заданный предел – интересно, сколько?
Неверная длина сообщения, Передано неверное количество данных – он как бы хочет сказать нам, что на всякий случай content-length вобще лучше не выдавать? 🙂
Длина HTTP-заголовков превышает предел – Длина HTTP-заголовков превысила предел. Возможно, это вызвано попыткой передать слишком много cookies. – интересно, сколько. Я где-то читал, что 4 килобайта куков поддерживается. Интересно, сколько у яндекса.
Длина URL превышает предел Длина адреса (URL) превышает предел – тоже вроде 4 кб стандартно. Интересно, сколько у яндекса.

Короче – 3000 ссылок – это слишком много. Даже внутренних. 🙂

Такое впечатление, что у Яндекса “сопли” близко

Сопли – supplemental results, как у Гугля.
Есть у меня сайтик, который инфу по доменам ru выдает – и поиск, и группировка, и все такое.
Тыц 20. Но при этом тыце Яндекс наиндексировал 150-160 тысяч страниц. Это страницы с инфой по каждому домену: доменов – то много. Вот и наиндексировал.
Вдруг бац: все выпало, осталось 1600 страниц (держится больше недели, и подросло до 1700). Поиском по сайту остальное не находим.
Ну я думаю: попробую применить прогрессивную технологию sitemap-ов. 🙂 Создал там все, добавил в панель вебмастер.
А сайтмэпы вложенные: один указывает на несколько других, и так пока число урлов больше 10 тысяч (в спецификации 50 тыс. позволяется, но…).
И еще не успел всосаться корневой сайтмэп (там пишется, когда обработан), как уже кажет структуру сайта. И в этой структуре написано, что страниц тех известно 285 тысяч. 🙂
Это точно не из-за сайтмэпов: там еще известны страницы, которых в карте нет и они вообще в роботсе запрещены.

Теперь вот сижу и думаю: либо Яндекс те страницы знает, но просто не кажет (как "не особо важные"), либо реально выпало и просто "вебмастер" старую инфу выдает.
Кстати, вблизи находки это произошло – вполне может быть, сопли ввели. Страницы – то с доменами не изобилуют инфой – правда, и "обвязки" мало.

u3 флешки рулят

Занадобилось флешку купить, старую в фоторамку вставить, пусть фотки показывает.
А за новой – захожу на яндекс маркет, а оно там кажет параметр U3 Smart Drive

USB-накопитель с U3 Smart Drive может использоваться для хранения "рабочего места" пользователя. На такой флэшке можно содержать программы, данные, пароли и настройки пользователя. При работе на компьютере все данные и результаты работы сохраняются непосредственно на U3 Smart Drive и программы также запускаются с него. Вы можете вставить устройство U3 Smart Drive в любой компьютер и продолжить работу, начатую в другом месте.
U3 Smart Drive можно порекомендовать людям, которые используют несколько рабочих мест, например, домашний компьютер и офисный, или много путешествуют.

Короче, идея такая, что с флешки можно запускать софт. То ли автораном, то ли еще как-то запускается программулина, которая прописывает в регистре параметры софта и "монтирует" новый диск, в результате софт запускается с нового диска. А при вытыкании реестр восстанавливается. И все данные хранятся на флешке, история и все такое.
Короче, это гораздо удобнее таскания с собой ноутбучка на отдых, например. Вот асус-ееее-пс многие хвалят. А тут воткнул флешку в инет-кафе, и все работает.
Я сначала опасался, что из-под неадмина работать не будет. Но не работает только если поставлен пароль на флешку, оно то создает диск, то удаляет, короче, не работает. Но если пароля не стоит – из под бесправного юзера работает.
Правда, не всякий софт туда можно поставить, только специально обученный.
Список софта.
Полный джентльменский набор бесплатного софта:
1. Браузер: firefox (+с гугль тулбаром), макстон, опера. Причем я яндекс-бар поставил дополнительно – пришлось его скачать, положить на диск, и с диска запустить. Но это оттого, наверное, что была "ошибка даунлоада", наверное, надо настроить место, куда даунлоадится.
2. Почтовик: thunderbird (пока не пробовал)
3. FTP и SSH клиент (wsftp, putty)
Так-то все, что нужно.
Ну и всякое разное – менеджеры паролей, опеноффис, скайп, миранда (типа вместо аськи можно юзать?), антивирусы, блокноты.

И запоминай в браузере пароли, и в почте, и почту с собой носишь. И настройки сцайтов – короче, все что нужно 🙂
Теоретически на 16 гб они существуют, но в наличии только 8 гб нашел. И стоит не знаю на сколько дороже, но практически столько же, как и обычная флешка.

А вот хранение рабочего места пока не пробовал.
Кстати, бага: при втыкании по моей иконке на десктопе запускается не "старый" файрфокс, а "новый" 🙂

Хорошо забытое старое-2

Тут несколько месяцев назад я с удивлением обнаружил, что аддурилка стала работать по-другому.
Раньше если сайт не существовал, домен был не делегирован и т.п. – Яндекс отказывался его проверять, и нельзя было понять – забанен он или нет.
А сейчас наоборот. При добавлении в аддурилку:
1. Сначала проверяется зеркалинг. Если на домене был когда-то прописан главным зеркалом урл (с, без) www или редирект – Яндекс ругнется, что "домен такой-то может быть внесен по такому-то адресу".
2. Потом проверяется бан. Если даже домен свободен, его можно проверить на бан ("индексация запрещена")
3. Потом проверяется доступность домена: "не был внесен в базу Яндекса, так как ресурс ***.ru не существует (он неизвестен DNS-серверу)
4 Потом проверяется индексация "уже проиндексирован и доступен для поиска"
5 Потом robots.txt (если домена не существует – тоже ругнется: "не был внесен в базу Яндекса, так как он запрещен к индексации в файле robots.txt, или при обращении к robots.txt сервер вернул ошибку 5xx")
6 Потом ответ сервера ("К сожалению, мы не смогли дождаться ответа от")

А раньше если домена не существовало, проверить на бан было нельзя.

Хорошо забытое старое-1

Несколько месяцев назад с удивлением обнаружил, что теперь тИЦ по всем субдоменам, не занесенным в ЯК, не сливается в одно значение, а считается отдельно для каждого субдомена.
Есть, скажем, домен с тысячей субдоменов – на каждый куплено по одной ссылке с сапы. Раньше тИЦ был 60 (общий) – вдруг обнулился (когда стал раздельный).
Ну или вот пример (домены не в ЯК):
http://promosite.ru/ – тиц 250
http://blog.promosite.ru/ – тиц 80
http://tools.promosite.ru/ – тиц 10
nonexistent.promosite.ru – тиц 0

Пора бы уже сапе взять на вооружение и разрешить добавление нескольких субдоменов с одного домена – тИЦ же раздельный теперь.

Странно, что радостных воплей я не услышал по этой теме… Перспективы – можно эффективно выделять ссылки/сайты, дающие тиц 🙂

Яндекс – как образуются темы дня

Выложили презентацию доклада Темы дня в блогах: Как это работает на конференции Russir2008 (Андрей Мищенко, Антон Волнухин)
Интересная статистика:

• Около 200 тысяч записей блогах каждый день
• Около 400 тысяч комментариев в день
• Более 380 миллионов записей всего
• Более 400 миллионов комментариев
• Более 5 миллионов блогов

-получается, в средний блог пишут раз в 25 дней, и у одной записи в среднем 2 каммента. 🙂 Маловато.
Я раньше думал, что каким-то образом классифицируют записи и ссылки в камментах, когда выделяются массовые ссылки или признаки, рассматривают их подробнее. А оказывается, гипотезу человек выдумывает:

• Источники гипотез являются внешними по отношению к системе определения тем дня.
• Записи в блогах работают не как источник тем, а как фильтр гипотез.

Источники гипотез тем дня
• Яндекс.Афиша – названия фильмов, идущих сейчас в кинотеатрах,
• Яндекс.Открытки – названия праздников, недавно прошедших и скоро наступающих,
• НИНИ (Непостоянство Интересов Населения Интернета) запросы к Яндексу,
• Яндекс.Новости – заголовки сюжетов.

Что интересно – показали формулу скорости роста (X=записей сегодня, Y=за предыдущее время) параметр "темовитости": ln(x/y)*(x − y)

Формула «темовитости»
• Вычитание? Плохо. Например, 100 -> 200 и 10000 -> 10500
• Деление? Тоже плохо. Например, 10 -> 30 и 1000 -> 2000
• Нужно подобрать «золотую середину».
ln(x/y)*(x − y)

Склейка разных тем делается через похожесть списков записей в блогах по этим темам:

• Как установить связь между двумя гипотезами, не имеющими ничего общего в смысле текста? Снова с помощью поискового индекса.
• Если две гипотезы тем дня часто встречаются в одних и тех же записях, – это с большой вероятностью об одном и том же

via