Опять зарубежный индекс Яндекса?

Как в прошлый раз, выложили зарубежный индекс Яндекса – 400-500 тыс сайтов с датами за 11-15 февраля.

Точно так же, если проверить запросы вида date="yyyymmdd" domain="com" /(1 1) domain="root" – много сайтов в Я.XML, а date="yyyymmdd" domain="ru" /(1 1) domain="root" – порядка 10 сайтов…

Опять на Серче возмущаются, что Маул ничего не показал 🙂

Может, уже пора делать отдельную анализировалку сделать для зарубежа? 🙂
Это ж просто.

я не верю в PhantomOS

Тов. Завалишин, оказывается, еще в прошлом веке 🙂 начал разработку новой ОСи – Фантом. Как я понял, вопли в рунете начались после того, как про это дело написали theregister и slashdot.
Срач на хабре по этому поводу не особо интересен… Понятно, что сразу возникают вопросы, типа а вы пиаритесь – пилите бабло – почему нет прототипа – что лучше, ява или си и сколько плюсов там нужно и т.п.
А вот на срач на роеме интереснее. Там выступил тов. Готовцев, сказав какую-то длинную непонятную отмазку… Но ему там припомнили провалившийся Кетчуп (а я ведь и сам помню – он на КИБе сказал, что "скоро появится кетчуп, который всех сожрет", но он сдох и никого не сожрал, а вместо этого мы слушаем рассказы – типа у кетчупа были другие цели… ну да ладно).
Ну, в общем, все такие красивые.
***
Я сам-то натуральный быдлокодер. 🙂 Я читал две книжки по перлу – первая была ценна только тем, что в ней было написано, как скриптом читать GET и POST переменные, вторая уже была справочник. По пхп читал только сайт php.net, его после перла хватает. 🙂 Ну и mysql.org.
Главное, что все работает. 🙂
***
Как я понял, основная идея Фантома – в "бессмертии" программ. Есть некая общая память, а нет отдельно оперативки и диска. Типа, если выдернуть питание, сохранится некий образ работающей системы, всех программ. И при включении он будет работать.
Только эта идея, как я понял, придумывалась в прошлом веке :), когда Винды только и делали, что падали. И переставлялись. И программы тоже.
Так что была прикольная идея.
Но эта идея рассчитана на "идеальных сферических программистов в вакууме", которые пишут проги без ошибок. У программ бывают утечки памяти, конфликты за всякие права доступа к файлам, прерывания берут и не возвращают… И еще, наверное, куча всего.
Но винды перестали падать. А падает уровень программистов. И ошибок в программах будет больше. И это нормально, зато куча разного софта появилась.
И представьте себе "вечно живую" программу, которая засирает память. Вечно. 🙂
В общем, я в PhantomOS не верю. Я бы, наоборот, поверил в ОСь, которая принудительно заставляет программы выгружаться и очищать память, а потом снова загружаться 🙂 Чтобы говна меньше оставалось.

Яндекс: как указать незначащие cgi-параметры роботу

http://webmaster.ya.ru/replies.xml?item_no=3116

Если адреса страниц вашего сайта содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий, пользователей, рефереров и т.д.), вы можете описать их при помощи директивы Clean-param в robots.txt. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Иван Наймушин и команда разработки поискового робота

еще одна фича.

А ведь много уже нафигачили они в роботсе за последнее время.
Из того, что я помню, Crawl-delay и Allow. Но сейчас обнаружил еще и указание Sitemap – чтобы не добавлять спецом в яндекс-вебмастер, удобно, однако – в роботсе указал и все. И использование спецсимволов "*" и "$" – круто, я даже как-то не заметил.

Сколько интересного 🙂

Об склейке

В камментах у Носика феерическое количество "чудаков", каждый имеет собственное мнение 🙂, причем авторитетно обосновывает 🙂
По вопросу – надо ли редиректить на один субдомен с алиасов.

Спор интернетчика с оптимизатором
На bfm.ru стоит принудительный редирект.
Он ведёт на www.bfm.ru
Меня это совершенно бесит, и я потребовал, чтобы человек, набравший http://bfm.ru/ , туда же и попадал бы, без мозгоебли.
На что оптимизатор категорически возражает, говоря, что мы рискуем некорректной склейкой в Яндексе и потерей части поисковых переходов.

Я походил по сайтам, проверил.
На РБК стоит редирект на www.rbc.ru. На Ведомостях тоже. На Ленте.Ру и Коммерсанте редиректа нет.
Учитывая PageRank=8, который у четырёх перечисленных изданий одинаков, эти примеры ничему не учат.

Какие будут мнения?

Носик, конечно, тоже молодец, "учитывая PR=8" сказать ничего нельзя, это вообще не об этом.
Там и Апач отметился, и преподаватель Каширин 🙂 Неправы.
И Попков. Он прав, имха. Надо редиректить.

Это ж несложно – взял, прописал в хтакцессе, и все. И работает гарантированно во всех поисковиках, а вот директива Host – во первых, только для Яндекса, и во вторых, кривизна склеек у яндекса велика.
Машинам вообще доверять западло, надеяться на правильную работу яндекса – лучше самому что-то сделать. 2 варианта директивы лучше одного.

Особенно это важно для сайтов с быстро меняющимся контентом. Если просто строчку случайную в индексную страницу добавить – и то расклеит две морды / и /index…

Хотя если новостной ресурс хорошую долю трафика получает с поиска – ресурс говно по определению. Новостные ресурсы вообще от поиска не должны зависеть, на них должны из закладок или набором ходить.

И ведь подстановка в адресной строке при наборе "bf*" сама выпихивает сайт "www.bfm.ru", т.е., даже для набора разницы нет.

И куча набежала каких-то придурков, которые про анахронизм начали болтать… Привычный анахронизм становится стандартом де-факто 🙂

PS И Анатоликс отметился с камментом "в robots.txt есть директива хост которая говорит поисковикам какое зеркало главное", только он, наверное, забыл, что кроме Яндекса еще другие поисковики существуют 🙂 Это похоже на "дефолт-сити" – Яндекс – дефаулт-поисковик.

Сегодняшний ап Яндекса – зарубежный индекс?

На сёрче сегодня тема про ап, но говорят, что подвижки маленькие.
Мой апометр ничего не показал, Ивановский тоже.
С другой стороны, Яндекс-вебмастер говорит, что ап.

У меня на апометре за сегодня цифры такие – в час ночи появилось 300-400 тыс. сайтов с датой от 3-5 декабря, в 2 ночи вывалено еще по 300-400 тысяч сайтов за 6-8 декабря.

Но по норме (с датой 2 декабря и раньше) бывает 1.7, 2.8, 3.1 миллиона сайтов. Т.е., это не норма. А у меня как раз чисто по числу сайтов смотрит, там быстроробота еще много подмешивается, поэтому малые числа сайтов апом не считаются. 🙂

А не зарубежный ли это индекс? Смотрим запросы с датой по домену com (это все в XML лучше смотреть):
date="20081203" domain="com" /(1 1) domain="root" – 125 тыс. сайтов
date="20081204" domain="com" /(1 1) domain="root" – 151 тыс. сайтов
date="20081205" domain="com" /(1 1) domain="root" – 169 тыс. сайтов

А по домену ru:
date="20081203" domain="ru" /(1 1) domain="root" – 77! сайтов
date="20081204" domain="ru" /(1 1) domain="root" – 58! сайтов
date="20081205" domain="ru" /(1 1) domain="root" – 111! сайтов

При этом за второе декабря, выложенное в прошлый ап, date="20081202" domain="ru" /(1 1) domain="root" – 455 тыс. сайтов, все штатно.

Так что я думаю, зарубежный индекс выложили. Поэтому и изменения у всех маленькие.

Как, скажите – надо ли в апометр добавлять отдельную пробивку зарубежного и русского индекса, например, таким образом? Или на фиг?

UPD Кажись, начали откатывать – за 5 и 4 декабря в час дня было уже 98-160 сайтов 🙂

мой доклад на конфе выложен

14-го мой доклад на ашмановской конфе 2008, и презентация – выложены на bdbd.ru
Необычно как-то в пдфе. 🙂

‘Использование особенностей языка запросов поиска Яндекса для исследований’
Евгений Трофименко (начальник отдела исследований и аналитики, ‘Корпорация РБС’)
Яндекс – не только наиболее популярный поисковик в Рунете, но и наиболее открытый к исследованиям его алгоритмов. Рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения. Отдельные элементы переформулировки запросов Яндексом, полезные для оптимизации сайтов.

Основные пунктики:
1. отбор НПС-результатов [слово -слово”>
2. вычистка НПС, оценка доли НПС [запрос ~~абракадабра”>
3. исследование расширения запросов операторами исключения
4. отмена контекстных ограничений в новом колдунщике (точнее, колдунщика вообще нет больше)

API Яндекс.Карт

Яндекс.Карты апи запустили: http://api.yandex.ru/maps/
Сразу увидел прикольные слова:

Геокодер — сервис для определения координат географических объектов по их названиям или адресам.

Вроде в гугле такого не видел, хотя м.б. невнимательно читал, полюбому английский язык – зло, переводить и думать надо 🙂
Я как раз придумал, что по названиям Google maps тоже объекты выдает, и их можно парсить… А тут фича.

Тезисы мои у ашмановцев – неправильные :(

Официально заявляю, что тезисы моего доклада, опубликованные у ашманова на программе конференции – полное фуфло, я такого не писал (название доклада правильное, ‘Использование особенностей языка запросов поиска Яндекса для исследований’):

Конкурентность тематик в поисковой выдаче Google. Наличие поискового спама. Отличия алгоритма работы в англоязычном и русскоязычном сегменте.

Это все хрень собачья, я такого не писал. Не знаю, из какой жопы этот текст взялся.
Правильные тезисы звучат так:

Яндекс – не только наиболее популярный поисковик в рунете, но и наиболее открытый к исследованиям его алгоритмов. Рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения. Отдельные элементы переформулировки запросов Яндексом, полезные для оптимизации сайтов.

Откуда там вообще гугль взялся???

Как я это нашел: сегодня в ленте у sonja прочитал и сильно удивился..

И ведь это хрен знает сколько там висит…

PS Про гугль у меня ничего не будет, короче.
PPS Особенно радует "соответствие" названия доклада и тезисов. Там про яндекс, а тут вдруг про гугль.

Гугль индексирует сканированные PDF

Гугль пишет: http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html

Приведены примеры запросов, сканенные документы в выдаче:
http://www.google.com/search?q=public+statements+iraq
http://www.google.com/search?q=theory+of+interstellar+trade

Интересно, жырнее весит, чем обычный текст? Нагенерить дорвеи-то посложнее будет 🙂 Сейчас все начнут сайты сканированные делать 🙂

via