Лиза, я обдумал свой комментарий

вот к этому: http://www.searchengines.ru/seoblog/archives/2010/09/aaaa_eoi_ia_n_i.html

я бы предпочел не касаться этого даже восемнадцатиметровой палкой

🙂

***
вот же дебилы, надо ж такое написать, это ж ахтунг какой-то ))

***
Виталий, тебя оценили ))

xml – запросы без указания параметров user и key

http://xml.yandex.ru/stat.xml

Внимание! В скором времени запросы старого вида к http://xmlsearch.yandex.ru/xmlsearch (без указания параметров user и key) перестанут поддерживаться. Если вы используете запросы к сервису Яндекс.XML в своих скриптах или программах, измените адрес на указанный в рамке “Ваш адрес для совершения запроса”.

написали бы сразу, в каком именно времени…
Мониторют.

правильный график с запросами

По вертикальной оси – сколько раз запрос попал в базу, ~частотности
По горизонтальной – номер запроса при упорядочении по убыванию.
Без морфологии, первая тысяча

На частотных запросах (начало графика, первые 50) отклонения вниз от прямой (прямая должна была бы быть Зипфом, но степень не -1, а -0.7).
Т.е. частотные запросы спрашивают меньше, чем должны были бы по Зипфу.

Если аппроксимацию нарисовать по номерам от 50 до 1000, то все равно не Зипф, степень -0.75:

кстати, для частотности запросов

по горизонтальной оси – сколько раз встретился запрос в базе (уникальность).
по вертикальной – сколько таких запросов было.

Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.

задачка про вероятности

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.
И накопилось около 40 млн. уникальных запросов.
Из которых только 10 млн. запросов попали в базу 2 и больше раза.
Из которых 4.7 млн. запросов попали в базу 3 и больше раза
Из которых 3.3 млн. запросов попали в базу 4 и больше раза
и т.д.
Очевидно, что те запросы, которые попали в базу один раз – не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться – но узнать это можно только потом.
Но и те запросы, которые попали в базу пару раз – не очень хорошо соответствуют вордстату.
Те, которые три раза – получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.
***
И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.
***
И думаю: может, задача-то стандартная и уже давно решена?

+апы геопривязки в tools.promosite.ru = апдейт апометра

Изменения в апометре:

1. сменил название: загадочный “метод комдира” на понятный “апдейт сохраненки”. 🙂

2. добавил апдейты гео.
Как определяется – есть набор регионов, по региону ищем разные запросы (типа domain, rhost – для уменьшения числа найденных сайтов до 1-20 тыс., чтобы прюнинг не находил “много”, а находил поточнее). По каждому региону ищем с параметром rstr.

===немножко стран:
Россия
Общероссийские
Украина
Беларусь
США
Европа

===и немножко городов:
Москва
Санкт-Петербург
Екатеринбург
Челябинск
Владивосток

И (сюрприз!) в районе 4-5 утра число найденных страниц прилично меняется, приличным я считаю изменение на 1% и изменение по 3 регионам из 11. Я отмечаю это в апометре как “апдейт геопривязки”.

Начал собирать данные раз в 10 минут с начала июля, а сейчас воткнул в апометр.

К тому же (сюрприз!) больше половины происшедших за то время “изменений без выкладывания индекса” происходили из-за (вместе с) изменения в геопривязке (ну, без выкладывания индекса, ессно) – http://tools.promosite.ru/updates/
А из оставшейся половины еще несколько случаев, когда число геопривязанных страниц меняется в 16-20 вечера одного дня, а на другой день я пробиваю утром и вижу изменение выдачи. Это те случаи, когда на серче начинаются крики про апдейт вечером, и что сеопульт показывает шторм 🙂

Общее число геопривязанных страниц не всегда увеличивается, часто и уменьшается тоже. Конечно, привязываются сайты, просто на страницах изменения лучше видны.

И вопросы – какую стату еще выводить? например, можно по отдельным регионам из перечисленных писать, чо как поменялось.

Изменение числа страниц считается так – новое число страниц делим на старое по каждому региону, из полученных 11 чисел берем среднее геометрическое. Абсолютное изменение – это когда одно их 11 отношений меньше 1, берем вместо него 1/x.

PS грядут другие апдейты апометра.

PPS еще один сюрприз – за это время был один случай, когда геопривязку откатили обратно, числа вернулись, я его удалил, но все может повторяться.

чо, яндексу ппц?

обхомутали?

«Яндекс» нашел Волошина
http://www.vedomosti.ru/newspaper/article/2010/07/30/242143

Председатель совета директоров «Яндекса» Альфред Феноти направил общему собранию акционеров письмо с предложением избрать в состав совета Александра Волошина — человека с «перспективным взглядом на вещи, широкими связями в деловых кругах и предыдущим опытом работы в государственных и коммерческих структурах»

Покинувший недавно совет директоров «Норильского никеля» Волошин назначен руководителем рабочей группы по созданию международного финансового центра. Он известен как человек, способный решать задачи любой сложности,

ыыы.
ну чо, гугль вполне неплох, 30% за него голосуют ногами.
Но гугель можно запретить на уровне файрволов.

расклейка выдачи яндекса

Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost.

товарищи яндексоиды: расклеивать страницы по запросу rhost – это неправильно и очень плохо. Если я домены по маске хочу найти – мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.

кажется, сеоньюз читать не умеет.

блин, я нигде не "предполагал, что данные операторы могут быть упразднены".

речь шла только про url, а если они криво задали вопрос (типа: спросили у пресс-службы про все операторы скопом), то и ответ неправильный будет.

кроме того, такие вопросы впрямую им вообще не имеет смысла задавать. впервые о сео услышали, что ли?

интересно, как сеоньюз это у себя откомментирует.

турецкие асессоры

вакансии асессоров в Яндексе: http://spb.hh.ru/vacancy/2515886

знание английского, казахского (или татарского) языка (владение турецким языком является плюсом);

-чо, казахское и татарское ранжирования надвигаются? И турецкое еще.
белорусское сделали, вот теперь казахское будут ))
Матрикснет, как там: способен узкие темы обрабатывать.

мне, кстати, кто-то на конференциях жаловался про татарский интернет, что-то там с морфологией какие-то сложняки были.