Яндекс-XMLю – пипец… Лимиты снижены до 10 запросов в день.

вы уже готовились парсить выдачу? Я пока не готовился.
Но уже надо начинать. 🙁

Ваш дневной лимит составляет 10 запросов. Чтобы повысить свой лимит до 1000 запросов в сутки, вам необходимо подтвердить телефонный номер, который не был ранее никем подтверждён.

Видимо, так у всех не-вип юзверей.

***
PS. А, ну да. Я как бы знаю, что после конференции нетпромоутера они побежали искать дырку с переформулировками. Видимо, не нашли и решили это… отрубить гордиев узел 🙂 А потом, наверное, будут следить за моим акком и какие я запросы задаю 🙂

Не беспокойтесь, пацаны, я уже переформулировки выкачал, 1.3 млн.
Ну вы же знаете – я никому не скажу )))

***
PPS И да. Яндексоиды, а не хотите угроз? А то у меня есть.
Я выкачал (пробил на число сайтов, страниц, и на число выделенных найденных слов в тайтле) около 3-6 лямов запросов. Запросы с разной спрашиваемостью, не случайные.

Так вот если из этих запросов делать дорвеи, то это будет щастье. Запросы с низкой текстовой конкуренцией, незадроченные дорвейщиками, спрашиваемые. Их нашлось немеряно, процентов 10. Я еще пока не считал, сколько трафа можно выжать.
Единственное, что нетаргетированные, но порнуху или вирусы нормально будет. 🙂

Сам-то я не собирался дорвеи из них делать, но…
Так вот я ведь могу и базы выложить на скачивание, если чо.

Хотите?

Лиза, я обдумал свой комментарий

вот к этому: http://www.searchengines.ru/seoblog/archives/2010/09/aaaa_eoi_ia_n_i.html

я бы предпочел не касаться этого даже восемнадцатиметровой палкой

🙂

***
вот же дебилы, надо ж такое написать, это ж ахтунг какой-то ))

***
Виталий, тебя оценили ))

xml – запросы без указания параметров user и key

http://xml.yandex.ru/stat.xml

Внимание! В скором времени запросы старого вида к http://xmlsearch.yandex.ru/xmlsearch (без указания параметров user и key) перестанут поддерживаться. Если вы используете запросы к сервису Яндекс.XML в своих скриптах или программах, измените адрес на указанный в рамке “Ваш адрес для совершения запроса”.

написали бы сразу, в каком именно времени…
Мониторют.

продвижение сайтов – это:

(продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^ продвигаться::199208) &&/(-32768 32768) сайтов::410

Щито это? ))

В том числе и про это буду рассказывать на конференции нетпромоутера.

обнинск по России

завтра посмотрим, чо там с изменениями выдачи 🙂
«Обнинск» — новое ранжирование для гео-независимых запросов в России
1. по названию понятно, что это "мадридский доклад" в боевом режиме. Почти всем по фигу, т.к. геонезависимые запросы обычно не очень коммерческие.
2. "формула разрослась в два раза со 120 мб до 280 мб" – сперва я подумал, что не обошлось введением еще одного параметра типа "доля сеошных ссылок". Но потом я подумал, что просто две разные формулы для геозависимых и геонезависимых в одной = искомые два раза.
Ну плюс там какой-нть параметр типа доли сеошных ссылок 🙂

Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

правильный график с запросами

По вертикальной оси – сколько раз запрос попал в базу, ~частотности
По горизонтальной – номер запроса при упорядочении по убыванию.
Без морфологии, первая тысяча

На частотных запросах (начало графика, первые 50) отклонения вниз от прямой (прямая должна была бы быть Зипфом, но степень не -1, а -0.7).
Т.е. частотные запросы спрашивают меньше, чем должны были бы по Зипфу.

Если аппроксимацию нарисовать по номерам от 50 до 1000, то все равно не Зипф, степень -0.75:

кстати, для частотности запросов

по горизонтальной оси – сколько раз встретился запрос в базе (уникальность).
по вертикальной – сколько таких запросов было.

Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.

задачка про вероятности

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.
И накопилось около 40 млн. уникальных запросов.
Из которых только 10 млн. запросов попали в базу 2 и больше раза.
Из которых 4.7 млн. запросов попали в базу 3 и больше раза
Из которых 3.3 млн. запросов попали в базу 4 и больше раза
и т.д.
Очевидно, что те запросы, которые попали в базу один раз – не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться – но узнать это можно только потом.
Но и те запросы, которые попали в базу пару раз – не очень хорошо соответствуют вордстату.
Те, которые три раза – получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.
***
И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.
***
И думаю: может, задача-то стандартная и уже давно решена?

+апы геопривязки в tools.promosite.ru = апдейт апометра

Изменения в апометре:

1. сменил название: загадочный “метод комдира” на понятный “апдейт сохраненки”. 🙂

2. добавил апдейты гео.
Как определяется – есть набор регионов, по региону ищем разные запросы (типа domain, rhost – для уменьшения числа найденных сайтов до 1-20 тыс., чтобы прюнинг не находил “много”, а находил поточнее). По каждому региону ищем с параметром rstr.

===немножко стран:
Россия
Общероссийские
Украина
Беларусь
США
Европа

===и немножко городов:
Москва
Санкт-Петербург
Екатеринбург
Челябинск
Владивосток

И (сюрприз!) в районе 4-5 утра число найденных страниц прилично меняется, приличным я считаю изменение на 1% и изменение по 3 регионам из 11. Я отмечаю это в апометре как “апдейт геопривязки”.

Начал собирать данные раз в 10 минут с начала июля, а сейчас воткнул в апометр.

К тому же (сюрприз!) больше половины происшедших за то время “изменений без выкладывания индекса” происходили из-за (вместе с) изменения в геопривязке (ну, без выкладывания индекса, ессно) – http://tools.promosite.ru/updates/
А из оставшейся половины еще несколько случаев, когда число геопривязанных страниц меняется в 16-20 вечера одного дня, а на другой день я пробиваю утром и вижу изменение выдачи. Это те случаи, когда на серче начинаются крики про апдейт вечером, и что сеопульт показывает шторм 🙂

Общее число геопривязанных страниц не всегда увеличивается, часто и уменьшается тоже. Конечно, привязываются сайты, просто на страницах изменения лучше видны.

И вопросы – какую стату еще выводить? например, можно по отдельным регионам из перечисленных писать, чо как поменялось.

Изменение числа страниц считается так – новое число страниц делим на старое по каждому региону, из полученных 11 чисел берем среднее геометрическое. Абсолютное изменение – это когда одно их 11 отношений меньше 1, берем вместо него 1/x.

PS грядут другие апдейты апометра.

PPS еще один сюрприз – за это время был один случай, когда геопривязку откатили обратно, числа вернулись, я его удалил, но все может повторяться.

переделал пруфлинки в просмотре аффилиатов

поскольку (в целях борьбы?) отменили группировку для нескольких domain я в сервисе аффилиатов переделал пруфлинки с domain на просто поиск домена.

Сейчас я использую ту фичу, что по запросу вида domain.ru всегда первым выдается сайт domain.ru (у него и цифра релевантности существенно выше была при таких запросах), и то же самое при перечислении нескольких через "или" – искомые сайты сверху.

В выдаче по запросу domain1.ru | domain2.ru на первых двух будут эти сайты, если они не аффилированы. Если они аффилированы – на 1-2 местах останется только один сайт из двух. Перед использованием не мешает проверить нахождение двух доменов по отдельности.
__
PS что, яндексоиды, будете корячить выдачу дальше? и вкусно причмокивайте.