сегодняшний “релиз” = это апдейт переформулировок

сегодня и у Ашманова, и у меня отметило изменение выдачи без текстового апа.

Щито бы это могло быть?

У меня есть CRM, в ней вдруг нарисовались изменения выдаваемых тайтлов по разным запросам. Но сами выдаваемые тексты (буквы) остались прежними – изменились коды, подсветка слов изменилась.

Те слова, что раньше не подсвечивались – стали подсвечиваться. Если у кого кешируется пробивка позиций – проверьте. И позиции подросли по тем тайтлам, где стали подсвечиваться доп. слова.

Например, слова "раскрутка" раньше не было в переформулировках и не подсвечивалось по запросу "продвижение сайта", а теперь вдруг стало:

1 Создание и раскрутка сайта в интернете, поисковое продвижение
www.MegaSeo.ru

2 Раскрутка сайта в Яндексе, Google и продвижение сайта в ТОП (Москва…
www.bdbd.ru

И слово "раскрутка" стало подсвечиаться.
Надо ли говорить, что те, кто традиционно стоял высоко по "раскрутке", вдруг стал фтоп и по "продвижению".

***
Надо ли еще дополнительно говорить, что переформулировки влияют и имеют приличный вес 🙂
***
Надо бы в апометр воткнуть.

пробелы после операторов

вчера весь день апдейты немножно сломались, а началось это позавчера вечером. Самопроизвольно.

Оказывается, Яндекс немножко покорячил свой язык запросов.
Теперь после операторов должен идти пробел. Раньше я использовал конструкцию запрос ~~абракадабра без пробела после ~~. И вот вчера вечером оно сломалось – оно теперь пытается найти и абракадабру тоже. И, конечно, не находило и рисовало нолики.
окна ~~пластиковые (без пробела) – не исключает, а наоборот, ищет и подсвечивает пластиковые.
окна ~~ пластиковые (с пробелом) – нормально исключает пластиковые.
Вроде мелочи, но как неприятно. Да и хрен заметишь… И хоть бы предупредили.
Проверяйте свои скрипты, чо.
И еще ругается на | без окружающих пробелов, но пока работает.

Яндекс-XMLю – пипец… Лимиты снижены до 10 запросов в день.

вы уже готовились парсить выдачу? Я пока не готовился.
Но уже надо начинать. 🙁

Ваш дневной лимит составляет 10 запросов. Чтобы повысить свой лимит до 1000 запросов в сутки, вам необходимо подтвердить телефонный номер, который не был ранее никем подтверждён.

Видимо, так у всех не-вип юзверей.

***
PS. А, ну да. Я как бы знаю, что после конференции нетпромоутера они побежали искать дырку с переформулировками. Видимо, не нашли и решили это… отрубить гордиев узел 🙂 А потом, наверное, будут следить за моим акком и какие я запросы задаю 🙂

Не беспокойтесь, пацаны, я уже переформулировки выкачал, 1.3 млн.
Ну вы же знаете – я никому не скажу )))

***
PPS И да. Яндексоиды, а не хотите угроз? А то у меня есть.
Я выкачал (пробил на число сайтов, страниц, и на число выделенных найденных слов в тайтле) около 3-6 лямов запросов. Запросы с разной спрашиваемостью, не случайные.

Так вот если из этих запросов делать дорвеи, то это будет щастье. Запросы с низкой текстовой конкуренцией, незадроченные дорвейщиками, спрашиваемые. Их нашлось немеряно, процентов 10. Я еще пока не считал, сколько трафа можно выжать.
Единственное, что нетаргетированные, но порнуху или вирусы нормально будет. 🙂

Сам-то я не собирался дорвеи из них делать, но…
Так вот я ведь могу и базы выложить на скачивание, если чо.

Хотите?

переделал пруфлинки в просмотре аффилиатов

поскольку (в целях борьбы?) отменили группировку для нескольких domain я в сервисе аффилиатов переделал пруфлинки с domain на просто поиск домена.

Сейчас я использую ту фичу, что по запросу вида domain.ru всегда первым выдается сайт domain.ru (у него и цифра релевантности существенно выше была при таких запросах), и то же самое при перечислении нескольких через "или" – искомые сайты сверху.

В выдаче по запросу domain1.ru | domain2.ru на первых двух будут эти сайты, если они не аффилированы. Если они аффилированы – на 1-2 местах останется только один сайт из двух. Перед использованием не мешает проверить нахождение двух доменов по отдельности.
__
PS что, яндексоиды, будете корячить выдачу дальше? и вкусно причмокивайте.

аффилиаты (клоны) в Яндексе

копия из http://forum.searchengines.ru/showthread.php?t=526579

поиск аффилиатов – клонов по основному домену: http://tools.promosite.ru/use/clones.php

я недавно пропарсил много запросов по тестовому XML: http://blog.promosite.ru/comments.php?1264
пока вот товарищ не сказал, что он спалил: http://forum.searchengines.ru/showthread.php?t=523795

В том числе в этом тестовм ХМЛ было много прикольных данных –
1. тег <clon> с ID аффилиата
2. теги <geo> <geoa> с географией сайта
3. цифра редевантности

Я спарсил около 42 тыс. запросов (все ашмановские сеорейтовские запросы и 20+ тыс самых популярных по частотности), по каждому топ1000 результатов.
В сумме получилось почти 2 млн. разных хостов, что составляет примерно 20% от всех доменов в яндексе. Учитывая, что тут речь шла о наиболее популярных запросах, этот набор сайтов – почти все топовые популярные сайты. (у Ашманова в сеорейте подобраны разные коммерческие запросы по всем темам).

Пока что я сделал – поиск аффилиатов – клонов по основному домену.
велкам: http://tools.promosite.ru/use/clones.php
пару дней работает без ограничений, потом для использования нужно будет зарегистрироваться.
также будет АПИ для контор.

Для чего все это нужно?

Если в вам приходит потенциальный клиент, имеющий аффилированные сайты – можно в результате получить кучу проблем. Типа вы продвигаете сайт, а в топах вместо него аффилиат, который продвигает другая контора. А вашего подопечного нет и вы ничего не получите.

В любом случае полезно проверить подопытного на возможные проблемы.

В данный момент ищутся только аффилиаты по уже спарсенной базе. Но те данные уже закрыты.
Но я скоро сделаю поиск аффилиатов по полностью открытым данным. И, возможно, внедрю его в сервис.

велкам, ищите свои клоны: http://tools.promosite.ru/use/clones.php

Щито это?
аффилированные сайты – это сайты, которые Яндекс по разным причинам считает принадлежащими одной компании. Это в основном делается ручками – с учетом контактов на сайте и т.п. Это борьба Яндекса с “забиванием” топа сайтами, может быть и разными, но принадлежащими одной конторе.
Основной результат состоит в том, что по одному запросу может находиться только один аффилиат из группы (самый релевантный). Остальные (менее релевантные) вычищаются из выдачи. Причем из группы зоофилированных сайтов по разным запросам будет находиться то один, то другой, но не оба вместе. Попробуйте, например, поискать лавпланет – тут еще представлена малая доля клонов.
Но аффилиация может делаться не только с помощью кривых ручек, но также и с помощью их кривых алгоритмов. 🙂
* они, аффилиаты, на то и аффилиаты, что по одному запросу показаться может только один аффилиат из группы. Поэтому логично, что все стопроцентов = полный список аффилиатов никто не определит. Т.е., есть случаи, когда я точно знаю, что аффилиаты есть, но какие именно – не знаю. Потому, что остальные аффилиаты случайно не попали в выборку.
А выборка та большая – примерно 2 млн. доменов (10% от всего яндекса по хостам), найденных по 42 тыс. поисковых запросов (топ 1000), когда был во второй раз открыт показ клонов, гео, и релевантности в цифрах. Первый раз был тут и был давно отменен.

Я скоро сделаю определялку аффилиатов на открытых данных, но тогда очень полезно будет ввести список запросов, по которым сайт продвигается. И это будет платный сервис.
Откуда дровишки?
Данные из пропарсенных что-то около 2 млн доменов по 42 тыс запросов по тестовому ХМЛ, когда были открыты разные кошерные данные, как-то: география, аффилиаты, и, конечно, цифра релевантности ))
Каким образом подтвердить аффилированность?
Яндекс, сцуко, похоже борется с возможностями определения аффилиатов. И вообще со всеми возможностями.
в древние незапамятные времена определить аффилированность было просто: берешь, задаешь запрос типа host:domain1.ru | host:domain2.ru, и если в результатах видишь только один домен из двух (при этом каждый из хостов отдельно находится нормально) – перед вами аффилиаты. Т.е., по одному запросу второй аффилированный сайт вычищается из выдачи.

Но сейчас стало посложнее. Яндекс решил, что нужно разгруппировывать домены при поиске host: rhost: и тому подобное. И если раньше и в обычной выдаче модно было увидеть только один домен из двух, то теперь ты вынужден копаться в страницах внутри домена. Ну да, это чуток менее удобно, чем смотреть сразу сгруппированные данные.
Но, кстати, если у вас есть Яндекс-ХМЛ, то в нем все фишки с группировкой остались прежними. И вот тот запроос выше “пруфлинк” можно задать в яндекс-ХМЛ и волшебным образом увидеть один результат из двух аффилирванных.
А если вам лениво лазить в ХМЛ – можно просмотреть все разгруппированные страницы обоих сайтов в обычной выдаче. И операторы host, rhost, url не спасают. И, что мегазабавно: при задании оператора url: через “или” по аффилиатам находятся оба аффилиата. Это настолько они борются с определением клонов, ага ))
вот для примера топ клонов. Число num = число клонов с одинаковым ID аффилиата:
домен число клонов
balance-transfers-promotions.co.cc 11550
842-job.mnogonado.net 2073
beetteam.ucoz.ru 1061
sportzone.ru 992
megaline-file.ucoz.kz 903
izumi.podberi-tv.ru 735
rabota.dagestan.slando.ru 592
batink.webasyst.net 584
cheltools.chelyabinsk-info.ru 451
mylovein.net 394
ufa-trud.ru 384
vsekinolenty.ru 381
sanosipovka.ru 379
ussuriysk.irr.ru 376
zifalon.ru 362
shazycreep.prostoprint.com 358
adwords.google.be 355
bancat.ru 343
publiks.ru 332
tecktonik.nxt.ru 306
ehmz.opt.ru 294
nevskiy-palace.ru 293
a-frankfurt.com 250
singapore-obnovlenie.ru 231
arenda-ratlina.imotiburgas.com 226
nomer.plati.ru 206
vbangkok.ru 204
vchelyabinsk.ru 200
torgi24.vsem.ru 198
znakomstvo.kharkov-reklama.com.ua 196

сегодня webeffector прислал письмо, ыыы

"Рекомендации по бюджету, проверка региона и другие обновления!"
меня там удивили цифры. Они там раскрыли процент выполнения по бюджетам.
То, что у РБС называется "доля отработки", а у сеопульта "процент стояния", у них почти ОДИНАКОВОЕ с точностью до пары процентов!!!

Судя по всему, у них там ничего ни от чего не зависит.
В случае с эффектором забавно – если бюджет = рекомендованному, то отработка 61%, а если бюджет в два (2, sic!) раза выше, от отработка 65%.
Хорошая прибавка, чо 🙂

Судя по всему, во всех таких системах рулят юзеры, которые продвигают заведомо легкие запросы за заведомо большое бабло (успешно причем!). Надо срочно заводить свою автопродвигалку нах!

В подписях к графику написано (% запросов в топ10), что эффектор НЕ взвешивает запросы по конкурентности при расчете отработки, взвешивал бы – было б еще меньше… 🙂

Смешно у них там.

PS и интересно было бы смотреть взвешенную по конкурентности отработку от бюджета в цифрах.
Подозреваю, что именно такие конкурентные запросы скрываются от внешнего взгляда, ибо стыдно нах.

XML: новейшие поломки и отключения операторов

Сегодня, кстати, был ссылочный апдейт, который апометр не увидел из-за того, что Яндекс коварно сломал оператор url и вместе с ним host, rhost в XML.

т.е., из выдачи они работают, а из ХМЛ – нет, выдают только обвязку (типа найдено столько-то результатов), а самих результатов не выдают.
Что смешно – в основном ХМЛ используют для поиска внутри сайта, и в примерах приведен оператор host, а тут бац – и он не работает 🙂

Блядь, то понос, то золотуха. Не трогайте свой ХМЛ!

А теперь инсайд 🙂
Я в ХМЛ позвонил, спросить чо ваще, может отключили сознательно. Мне сказали, что нет, сломалось, но сказали, возможно, что скоро оператор url будет закрыт в XML. Человек даже как бе не хотел его поэтому смотреть.

Так что готовьтесь парсить выдачу. Я, правда, не уверен, что именно он сказал – оператор будет закрыт ваще или закрыт только из ХМЛ. Так что и в выдаче могут закрыть.

новейшие изменения в яндексе и в XML

сейчас несколько дней идут сплошные перетряски выдачи, яндексоиды комментируют, что были технические проблемы.

При этом число страниц 22-го вечером подпрыгнуло ровно вдвое, так же как и число страниц "еще с сайта". При этом есть примеры сайтов, проиндексированных одновременно с www и без, типа каждая страница имеет дубль и все они одновременно находятся в выдаче. Думаю, с этим связано, причем массовое явление. 🙂

А в ХМЛ изменения такие:

1. ВЫДАЕТСЯ УРЛ СОХРАНЕНКИ! тег saved-copy-url – и можно спокойно парсить там наличие своих ссылок, не дергая для этого яндекс-выдачу, раньше урл сохраненки только там был.

2. вместо цифирок в ID документов стали использовать и буковки. doc id="13-23-4-Z86F030531D40920C" Судя по всему, шестнадцатиричные [первая буква не считается :)”>. Бля, могли парсилки поломаться жеж!

конкурс Yahoo Learning to Rank Challenge

Yahoo Learning to Rank Challenge http://learningtorankchallenge.yahoo.com/instructions.php

сообщил тов. Гулин.

Yahoo запустил свой конкурс, очень похожий на прошлогоднюю Интернет-Математику. Интерес представляет их описание submission. В качестве submission принимается текстовый файл, по строчке на запрос.

Имхо, яндекоиды со своими матрикснетами просто обязаны участвовать 🙂

Поисковые технологии 2010

Закончился ашмановский закрытый семинар Поисковые технологии 2010.
Я там был как участник, мы такие когда пришли – Ашманов такой – во, типа, оптимизатор пришел – а я такой – я, типа, разработчик поисковых систем 🙂
Конечно, изначально знали как оптимизатора, а вот еще один сильно секретный оптимизатор тоже был :), мы его с трудом спалили. В заявке я привел www.a-gde.ru – помеленьку определяем коммерческость запроса. Пытается мнения и отзывы отделить, но там плохо, а коммерческость ничего себе определяется.

Итак.

19:00 – 21:00 заезд, расселение, шашлык, глинтвейн, ночное катание.




============Первый день 26 февраля. Будущее поисковых машин

_________________
“Табличный поиск” – Виктор Лавренко (Нигма)

В общем, Нигма, оказывается, умный поисковик.
1. использует движок FF с добавками, чтобы оценивать, какие слова визуально близко друг к другу.
2. группирует страницы по маске урла в смысловые группы – типа страницы фильмов отдельно, актеров отдельно и т.д. и использует этот смысл в показе.
3. смысл этот – не смысл, а название ключа. Для разных страниц в группе смотрится (с анализм хтмл шаблона), какие тексты остаются и какие меняются в пределах группы, и те, что меняются – значение ключа, а что остаются – название ключа. Из этих ключей и значений и получается табличный поиск.
_________________
“Рейтинг онлайн-СМИ на основе дублирования новостей” – Александр Антонов (Корпорация Галактика)

_________________
“Лексический анализ: от шаблонов к семантике” – Даниил Скатов (Диктум)

Много всего про разбор предложения с определением частей речи, согласования и прочего. Я, правда, не понял, применимо ли это к коротким текстам (типа запросов) и предполагается ли, что текст изначально правильный (или умеет ошибки анализировать). Выясню отдельно.
_________________
“Некоторые подходы в задачах классификации запросов” – Марина Хоруженко (Рамблер)

Доклад о выделении специфических запросов – поиск цитат, навигационные запросы для того, чтобы по разному их отрабатывать. 3-5 из тысячи – цитаты. Для каждого запроса есть список факторов, на которых обучаются обучалки. Факторы вроде – длина запроса, число заглавных букв, число знаков препинания, стоп-слова, т.д. Еще используется аналих поведения юзера.
_________________
“Группировка результатов поиска по тематике, определение тематики документа” – Андрей Коваленко (Meta.ua)

Они пристегнули свой каталог к определению тематики запроса. В результате по каждому запросу выдача группируется по по тематикам. То, чего я всегда хотел 🙂 на момент доклада новая выдача не была выложена. Кроме того, сбоку открывается рубрикатор, где каждая ссылка ограничивает поиск тематикой (только уж очень широкий список тематик :)). Но самые основные тематики определяет качественно. Урл там есть специальный, по которому все показывается 🙂
_________________
“Реферирование одного документа, найденного по запросу, нескольких документов, ранжированный реферат поисковой выдачи” – Андрей Калинин (Поисковые технологии)

Ничего не запомнил, но подробный обзор всех методов реферирования, начиная с самых древних. Всем разработчикам поиска втыкать!
_________________
Круглый стол “Будущее поиска”


Анатолий Орлов, получается, был с презентацией 🙂

Ночью можно кататься

===========Второй день 27 февраля. Проблемы индексации и релевантности

_________________
“Анализ графа ссылок для фильтрации нецензурных изображений” – Евгений Харитонов (Яндекс)

Есть метод определения дублей картинок, нечувствительный к слабым изменениям каринки. Он склеивает копии. Дальше есть граф хтмл-страниц, где картинки вставлены, и сами картинки. Если в контенте страниц есть порно – это дает плюс в классификацию картинки как порно. Если на странице есть порно-картинка (а порно текстов нет) – это дает плюс в классификацию страницы как порно. И так много раз. Я так понял, что они обучались на том же множестве, что и определяли точность с полнотой. Учитывая при этом, что точность и полнота около 60% – я так понял, что никаких реальных результатов не достингнуто. И еще линейная зависимость между точностью и полнотой.
Да, спалил темку про продвижение по картикам 🙂
_________________
“Архитектура краулера вертикального (тематического) поиска” – Михаил Долинин (Рамблер)

Мне абсолютно неинтересно, как там чего индексируется.
_________________
“Виды поискового спама” – Михаил Волович (Ашманов и Партнеры)

Боян в части сателлитов и дорвеев. Рассмативает серьезно сателлиты и сайты несуществующих фирм. Но все равно поисковики их не могут реально детектить.
_________________
“Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet” – Андрей Гулин (Яндекс)

Выложена, как я понял, исправленная презентация (участники Гулину указали на какие-то ошибки в формулах). Самое интересное для меня, я понял, что Матрикснет понимал не так, как надо. Я думал, что статистики в 1 млн. асессорских оценок мало, а ее на самом деле много. Сегалович на пальцах объяснял, что много матриц, руками показывал 🙂
Лекции Воронцова
_________________
“Синтаксический анализ по-нижегородски” – Владимир Окатьев (Диктум)

Примерно на ту же тему, что и первый доклад от Диктума. Мне не близко.
_________________
“Метрики для интегральной оценки качества поиска” – Андрей Иванов (Ашманов и Партнеры)
Андрей показал свои индикаторы на analyzethis. Я, правда, думаю, что на общий анализатор типа “по гамбургскому счету” поисковики не согласятся. Рассказали о накрутках этих анализаторов, среди поисковиков тоже есть накрутчики 🙂
_________________
“Интернет-математика. Конкурс по машинному обучению” – Павел Карпович (Яндекс)

Рассказал про новый конкурс за 2010 – про предсказание пробок на дорогах. Да, спалил, какие участники в ИМ-2009 были алгоритмами Яндекса – это Joker, -F, alexeigor и Победа. Я уже забыл, какие из них соответтсвовали каким алгоритмам. 🙂
_________________
“10 неправильных способов сравнивать качество поисковиков” – Сергей Протасов (Рамблер)

Сергей показал, почему каждый их способов не годится для анализа качества поиска 🙂 При этом как один из методов анализа – показ чужих результатов (других СЕ) в своем дизайне – чтобы нивелировать влияние дизайна.
У Рамблера, кстати, ожидается выкатка нового алгоритма, и нынешний Рамблер отстает от лидеров на 10%, а вот новый алгоритм лучше, чем лидеры на 5%.
В презентации про это есть, значит, можно говорить 🙂
_________________
Круглый стол “Измерение качества поиска”

******
Презентации выложены на http://www.search-conf.ru/programm2010 .