Колдунщик таки удалили

Похоже, параметр reqtext пустой в ссылке на сохраненую копию. Колдунщика нету теперь.
Колдунщик просуществовал больше двух лет, и в прошлый раз яндекс убрал ссылку "найденные слова", заменил ее на "сохраненную копию". Тогда уже скопировать кеши казалось полезно, ну и теперь кеши остались.
Скоро, небось, базу переколдованных запросов люди будут продавать 🙂
Теоретически выходы какие:
1. использовать архивы
2. читать литературу, зацитированную Сегаловичем, восстановить метод переколдовки. Там используется, кажется, ассоциированные запросы. Тут думать надо и брать ассоциации из Я…
3. раньше можно было как – страничку "нашел" целенаправленно с допусловиями по сайту, там меняешь чего хочешь и смотришь подсветку. Теперь только сохраненые копии в доступе, с мгновенной подсветкой не выйдет. Так что остается брать по запросу сохраненные копии и в них программно выискивать расхождения (ненайденные слова, стоящие рядом, найденные и стоящие далеко и т.п.)
4. Вставлять между словами операторы (надеемся, что колдунщик еще сохраняет введенное пользователем) и расстояния и другие гипотезы, и сравниваем выдачу. 🙂 Только с весами проблема, их так не определить.
***
Типа того.

yacatalog.narod.ru/admin

Оказывается, добавлялка в яндекс-каталог сделана методом GET (ну типа форма на яндексе отправляется методом GET).
Находим: yacatalog.narod.ru/admin/edit/addfromres.xhtml?lurl волшебную страничку на www.remrus.ru, в которой есть волшебный реферер:

http://yacatalog.narod.ru/admin/edit/addfromres.xhtml?lurl=http://dokamaster.ru/&lname=%u0420%u0435%u043C%u043E%u043D%u0442 %u0431%u044B%u0442%u043E%u0432%u043E%u0439 %u0442%u0435%u0445%u043D%u0438%u043A%u0438 %u0438 %u043E%u0431%u043E%u0440%u0443%u0434%u043E%u0432%u0430%u043D%u0438%u044F.%u0414%u043E%u043A%u0430-%u041C%u0430%u0441%u0442%u0435%u0440.&descr=%u0414%u043E%u043A%u0430-%u041C%u0430%u0441%u0442%u0435%u0440 %u043F%u0440%u0435%u0434%u043B%u0430%u0433%u0430%u0435%u0442 %u0443%u0441%u043B%u0443%u0433%u0438 %u043F%u043E %u0443%u0441%u0442%u0430%u043D%u043E%u0432%u043A%u0435, %u0440%u0435%u043C%u043E%u043D%u0442%u0443 %u0431%u044B%u0442%u043E%u0432%u043E%u0439 %u0442%u0435%u0445%u043D%u0438%u043A%u0438.%u041F%u043B%u0438%u0442%u044B,%u043F%u0435%u0447%u0438,%u0441%u0442%u0438%u0440%u0430%u043B%u044C%u043D%u044B%u0435, %u043F%u043E%u0441%u0443%u0434%u043E%u043C%u043E%u0435%u0447%u043D%u044B%u0435 %u043C%u0430%u0448%u0438%u043D%u044B,%u043B%u0430%u0440%u0438,%u0445%u043E%u043B%u043E%u0434%u0438%u043B%u044C%u043D%u0438%u043A%u0438,%u0442.%u0434. %u041E%u0431%u0441%u043B%u0443%u0436%u0438%u0432%u0430%u043D%u0438%u0435,%u043C%u043E%u043D%u0442%u0430%u0436 %u0438 %u0440%u0435%u043C%u043E%u043D%u0442 %u0440%u0435%u0441%u0442%u043E%u0440%u0430%u043D%u043D%u043E%u0433%u043E,%u043F%u0440%u0430%u0447%u0435%u0447%u043D%u043E%u0433%u043E,%u043F%u0438%u0449%u0435%u0432%u043E%u0433%u043E,%u043F%u0440%u043E%u043C%u044B%u0448%u043B%u0435%u043D%u043D%u043E%u0433%u043E,%u0445%u043E%u043B%u043E%u0434%u0438%u043B%u044C%u043D%u043E%u0433%u043E %u043E%u0431%u043E%u0440%u0443%u0434%u043E%u0432%u0430%u043D%u0438%u044F.%u041B%u044E%u0431%u043E%u0439 %u0441%u043B%u043E%u0436%u043D%u043E%u0441%u0442%u0438.&add_id=543858&theme_add=72&region_add=213&sector_add=2

Оказывается, applicata индексирует результаты поиска…

Оказывается, Ашмановская Applicata индексирует результаты поиска…
#url="www.applicata.ru/tsearch?*" – 37 тыс. страниц со всей структурой…
Странно. Это ж низзя! Известный факт, закон природы – забанить же должны.
Хотя вон "мамонт" тоже результаты кеша своего индексирует: #url="www.mmnt.ru/cache*" – но там всего 3 тысячи страниц. А у ашмановцев 37 тысяч 🙂

Внутренности Яндекс-XML

Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются…
Из http://help.yandex.ru/xml/?id=362990 – описание ответа яндекса:

<relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).

<title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.

<passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.

<passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.

<_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется “текст ссылок: …”. В XML тип содержимого пассажа обозначается так: 0 – обычный пассаж, 1 – пассаж содержит текст ссылок.

В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о “фразовой” релевантности, похожие же принципы заложены в нынешний поиск…
В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> 🙂
Самое забавное – то, что релевантность типа “phrase” в реальности не наблюдается, она всегла strict… А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) …
Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page=”50″).
Видим, что в поле title> выделение слов либо “strict” (когда ПЕРВОЕ ВКЛЮЧЕНИЕ “пластиковые” есть ДО “окон”), либо “phrase” (когда порядок слов в тайтле совпадает с порядком слов в запросе).
А промежуточных вариантов мало – в конце первой 50 есть сайты dreamokna.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">Окна/hlword> Мечты - установка
<hlword priority="strict">пластиковых/hlword>
<hlword priority="strict">окон/hlword> veka kbe rehau, монтаж
<hlword priority="phrase">окон/hlword>
,
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх
</title> 

и и oknaprofi.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">окна/hlword> пвх в Москве - цены, остекление балконов лоджий, производство деревянных
<hlword priority="phrase">окон/hlword>
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> пвх, остекление балконов лоджий, пластиковые окна москва
</title> 

-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов… Причем явно есть ограничение на число “запросных” слов в пассаже… У второго сайта слова “окона” в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла… Причем середина тайтла со “стриктом” заменяется многоточием, а тип релевантности “фрейз” всегда выводится, хоть и стоит в конце…
Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю “включенных в пассаж”). И тип пассажа по нему же определяется.
Кстати, в теге headline>, который соответствует метаданным, пассажи всегда “стрикт”.
***
Еще одна прикольная вещь. В той же самой выдаче по “окна пластиковые” сайты есть с параметром <categ>:
[code:1:75b4b73ae2]<categ> Описание найденной группы…. name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям; [/code:1:75b4b73ae2]
-прикольно то, что оно иногда пишет “не тот” сайт в “группировке по сайтам”, причем изредка сайты одного владельца попадают:

<categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>
<categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>
<categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>
<categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>
<categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>
<categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>
<categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>
<categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>
<categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>

-интересно, глюк это или так и задумано…

PS В общем, надо копать…

Что ж они так палятся?

Что же это иные системы по обмену ссылками не заботятся про палево?

Например.
Настоящие "партнеры" xap.ru ставят партнерскую ссылку так: anchor#link="www.xap.ru/?p=*"["партнерская программа"”> – с параметрами в урле (41).
А какие это "партнеры" ставят ссылку без параметров в урле: anchor#link="www.xap.ru"["партнерская программа"”>? 350 примерно сайтов… Наверное, это сам хап ставит… 🙂 И ничего ему, не волнует его…

Ставки на “бомжей”

Оказывается, есть ставки на то, кто из "бомжей" первым купит квартиру. Только почему-то московского http://homelessinmoscow.blogspot.com там нет 🙂
Ставки – фигня, пошел читать блоги бомжей. 🙂

Как скидки увеличивают кликабельность

На блоге Яндекса опубликовано мини-исследование по CTR директа для разных "скидочных" слов.

Использование подобной лексики приводит к тому, что CTR рекламных объявлений увеличивается в несколько раз (по сравнению со средним на Яндекс.Директе). Например, кликабельность объявления со словом «скидка» в заголовке или в тексте выше средней в 3 раза, а при упоминании слова «дарим» и в заголовке, и в тексте — более чем в 4 раза. Употребив это слово только в заголовке или только в тексте, получим «прирост» CTR примерно в 2 раза.

При употреблении неких слов типа "скидка, распродажа, дарим, недорогой, дешевый" CTR возрастает в 2-4 раза. Жаль только, нет данных о статистике – сколько показов, кликов и разных объяв учтено.
Там даже есть таблица по "эффективности" разных скидочных слов. В долях от "среднего" CTR. Лидеры – "скидка, распродажа" – примерно в 3.1 раза CTR выше. Насчет "дарим" в 4 раза – не верится…

Бан в Яндексе как метод чистки выдачи

Вчера я дал ссылку на поиск "по сайту ultraslim.ru" страниц расширенного поиска, с которых люди через xss уязвимость (или не xss?:)) получили кучу ссылок. Ну и список урлов ссылаемых, конечно, есть. Который мог быть использован. 🙂
Сейчас смотрю – на ultraslim.ru пусто. Нет страниц. Забанили. 🙂
Типа я даже и не знаю, неужели настолько не любят тему xss в яндексе? Что даже готовы забанить просто обычный сайт, но не дать инфу? 🙂
Писать Платону не буду, пусть нынешние владельцы пишут 🙂