Сохраненки в яндексе

Коля Дубр докладает, что из урла сохраненной копии на яндексе пропал параметр sg=, а заодно и все другие. 🙂

По параметрам из урла можно было раньше определять "быстророботность" сохраненки. Уже звоночек был – на форуме уже видели временное пропадание…

Ну ничего, как-нибудь даты парсить из сохраненки придется.

Кроме того, стало показывать ссылку на сохраненку у сайтов, найденных по ссылке. Не у всех – только у тех страниц, которые проиндексированы (если по НПС не показало сохраненку, то и по url= не покажет).

Яндекс: на тему “отмены непота”

Началось с того, что wolf создал тему про появление ссылок с занепоченных сайтов в "найденном по ссылке". Предлагалась, в том числе версия, что яндекс решил всех окончательно запутать 🙂
И потом – что результаты выдачи с только ссылочной составляющей обрабатываются особым алгоритмом (хотя тут еще думать надо – выдача то одна, и в ней встречаются оба варианта – с НПС и без), ясно, что результаты поиска по конкурентным запросам все содержат текстовые включения, то выдача и не изменилась.

Т.е., wolf говорит за специальную борьбу с оптимизаторами.

С другой стороы, pro-maker со слов яндексоида (руководитель отдела качества поиска) говорит, что "Сбоя нет. Осознанное изменение для улучшения ранжирования". В общем-то, вопрос был поставлен с двумя вариантами – либо сбой, либо "кардинально изменился подход к учету спамных ссылок".

Но всеж-таки возможности специальной борьбы с оптимизаторами в вопросах не присутствовало. 🙂 Так что ответ про "сбоя нет" не означает, что этой борьбы нет 🙂

Коля Дубр добавляет, что в НПС появились ссылки даже с забаненных доноров. Что, конечно, дает плюс адын в пользу борьбы.

Ну и от меня плюс адын в пользу борьбы с оптимизаторами. У нас тут недавно (до "отмены непота") пробивка случилась… Так вот, среди непотных ссылок были такие, которые разбиты на 2 предложения из-за лимита в 63 слова в предложении у яндкса. Т.е., донор находился, но не подсвечивался (а при разбиении текста ссылки на два куска с оператором & между ними – находился и подсвечивался). А акцептор не находился.

Так вот сейчас акцептор находится по ссылке, но не по двум ее половинкам, разделенным многоточием, а по полному тексту ссылки. Неразбитому.

Так что у меня 2 варианта – либо совсем борятся, запутывают, либо ссылки отделяют от документа неким образом. Так что прошлое сквозное 63-разбиение на предложения для ссылок не действует.

Всей своей враждебной сутью подрывают и вредят,
кормят, поят нас бермутью про таинственный квадрат
(С Высоцкий) 🙂

Яндекс: число слов в ссылке

Денис Иванов публикует результаты своего эксперимента – из текста ссылки учитываются первые 16 слов.
На экспериментальной странице ссылка на яндекс со словами от word001 до word100, яндекс находится по ссылке по запросу word016, но не находится по word017.

Получается, в ссылке учитывается 16 слов, кстати – похоже на тайтл – в нем, кажется, 15 слов 🙂
А что яндекс.хмл дает 32 слова – да и хрен с ним.

Колдунщик таки удалили

Похоже, параметр reqtext пустой в ссылке на сохраненую копию. Колдунщика нету теперь.
Колдунщик просуществовал больше двух лет, и в прошлый раз яндекс убрал ссылку "найденные слова", заменил ее на "сохраненную копию". Тогда уже скопировать кеши казалось полезно, ну и теперь кеши остались.
Скоро, небось, базу переколдованных запросов люди будут продавать 🙂
Теоретически выходы какие:
1. использовать архивы
2. читать литературу, зацитированную Сегаловичем, восстановить метод переколдовки. Там используется, кажется, ассоциированные запросы. Тут думать надо и брать ассоциации из Я…
3. раньше можно было как – страничку "нашел" целенаправленно с допусловиями по сайту, там меняешь чего хочешь и смотришь подсветку. Теперь только сохраненые копии в доступе, с мгновенной подсветкой не выйдет. Так что остается брать по запросу сохраненные копии и в них программно выискивать расхождения (ненайденные слова, стоящие рядом, найденные и стоящие далеко и т.п.)
4. Вставлять между словами операторы (надеемся, что колдунщик еще сохраняет введенное пользователем) и расстояния и другие гипотезы, и сравниваем выдачу. 🙂 Только с весами проблема, их так не определить.
***
Типа того.

yacatalog.narod.ru/admin

Оказывается, добавлялка в яндекс-каталог сделана методом GET (ну типа форма на яндексе отправляется методом GET).
Находим: yacatalog.narod.ru/admin/edit/addfromres.xhtml?lurl волшебную страничку на www.remrus.ru, в которой есть волшебный реферер:

http://yacatalog.narod.ru/admin/edit/addfromres.xhtml?lurl=http://dokamaster.ru/&lname=%u0420%u0435%u043C%u043E%u043D%u0442 %u0431%u044B%u0442%u043E%u0432%u043E%u0439 %u0442%u0435%u0445%u043D%u0438%u043A%u0438 %u0438 %u043E%u0431%u043E%u0440%u0443%u0434%u043E%u0432%u0430%u043D%u0438%u044F.%u0414%u043E%u043A%u0430-%u041C%u0430%u0441%u0442%u0435%u0440.&descr=%u0414%u043E%u043A%u0430-%u041C%u0430%u0441%u0442%u0435%u0440 %u043F%u0440%u0435%u0434%u043B%u0430%u0433%u0430%u0435%u0442 %u0443%u0441%u043B%u0443%u0433%u0438 %u043F%u043E %u0443%u0441%u0442%u0430%u043D%u043E%u0432%u043A%u0435, %u0440%u0435%u043C%u043E%u043D%u0442%u0443 %u0431%u044B%u0442%u043E%u0432%u043E%u0439 %u0442%u0435%u0445%u043D%u0438%u043A%u0438.%u041F%u043B%u0438%u0442%u044B,%u043F%u0435%u0447%u0438,%u0441%u0442%u0438%u0440%u0430%u043B%u044C%u043D%u044B%u0435, %u043F%u043E%u0441%u0443%u0434%u043E%u043C%u043E%u0435%u0447%u043D%u044B%u0435 %u043C%u0430%u0448%u0438%u043D%u044B,%u043B%u0430%u0440%u0438,%u0445%u043E%u043B%u043E%u0434%u0438%u043B%u044C%u043D%u0438%u043A%u0438,%u0442.%u0434. %u041E%u0431%u0441%u043B%u0443%u0436%u0438%u0432%u0430%u043D%u0438%u0435,%u043C%u043E%u043D%u0442%u0430%u0436 %u0438 %u0440%u0435%u043C%u043E%u043D%u0442 %u0440%u0435%u0441%u0442%u043E%u0440%u0430%u043D%u043D%u043E%u0433%u043E,%u043F%u0440%u0430%u0447%u0435%u0447%u043D%u043E%u0433%u043E,%u043F%u0438%u0449%u0435%u0432%u043E%u0433%u043E,%u043F%u0440%u043E%u043C%u044B%u0448%u043B%u0435%u043D%u043D%u043E%u0433%u043E,%u0445%u043E%u043B%u043E%u0434%u0438%u043B%u044C%u043D%u043E%u0433%u043E %u043E%u0431%u043E%u0440%u0443%u0434%u043E%u0432%u0430%u043D%u0438%u044F.%u041B%u044E%u0431%u043E%u0439 %u0441%u043B%u043E%u0436%u043D%u043E%u0441%u0442%u0438.&add_id=543858&theme_add=72&region_add=213&sector_add=2

Внутренности Яндекс-XML

Почитал я тут Яндекс-ХМЛ, там некоторые особенности попадаются…
Из http://help.yandex.ru/xml/?id=362990 – описание ответа яндекса:

<relevance> Приоритет, с которым найден документ, указан в атрибуте:priority= фразовое соответствие, строгое или нестрогое соответствие («phrase»|«strict»|«all»).

<title> Заголовок документа, при этом слова запроса выделены тегами hlword> с атрибутом priority.

<passages> Cписок пассажей текста (см. <passage> ниже) с найденными словами. Как правило, пассаж — это одно предложение, особенно если оно не слишком длинное.

<passage> Один пассаж текста. Слова запроса выделены тегами hlword> с атрибутом priority, содержащим приоритет соответствия пассажа запросу.

<_PassagesType> Часть документов находится по ссылкам. В таких случаях в выдаче Яндекса пишется “текст ссылок: …”. В XML тип содержимого пассажа обозначается так: 0 – обычный пассаж, 1 – пассаж содержит текст ссылок.

В общем, впечатление такое, что в соответствии с яндексовским отчетом по Ромипу http://romip.narod.ru/romip2006/03_yandex.pdf , где есть упоминания о “фразовой” релевантности, похожие же принципы заложены в нынешний поиск…
В общем, надо идти на страницу http://xml.yandex.ru/request_example.xml и пробовать задавать запросы в поле query> 🙂
Самое забавное – то, что релевантность типа “phrase” в реальности не наблюдается, она всегла strict… А вот прикольно то, что выделение слов в выдаче идет с обозначением типа пассажа, и иногда можно в одном фрагменте выделить два разных типа пассажей, к которым слова относятся (phrase и strict) …
Например, с http://xml.yandex.ru/request_example.xml даем запрос окна пластиковые, выдачу ствим по 50 (groups-on-page=”50″).
Видим, что в поле title> выделение слов либо “strict” (когда ПЕРВОЕ ВКЛЮЧЕНИЕ “пластиковые” есть ДО “окон”), либо “phrase” (когда порядок слов в тайтле совпадает с порядком слов в запросе).
А промежуточных вариантов мало – в конце первой 50 есть сайты dreamokna.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">Окна/hlword> Мечты - установка
<hlword priority="strict">пластиковых/hlword>
<hlword priority="strict">окон/hlword> veka kbe rehau, монтаж
<hlword priority="phrase">окон/hlword>
,
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> в кредит, окна veka ( века ), окна kbe ( кбе ), окна rehau ( рехау ), окна пвх
</title> 

и и oknaprofi.ru:

<title>
<hlword priority="strict">Пластиковые/hlword>
<hlword priority="strict">окна/hlword> пвх в Москве - цены, остекление балконов лоджий, производство деревянных
<hlword priority="phrase">окон/hlword>
<hlword priority="phrase">пластиковые/hlword>
<hlword priority="phrase">окна/hlword> пвх, остекление балконов лоджий, пластиковые окна москва
</title> 

-в выдаче тайтлы выделяются одинаковым болдом, :), а внутре они разных типов… Причем явно есть ограничение на число “запросных” слов в пассаже… У второго сайта слова “окона” в конце даже не выделены никакаим болдом, а в реальной выдаче там идет обрезание выводимого тайтла… Причем середина тайтла со “стриктом” заменяется многоточием, а тип релевантности “фрейз” всегда выводится, хоть и стоит в конце…
Такое впечатление, что реально находится первое слово из запроса, и от него идет отсчет числа слов, включенных в выделение от этого пассажа (не говорю “включенных в пассаж”). И тип пассажа по нему же определяется.
Кстати, в теге headline>, который соответствует метаданным, пассажи всегда “стрикт”.
***
Еще одна прикольная вещь. В той же самой выдаче по “окна пластиковые” сайты есть с параметром <categ>:
[code:1:75b4b73ae2]<categ> Описание найденной группы…. name= имя группы. Например, URL сайта при группировке по сайтам или название категории каталога при группировке по категориям; [/code:1:75b4b73ae2]
-прикольно то, что оно иногда пишет “не тот” сайт в “группировке по сайтам”, причем изредка сайты одного владельца попадают:

<categ attr="d" name="balkonwest.ru" /> <domain>www.oknamobifon.ru</domain>
<categ attr="d" name="kbe4you.ru" /> <domain>www.okna4me.ru</domain>
<categ attr="d" name="okna-dar.ru" /> <domain>www.funkeprofi.ru</domain>
<categ attr="d" name="z-host.ru" /> <domain>www.okna-petrov.ru</domain>
<categ attr="d" name="alsico-okna.ru" /> <domain>www.rusokon.ru</domain>
<categ attr="d" name="plastholding.ru" /> <domain>okna-magnit.ru</domain>
<categ attr="d" name="oknavips.ru" /> <domain>www.okna.ru</domain>
<categ attr="d" name="city-okna.ru" /> <domain>oknabm.ru</domain>
<categ attr="d" name="plastik-okna.com" /> <domain>www.favorit-okna.ru</domain>

-интересно, глюк это или так и задумано…

PS В общем, надо копать…

Забавный метод работы с опечатками

Нашел на сайте: http://www.yurcon.ru/error.php – люди делают "типа страницу с неправильными запросами" для продвижения по опечаткам:

" Регестрация предприятий " = " Регистрация предприятий " = 3 000руб. – 8 000руб.
" Регестрация фирм " = " Регистрация фирм "
" Htutcnhfwbz ghtlghbznbq " = " Регистрация предприятий " = 3 000руб. – 8 000руб.
" Htubcnhfwbz ghtlghbznbq " = " Регистрация фирм " = 3 000руб. – 8 000руб.

" регестрация АО " = " регистрация АО ЗАО ООО ОАО "
" htutcnhfwbz FJ PFJ JJJ JFJ" = " регистрация АО ЗАО ООО ОАО"
" htubcnhfwbz FJ PFJ JJJ JFJ" = " регистрация АО ЗАО ООО ОАО"
" регестрация А0 PF0 000 0F0" = " регистрация АО ЗАО ООО ОАО "

" Перерегестрация предприятий " = " Перерегистрация предприятий " = 6 000 руб.
" Gththtutcnhfwbz ghtlghbznbq " = " Перерегистрация предприятий " = 6 000 руб.
" Gththtubcnhfwbz ghtlghbznbq " = " Перерегистрация предприятий " = 6 000 руб.

" Лекведация фирм " = " Ликвидация фирм " = 9 000 руб.
" Ликведация фирм " = " Ликвидация фирм " = 9 000 руб.
" Леквидация фирм " = " Ликвидация фирм " = 9 000 руб.

" Часный предприниматель " = " Частный предприниматель "
" Часный предпренематель " = " Частный предприниматель "
" Часдный предпрениматель " = " Частный предприниматель "
" Чатсный предприниматель " = " Частный предприниматель "

и тут же даны разделы, куда заходить. 🙂

Supplemental Results гугла по конкретному сайту

В блоге kass.ws пример – как посмотреть только Supplemental Results гугла по конкретному сайту.
-view – это не оператор, это “минус белиберда”. Исходный пост с примером Аарона Уолла находится здесь: View All Your Google Supplemental Index Results:

If you want to view ONLY your supplemental results you can use this command
site:www.yoursite.com *** -sljktf

Морфология в stat.go.mail.ru

Когда-то давно (несколько лет назад) в яндекс-статистике запросов была такая бага: при наборе любого местоимения (стоп-слова) яндекс выдавал кусок топа запросов вместо ответа. Я, конечно, сначала сграббил несколько вариантов топа, потом сообщил. Вроде, поправили тогда.
Сейчас яндекс-статсы по запросу “мыло” не дают слов (Что искали со словом «мыло» — 512646 показов в месяц пишет, а слов нет – может, проблемы в технике)…
Но вот мейл.ру извращается с морфологией настолько, что по запросу мыло в статистике запросов вылезает:

моя прекрасная няня 1378
моя реклама 1169
моющий пылесос 751
ты моя жизнь 695
моя семья 657
сериал ты моя жизнь 561
Стася – Зачем топтать мою любовь 321
мой город 306
мой мир 265

и т.д. мыло – это средний род прошедшее время от слова “мыть”, а “моя” – деепричастие, пересекающееся с “мой”. Отсюда, несколько раз морфологизируя, можно дойти от слова “мыло” до слова “мой”.
Или от слова “могут” – к слову “моча” (->могу->мочь – мн.ч. от мочи, что ли? :))
Кстати. описания сервиса http://stat.go.mail.ru/ не нашел, язык запросов хоть какой-нибудь…

Яндекс учитывает окружение ссылки?

Очередная тема на форуме: Яндекс учитывает окружение ссылки? Часть 2.. Первая часть была про тег map, после которого как-то криво весь текст до следующей ссылки попадал в индекс.
Тема о том, что по запросу anchor#link=”www.fit-pro.ru*”[различные тренажеры], где слова “различные” в ссылке нет – Яндекс:
1. Выбирает из массы ссылающихся только ссылающиеся со словом “различные” в пределах предложения:

Различные тренажеры для вашего дома. | Хатха йога – упражнения | спутниковые GPS навигаторы | рукоделие, вышивание, шитье | лунный календарь …

… ремни ликвидация оптимизация налогов Терминалы сбора данных Symbol Различные силовые тренажеры на ваш выбор. цветочный магазин, цветы продажа …

2. Не подсвечивает слово “различные” в сниппете, только “тренажеры”. Т.е., вроде как и “не находит”, но и ведь выбирает в то же время из 70 ссылающихся на www.fit-pro.ru со словом “тренажеры” только те 2, где в пределах предложения есть слово “различные”.
***
Перво-наперво я полез в reqtext – смотреть, вдруг “различные” по кворуму не обязательны. Нет, вес 27% – обязательны для двусловного запроса. Потом начал на ссылающемся сайте и другие примеры выбирать…
Действительно, взять из конца предложения ссылку и поискать с текстом другой ссылки – находит, но не все подсвечивает! anchor#link=”www.mebelproekt.ru”[Изготовление печатей && Шкафы Mr Doors, Купе]. Уже довольно глупо – учитывать текст просто соседний еще ладно, но если это ТЕКСТ СОСЕДНИХ ССЫЛОК – лажа полная получится.
Я бы считал доказательством, если бы по точному запросу в кавычках, где часть запроса НЕТ в ссылке, ссылаемый сайт находился бы как “найден по ссылке”. Но таких примеров найти не удалось. Например, “Различные тренажеры для вашего дома” – полный текст ссылки, кроме sportime.ru ничего не находим.
***
с другой стороны, я начал пробовать “поиск по тексту ссылок” оператором $anchor() – если он не “назовет” ненужное текстом ссылок, то вроде все нормально. Например, по запросу $anchor(спортивные тренажеры для дома) на 10 месте находим некий сайт, похожий на каталог:

ДК СПОРТ- спортивные тренажеры для дома – Кроненберг
Фабрика “DK-sport” основана в 1998 году. Продукция фабрики соответствует Российским стандартвм качества. Это обеспечивает надежность и безопасность тренажеров. Базовый модуль тренажеров выполнен из
www.cronenbergclub.com/catalog/?link=27 · 5 КБ

Смотрим его код – подсвеченные слова “тренажер” в выдаче вообще не являются ссылкой, а находятся на расстоянии нескольких предложений от ссылки.
С другой стороны, текст ссылки совпадает с тайтлом страницы. И выводится без болда на слове “тренажер”. Видимо, сам текст ссылки не попадает в сниппет, т.к. точно тот же текст уже есть в тайтле, и яндекс экономит на выводе одинаковых фрагментов. Такие случаи, что при пустом тайтле вместо тайтла выводится фрагмент найденного есть.
При поиске по словам из описания $anchor(тренажеры стандартвм) находим кучу сайтов, тех же каталогов, в том же виде – в качестве тайтла текст ссылки (совпадает с тайтлом), в качестве описания – описание со словами.
В общем, операторы anchor#link и $anchor() как-то размазывают… Выдают не только текст ссылок, но и окружение. Но вроде как и фильтруют по текстам одновременно. Еще пример того, что оно понимает расстояние в предложениях: $anchor(спортивные тренажеры для дома &&/3 стандартвм).
С другой стороны, примера, в котором по “левым” словам выдается сайт как “найденный по тексту ссылок” я так и не нашел. Поэтому продложаю думать, что это “пользовательская фича” для операторов поиска по тексту ссылок – расширять поиск на осн. текст. Или веса слов там как-то криво учитываются. Короче, поиск по ссылкам же для юзверя сделан, не для нас 🙂
Короче, не думаю, что поиск по текстам окружения ссылок работает. Плюс глупо юзать тексты ОКРУЖАЮЩИХ ССЫЛОК (пример выше).
PS в найденных желтым все нормально выделяет. В описании нет желтого “тренажера”.