кто-нибудь изменения в текстовом видит?

У меня тут есть мониторилка разных параметров выдачи, на этой странице обобщенная статистика, а у меня в глубине есть по разным выборкам из этих данных.
Я как раз собираюсь дать доступ народу.
И вот на http://tools.promosite.ru/monitoring/ я вижу, что общее число страниц “еще с сайта” подскочило. По всем запросам.
У меня настроено так, что если сильное изменение происходит на следующий день после текстового апа, оно не рисуется как “релиз без апдейта”, ибо разные глюки были. Но степень изменения (верхний рисунок) сегодня существенная, и у меня на графике (видите?) и Ашманов подтверждает изменение.

Короче говоря, если бы не был ап вчера, у меня сегодня заорало бы про релиз.

Реальность следующая: везде по текстовым запросам подскочило число найденных страниц “еще с сайта” и подскочило общее число найденных сайтов.
При этом по “нетекстовым” запросам (domain, lang, mime и тп) ничего не изменилось.

Это не (не только?) изменение кворума, т.к. для однословных запросов тоже есть увеличение числа страниц.
Может быть, небольшая амнистия (скрытых страниц, баненных сайтов)?
Может быть, изменение правил оценки числа релевантных страниц с сайта и другого прюнинга?

Если кого интересует. как это выглядит внутри – пишите в камменты емейл, или сразу на [email protected] – пошлю ссылку посмотреть и рекомендации сказать.

фильтр АГС-17: выпадение сайтов из Яндекса

Почему-то не на блоге компании, а на сёрче:
http://www.searchengines.ru/news/archives/008057.html

С начала сентября многие оптимизаторы стали замечать, что на некоторые сайты Яндекс накладывает фильтр, в результате чего в индексе остаётся минимальное число страниц. В Яндексе подтвердили существование автоматического фильтра – АГС-17.

«Робот анализирует содержание всех страниц сайта и принимает решение о включении их в индекс. Если сайт большой, а в поиске участвует лишь несколько его страниц, это означает, что остальные были классифицированы как не имеющие дополнительной ценности для пользователей.

Какое количество страниц будет проиндексировано – зависит от многих факторов, в том числе от качества контента, интереса пользователей к ресурсу и соответствия сайта поисковой лицензии, особенно это касается пункта 3.5. В некоторых случаях число страниц может быть и меньше 10, и больше 10. В любом случае проиндексированных страниц должно быть достаточно для того, чтобы сайт находился по основным запросам, на которые он может дать хороший и релевантный ответ», – прокомментировал для Searchengines.ru менеджер проектов по борьбе с поисковым спамом компании «Яндекс».

Фильтр АГС-17 был введён три года назад. При этом его работу оптимизаторы стали замечать только сейчас. По мнению отдела качества поиска, это объясняется тем, что в последнее время стало появляться большое количество сайтов, страницы которых не выдерживают подобной проверки.

Отметим, что у яндексовского АГС-17 есть тёзка среди современного стрелкового оружия – автоматический станковый гранатомёт АГС-17 «Пламя».

Прикольно, что уже три года существует, видимо, именно сейчас говносайтостроение стало очень массовым. И обучалка обучилась.
на будущее: надо собрать список выпавших говносайтов, качнуть и посмотреть на общие их признаки.

По своему опыту – есть парочка “новостных сайтов”, вообще одинаковых, с кучей копипащенных новостей, ссылка на источних яваскриптовая. Но один на новом домене-нулевке, второй – на брошенной тИЦ10. Раньше на первом было около 50 тыс страниц в индексе, на втором – около 75 тыс.
Трафа на первом было 20-30 хоботов в день, на втором – 250 в день.
Сейчас проверил – на нулевке осталось порядка 10 тыс. страниц, на втором – примерно как было, около 70 тыс.
Контент обновляется везде, добавляются страницы, ссылки не продаются.
Нулевка вылетела, но трафик на нее не изменился – как был близкий к нулю, так и остался.
Понятненько, что тиц 0 – первый признак говносайта :), но и траф тоже фактор (проскакивало, что яндекс у лиру берет данные или парсит их каталог, я в это верю).
Так что вот.

региональный параметр lr= по умолчанию в урле поиска

Пацаны сказали – пацаны сделали 🙂
По умолчанию при поиске в урл поиска Яндекса теперь подставляется региональный параметр lr.
Еще не проверял, как он с айпишниками дружит и с куками, кто кого побеждает.
Раз пошла такая пьянка – прошу компетентных яндексоидов рассказать – а зачем нужно при "поиске по сайту" каждый раз снимать галку "искать на сайте"?
Я упарился ее обратно ставить каждый раз. Раньше был бодрый способ не ставить эту галку – ограничивать поиск хостом – но теперь капчу выплевывает, легче галку по сайту пользовать.
Оставляйте галку, спасибо, пожалуйста, да? 🙂

дартаньяны, типа

Мелкий инфоповод: http://habrahabr.ru/blogs/infosecurity/70330 – типа чуваки нарыли директории, в которых лежали исходники сайтов.
Статья написана по шаблону:
1. Мы охренеть какие крутые, и очень знаем svn.
2. Есть охренеть какая дырка в svn, если все оставить отрытым.
3. Мы сделали глобально мегавесчь – “крутой программер” скачал весь рунет.
4. “скачаны исходники крупнейших сайтов, разосланы письма крупным порталам”, типа мы благородные шописец.

Ненавижу…
На самом деле: чуваки просто парсили дырки в сайтах для себя, но либо мало напарсили, либо из кусочка этой базы решили сделать инфоповод.
У меня есть многодоменный многохостинговый движок, который работает так – все домены алиасами лепятся в одну директорию (везде это безлимитно), и если файлика на хостинге нет (лень же заливать на каждый хостинг), скрипт стучится в главный хостинг, берет файл оттуда, и кладет его на диск (и отдает клиенту сразу). Поддерживает вложенные директории, создает их сам.
И вот как-то я пошарился по этим сайтам – а там насоздавались директории, в том числе и пресловутые .svn – такого вида:

adm
admin
administrator
MSOffice
_vti_bin
bitrix
engine
email
mail
mambots/editors/wysiwygpro [+варианты]
mod [+поддиректории]
rc
roundcube
roundcubemail [+варианты]
webmail
wordpress
и т.д.

-с пустыми файликами, оно все создается при запросах. Просто пацанчики парсили дырки, и кусочек решили выложить, типа не пригодилось.
Я потом упарился эти директории удалять, они от другого юзера были созданы, и через фтп не хотели удаляться, что меня особенно разозлило 🙂

Не исключаю, что не только эти конкретные личности этим занимались.
Но и эти тоже, конечно.

Просите теперь их дать доступы к разным админкам и разослать письма “крупным порталам” 🙂

Айпишники и прочее история не сохранила, чтобы убедиться – парсите свои логи, спрашивайте, что искали в директории /admin/ 🙂

Цены в результатах поиска Google

Гугль позволяет настроить показ цен на странице. На "редкие" товары.

Сегодня мы рады сообщить вам о запуске нового инструмента – "Цены со страницы", который должен облегчить эту задачу. Этот инструмент является частью панели "Настройки поиска" и позволяет увидеть цены на товары прямо в поисковых результатах:

В отличие от большинства существующих поисковиков товаров, наш инструмент извлекает цены прямо из страничек интернет-магазинов, используя технологии искуственного интеллекта. А это значит, что если товар продается в Интернете, то наш инструмент должен его найти и показать вместе с ценой прямо в результатах поиска.

«Цены со страницы» (равно как и их англоязычная версия) были созданы в нашем московском центре разработок и потребовали написания специальных алгоритмов извлечения структурированных данных из весьма неструктурированного Интернета. Зато теперь мы можем находить товары и цены сами, и не ограничиваться только теми магазинами, которые готовы присылать свои прайс-листы. А это очень сильно расширяет ассортимент товаров и выбор магазинов.

Чтобы воспользоваться инструментом, щелкните по ссылке «Показать настройки…», расположенной над результатами поиска, и выберите «Цены со страницы».

Ишь ты, в московском офисе созданы 🙂

inurl – новый оператор Яндекса

Говорят, что про него Сегалович в твиттере написал – надо бы начать пользоваться, чтобы Сегаловича читать 🙂
Но в хелпе есть: http://help.yandex.ru/search/?id=481939

inurl=”url”
Поиск ограничивается группой страниц, URL которых содержит заданный фрагмент.

Ищет и по пути, и по домену, не только целые слова (как в domain), но и фразы поддерживаются, и за вопросительным знаком ищет.
Щас начнется “парсинг баз” дорвейщиками 🙂

Мы не анонсируем новые проекты

Шарился в своем поисковике (пока урл не спалю, а то там ХМЛ используется, и выдача переколбашивается, а они это не разрешают) и по запросу сегалович нашел древнее интервью (27 марта 2006 года), (+ еще прувлинк с яндекса) и увидел там знакомые слова:

Себрант: Расскажи лучше про географию.

Сегалович: Речь вот о чем. Мы в ближайшее время собираемся включить более детальный географический каталогизатор. Нынешний основан только на каталоге, а мы уже научились распознавать сайты и страницы на лету – исходя из IP-адреса, содержания страниц и других факторов. Благодаря этой технологии мы резко увеличим полноту локализованного поиска – текущий алгоритм все же сильно сужает спектр сайтов, доступных для регионального поиска. Объем информации увеличится в разы. Кроме того, география будет помогать отвечать на запрос, который, по нашим представлениям, является географически локализованным. Если человек ищет компьютер в Санкт-Петербурге…

Волож: (перебивает) …то мы будем выдачу немножко подстраивать.

Сегалович: Это тонкий вопрос, будем ли мы подстраивать выдачу. Но это качественно новый уровень продвижения в регионы. У нас, конечно, есть "Яндекс.Города", но это поверхностная локализация. А теперь вся база будет промаркирована посайтно, постранично – что к какому региону относится.

Волож: И если для заграничных сайтов регион – это Россия, то для нас регион – это, скажем, Новосибирская область.

Ну, насчет неанонсирования, ладно, анонсировали.
Но, эээ, три года ушло на-все-про-все. И уже тогда говорилось – "Мы в ближайшее время", "а мы уже научились распознавать сайты и страницы на лету"… Т.е., если все было уже готово?

Ладно, пойду еще раз перечитаю, может, еще что из предсказаний упустил 🙂

я сожгу тебя своим стареньким огнеметом

http://unab0mber.livejournal.com/917436.html

я генерал ФСБ и я отберу у тебя мои деньги которые ты украл у меня на флэш-ферме!

***

Подарки с комемнтариями для создателя адовой игры “Веселая ферма” вконтакте. Я в нее не играл, но, судя по каментам, суть в том, что в игре был какой-то баг, при помощи которого можно было чото делать. также в игре можно было получать бонусы за реальные деньги, ну как везде, в общем-то.
Когда баг открылся, админы “Фермы” типа вайпнули игру, из-за чего все игроки лишились своих то ли ферм, то ли персонажей, то ли еще чего – в том числе и купленных за реальные деньги.

Вслед за этим создателю игры начал приходить такой ад (причем в подарках!!! которые надо купить также вконтакте за реальные деньги), причем вроде бы от взрослых людей (до этого я думал, что в ферму играют какие-нибудь эмо-школьницы). Полностью тут – http://vkontakte.ru/gifts.php?id=3470167 , вот выборочное (особо дико ценить ники + аватар + текст письма):

яндекс.XML+РСЯ: никого нет дома

Бля, еще вчера предупредили о проблемах – http://veterror.ya.ru/replies.xml?item_no=19065 – что лимит на хмл накапливается и не обнуляется.
Не почеслись, сегодня и у меня ничего не берется, лимит превышен, апометр не работает – http://tools.promosite.ru/updates/details.php?data=2009-09-16 (хорошо, апа не было 🙂 ) – письмо в техподдержку в 9 утра.
Ответа нет.
Но я сейчас позвонил в яндекс.

Мне ответили, что по вопросам XML Вася N1 в командировке до 17-го, Вася N2 в командировке до 18-го, и этих Вась никто не замещает.
Как это возможно для компании типа Яндекса?

С техническим народом меня не связали, в РСЯ оказалось, что запросы на увеличение лимита идут через тех же Вась.

Бля, подозреваю, что куча сайтов РСЯ с поиском от XML не работают – лимит превышен.
А ведь в нужное время столько мест для управдомов не найдется.
Яндексоиды! Пора заранее выходить на рынок труда.

Новые глупые тенденции

Я ашмановскую рассылку читаю иногда, захожу в веб-версию. Тут залез чуток в прошлое, нашел, что Андрей Иванов пишет про введение региональности в Яндексе:

Во-первых, идея учесть фактор города (региона), из которого сделан запрос, можно сказать, революционная. Яндекс – первая поисковая система, которая ее реализовала в Рунете.

Это все, конечно, прикольненько, вроде новое. Относительно новое. Надо сказать что-то. А что сказать? Хвалить, конечно….
Но это реально плохо. Почему:
***
Начну с другого сайта – одноклассники.
В интернетах есть такая вещь – УРЛ. Uniform resource locator. Если кто не в курсе.
Это типа значит, что по некоему урлу должен отдаваться примерно один и тот же контент. Чтобы можно было ссылку дать кому-нибудь, и он увидит то же самое, что и ты.
Конечно, есть всякие дипвебы, где от разных акков видно разное, но уж страница пользователя-то должна быть статической. А одноклассники взяли и похерили эту логику. По одной ссылке два раза не войти 🙂
И ведь этот сайт (одноклассники) – сплошные домохозяйки=не знатоки интырнетов. И поэтому подрывается основная логика – дал урл, там все то же и есть.
И ведь ввели это для борьбы с каким-то мелким сервисом, который какие-то открытки посылал, крошки подъедал чуть-чуть. Из-за мелочи.
***
Теперь про яндекс.
Понятненько, что они типа хотели гугля переплюнуть, гугль по странам региональность сделал, а мы типа еще круче. И с водой ребенка выплеснули. Подробно:
1. Гугль очень правильно подумал, что разные страны = разные языки = мало общения между странами = мало обмена этими ссылками. А у яндекса другое дело: страна одна, общения много, передача ссылок вероятна, а покажется по ним… разное. Непонятки, да?
2. Гугль старается отразить язык запроса в урле, пишет &hl=ru, например (понятно, что не полностью то же самое выдается, еще от айпи зависит, но хотя бы стараются!), и в принципе есть возможность юзеру понять – запрос чужой, с чужим языком (да и пишется там где-то на странице поиска). А у Яндекса не так: в урле ничего не отличается, не предупреждается, а контент разный будет. Непонятки.
***
Я, конечно, понимаю, что выдача меняется довольно часто, и, возможно, они подумали, что пока второй юзер зайдет по той же ссылке, все уже сменится.
Но так и общение ускоряется. Зайдут по этой ссылке сейчас и здесь, а увидят другое.
И ведь есть возможность (параметр lr) указать регион (+тоже, как и у гугля, зависимость от айпи есть), ну дак почему ж его в гет-параметры не подставляют?
***
Им насрать просто. Ну так что: будем под гугль продвигать, чуть позже.
Он наступит скоро, надо только подождать. 🙂