я.спектр колбасит

сперва сменили id документов на след день после конфы, потом отменили показ спектра вообще, потом возвращали его обратно – мне по крайней мере было видно – но вроде бы не все видели
А сейчас смотрю – по части запросов опять нет, ни выделения, ни айдишников! 🙂
пицца – "доставка" и "на дом" не выделены, айдишники идут с 49
а в продвижение сайтов есть и выделение, и айдишники с 52.
От жеж колбасит их ))
Видимо, позапросно включают и выключают.

я.спектр вернули обратно ))

ыыы отмену id и подсветки откатили обратно ))
Молодцы чо )
вернули и идентификаторы вида doc id="52-0-Z2853CAE6AE212681", и подсветку.

* минус вам в репу, я уже собрался сервез сделать ))

примеры:
пицца – "доставка" и "на дом" выделены
продвижение сайта – "самостоятельно" у seoshnic.ru вернули.

Короче, back to the USSR
🙂
Кто здесь? ))

Яндекс отменил подсветку и ID спектровых слов…

Это даже лучше, чем "с водой ребенка выплеснуть", приближается к "насрать себе на голову" и "самих себя высечь" ))

Предыстория: на следующий день после моего доклада яндекс сменил идентификаторы документов в выдаче – после этого спектровую примесь стало сложнее отличить от быстроробота.

Ссылка на презентацию доклада «Технология "Спектр" Яндекса и классификация веб-страниц» (это уже поправленная, после изменения идентификаторов на следующий день).

А сегодня следующий шаг – обнаружил, что:
1. Подсветка дополнительных расширяющих слов и многословных фрагментов исчезла.
2. Идентификаторы обычных документов и спектровой примеси стали одинаковыми.

Примеры:
по запросу пицца пропали выделения слов "доставка" и многословного фрагмента "на дом"
по запросу сузуки гранд витара доп. слова типа "фото, отзывы" больше не выделяются
по запросу казани много доп.слов типа "достопримечательнсоти, карта, недвижимость" больше не выделяются
ну и конечно, по продвижение сайта допслово "самостоятельно" у примеси seoshnic.ru уже не выделяется.

При отсутствии изменений в выдаче (примесь на тех же местах) идентификаторы сменились и подсветка исчезла.

Особенно прикольно то, что идентификаторы сменились без текстового апдейта. Вчера идентификаторы были из трех фрагментов и подсветка была, а сегодня из четырех и нет. Вчера все было, проверил по кешу.

Нет, ну понятно, что яндекс немножко борется )), но самим себе вредить – это жостко. ))

***
Почему "насрали на самих себя"? Потому, что подсветка в выдаче должна помогать пользователю. По крайней мере, поможет выбрать один из результатов по тому намерению пользователя, которое он поленился написать в запрос.

И ведь задача подсветки дополнительных слов – отдельная, ее надо было отдельно решать, тратить отдельно на это время. И специально подсвечивали только в пределах первой десятки.

И я понимал про пользу юзера, и поэтому так запросто делал доклад – я не верил, что юзеру сделают плохо из-за каких-то сеошников ) Это не должно было быть отменено в принципе.

А тут взяли и отменили 🙂
Тут, понятно, два варианта: либо ошибались весь год (подсветки СПЕКТРа), либо ошибаются сейчас. Виноваты в любом случае )))

***
Теперь высрался и хочу сказать яндексу небольшое спасибо.
Теперь благодаря яндексу получается, что у меня есть эксклюзивчик – база дополнительных слов и многословных фрагментов.

Раньше-то эти 6.5М запросов мог скачать любой и выяснить все то же самое, а теперь не может. ))

Теперь придется на этих расширяющих спектровых словах (по всем русским запросам, по-хорошему) сделать сервис 🙂

спам: а яндексу можно, типа?

яндекс предупреждает о заражении в письменном виде

Теперь уведомления рассылаются всем, чей сайт подвергся атаке злоумышленников.
***
Адреса доставки уведомлений – указанные в whois или стандартные общепринятые технические адреса (например, webmaster@, admin@, support@)

-это ж боян, такой спам уже давно ходит. Типа ааа, ваш сайт заражен.
а Яндекс считает, что ему то же самое можно, это типа не спам, если от яндекса.))

Каждое письмо содержит ссылку на отписку от уведомлений

-ага, у спамеров тоже содержит.

Яндекс.СПЕКТР сменил id документов, неожиданно за день )

24 и 25 ноября прошла 10я ашмановская конференция по оптимизации сайтов, на которой я планировал два, а сделал три доклада.
Первый – про технологию Спектр (презентацию скоро выложу, видео из профессиональной секции, как я понял, у них не бывает). Вторые два – в секции "парад технологий и сервисов", один про seo-CRM для небольших seo-компаний, которым не хочется для этого держать отдельного программиста, третий – про систему ссылочного продвижения "от меня" (сейчас находится в папке на tools, вот домен сменю и отдельно анонс сделаю).
***
Но я не об этом.
Значит, я в докладе и в презентации показывал, как отличать "спектровые" примеси – по идентификатору документа в XML.
Вчера, в момент доклада, было так:

у обычного результата doc id="49-*-*-*" (4 фрагмента)
у спектра doc id="49-*-*" (3 фрагмента, тот же первый фрагмент – 49)
у быстроробота doc id="53-*-*" (3 фрагмента, другой первый фрагмент)

А сегодня для спектровой примеси стало так:

у спектра doc id="52-*-*" (3 фрагмента, стал другой первый фрагмент – 52)

🙂
Проверил по своему кешу ХМЛ – так и есть.
Вчера у примесного ssve.ru по "продвижению сайтов" был ID 49-118-Z7725D3069AAE1668, а сегодня уже 52-3-Z7725D3069AAE1668. Забавно, еще и остальные фрагменты сменились, не только базу переименовали.
***
Интересно, зачем они это делают? И ведь какая срочность!
Чтобы никто не догадался и все попячились? 🙂
Смешно, чо.

PS внесу изменения в презентацию, попрошу выложить поправленную ))

рассказ про Я.переформулировки, как я понимаю

Получение структуры для поисковых запросов на примере товарных запросов – Юлия Киселева (Яндекс) — cеминар 15.10.2011
как я понимаю, про переформулировки и как их делают.
понятно, не вручную, если ~10% запросов было размечено.
тут уже почти прямым текстом про то, что переформулированный запрос отрабатывает вместо введенного.
***
про учет кликов юзера по выдаче в выборе расширений запроса.
ну с товарами все-таки понятнее, есть четкая структура с брендами, характеристиками и прочим, да и базы для обучения. А для остальных запросов?

кстати в видео упоминался какой-то слив (видимо, размеченных переформулировок) от 2005 года. Жаль, не мне ))

спс g00dman

уязвимости Яндекса

Яндекс открыл конкурс – Месяц поиска уязвимостей Яндекса

Яндекс уделяет большое внимание вопросам безопасности данных своих пользователей. С целью популяризации информационной безопасности в интернете, мы объявляем месяц поиска уязвимостей — предлагаем всем желающим попытаться найти уязвимости в сервисах Яндекса. Победитель получит $5000.

В течение месяца мы будем принимать сообщения об обнаруженных уязвимостях и 25 ноября 2011 года на конференции по информационной безопасности ZeroNights подведём итоги конкурса.

-у меня, кстати есть уязвимость, которая позволяет с любой страницы любого ЧУЖОГО сайта узнать логин посетителя, если тот залогинен в Яндексе. Может, и еще что-то, глубже не копал. Проверил – работает.

Это считается уязвимостью или нет? нужно кому-нибудь? 🙂

Интернет.Обсоски

Внезапно!!!1
Стартовала новая «Интернет-математика»

Цель этого конкретного конкурса — предоставить всем желающим возможность провести исследования по предсказанию релевантности документов по пользовательскому поведению. Специально для конкурса Яндекс предоставляет уникальный набор данных — информацию о переходах на документы из результатов поиска и асессорские оценки релевантности этих документов.

-я тоже внезапно захотел поучастовать, я-то уже во второй раз собрался в конкурсе двухлетней давности поучаствовать – неожиданно осознал, что сервер же с 24 Гб есть. А тогда я понял, что ноут с одним гигом месяц будет считать, и забил на это временно.

Однако по новому конкурсу выяснились дополнительные детали:
http://imat-relpred.yandex.ru/datasets

Важнейшим условием участия в конкурсе является описание метода, с помощью которого было произведен результат (длиной от 150 до 700 символов) на английском (желательно) или на русском языке. Это описание предоставляется вместе с результатами при их загрузке. Организаторы оставляют за собой право аннулировать регистрацию участников, которые предоставляют бессмысленные или неинформативные описания своих результатов.
***
Одним из главных условий получения приза является предоставление полного технического отчета с описанием методики получения результата. Отчет должен содержать достаточно информации, чтобы результат можно было бы воспроизвести без участия самого участника предоставившего результат.

-бгг ))
неужели без отчота не получится померить качество по загруженным наборам для оценки?
вот это реально ахтунг. своих людей и мозгов не хватает?

PS Желаю, чтобы этот случай не лучшим образом сказался на эээ… чем там нынче модно? стоимости акций, да? доле трафикогенерации в рунете, да?

Жесть вообще. Они ищут таланты, бгг.

нужны помощь или советы: побороть медленную заливку в mysql

+ завел тему на серче

Есть много данных, и они заливаются. Но с некоторых пор все стало тормозить. Как бы это побороть?

Что имеется.

* Имеются таблицы, в каждой примерно 1М строк на сейчас, рассчитываю, что будет в разы больше. Но плохо уже сейчас – заливается медленно.

* средняя таблица сейчас:

Данные 436,174 KB
Индекс 79,469 KB

* таблица такая по ключам:

CREATE TABLE `sell_urls` (
`su_id` bigint(20) unsigned NOT NULL auto_increment,
`f_sd_id` bigint(20) NOT NULL default ‘-1’,
`su_url` varchar(255) NOT NULL,
****много полей
PRIMARY KEY (`su_id`),
UNIQUE KEY `f_sd_id` (`f_sd_id`,`su_url`)
) ENGINE=MyISAM DEFAULT CHARSET=cp1251 ROW_FORMAT=FIXED;

* в конфиге mysql, как я понимаю, не должно быть ничего интересного? Key_buffer_size=4G

* mysqld при работе насасывает памяти до 30% (от 24G!!!) – не знаю, важно это или нет.

* заливка происходит из файлов через выполнение команд mysql -u -p dbname < file.sql
В этих файлах лежат запросы вида:

INSERT INTO sell_urls(f_sd_id, su_url, список полей) VALUES (список наборов значений от 1 до 100), (), ()… ON DUPLICATE KEY UPDATE параметр1=IF(параметр2>=VALUES(параметр2),параметр1,IF(параметр1=0,разные значения)), параметр=VALUES(параметр), ….. ;

Много используется этих IF-ов при обновлении.
Т.е. в зависимости от того, что лежит в таблице, происходит перезапись других полей либо нет.
Перезаписываются поля, по которым индексов нет.
Запросы в одном файле полностью относятся к одной таблице, не к разным.
Причем если одни insert, то летает очень быстро, а если update – медленно

* select запросов одновременных к этим таблицам нет вообще.

И все это медленно работает.
Причем на маленьких таблицах работает быстро. Я сначала думал, что это из-за всяких этих IF-ов, но раз на маленьких быстро – наверное, не из-за них?

Сначала еще я сменил ROW_FORMAT на FIXED, потерял на размере, вроде побыстрее стало, но все равно таблицы увеличились и стало медленно.

Что посоветуете сделать?
Разбивать таблицы на маленькие уже не хочется – эта таблица с 1М записей и так одна из 100 после разнесения.