Яндекс.СПЕКТР сменил id документов, неожиданно за день )

24 и 25 ноября прошла 10я ашмановская конференция по оптимизации сайтов, на которой я планировал два, а сделал три доклада.
Первый – про технологию Спектр (презентацию скоро выложу, видео из профессиональной секции, как я понял, у них не бывает). Вторые два – в секции "парад технологий и сервисов", один про seo-CRM для небольших seo-компаний, которым не хочется для этого держать отдельного программиста, третий – про систему ссылочного продвижения "от меня" (сейчас находится в папке на tools, вот домен сменю и отдельно анонс сделаю).
***
Но я не об этом.
Значит, я в докладе и в презентации показывал, как отличать "спектровые" примеси – по идентификатору документа в XML.
Вчера, в момент доклада, было так:

у обычного результата doc id="49-*-*-*" (4 фрагмента)
у спектра doc id="49-*-*" (3 фрагмента, тот же первый фрагмент – 49)
у быстроробота doc id="53-*-*" (3 фрагмента, другой первый фрагмент)

А сегодня для спектровой примеси стало так:

у спектра doc id="52-*-*" (3 фрагмента, стал другой первый фрагмент – 52)

🙂
Проверил по своему кешу ХМЛ – так и есть.
Вчера у примесного ssve.ru по "продвижению сайтов" был ID 49-118-Z7725D3069AAE1668, а сегодня уже 52-3-Z7725D3069AAE1668. Забавно, еще и остальные фрагменты сменились, не только базу переименовали.
***
Интересно, зачем они это делают? И ведь какая срочность!
Чтобы никто не догадался и все попячились? 🙂
Смешно, чо.

PS внесу изменения в презентацию, попрошу выложить поправленную ))

рассказ про Я.переформулировки, как я понимаю

Получение структуры для поисковых запросов на примере товарных запросов – Юлия Киселева (Яндекс) — cеминар 15.10.2011
как я понимаю, про переформулировки и как их делают.
понятно, не вручную, если ~10% запросов было размечено.
тут уже почти прямым текстом про то, что переформулированный запрос отрабатывает вместо введенного.
***
про учет кликов юзера по выдаче в выборе расширений запроса.
ну с товарами все-таки понятнее, есть четкая структура с брендами, характеристиками и прочим, да и базы для обучения. А для остальных запросов?

кстати в видео упоминался какой-то слив (видимо, размеченных переформулировок) от 2005 года. Жаль, не мне ))

спс g00dman

уязвимости Яндекса

Яндекс открыл конкурс – Месяц поиска уязвимостей Яндекса

Яндекс уделяет большое внимание вопросам безопасности данных своих пользователей. С целью популяризации информационной безопасности в интернете, мы объявляем месяц поиска уязвимостей — предлагаем всем желающим попытаться найти уязвимости в сервисах Яндекса. Победитель получит $5000.

В течение месяца мы будем принимать сообщения об обнаруженных уязвимостях и 25 ноября 2011 года на конференции по информационной безопасности ZeroNights подведём итоги конкурса.

-у меня, кстати есть уязвимость, которая позволяет с любой страницы любого ЧУЖОГО сайта узнать логин посетителя, если тот залогинен в Яндексе. Может, и еще что-то, глубже не копал. Проверил – работает.

Это считается уязвимостью или нет? нужно кому-нибудь? 🙂

Интернет.Обсоски

Внезапно!!!1
Стартовала новая «Интернет-математика»

Цель этого конкретного конкурса — предоставить всем желающим возможность провести исследования по предсказанию релевантности документов по пользовательскому поведению. Специально для конкурса Яндекс предоставляет уникальный набор данных — информацию о переходах на документы из результатов поиска и асессорские оценки релевантности этих документов.

-я тоже внезапно захотел поучастовать, я-то уже во второй раз собрался в конкурсе двухлетней давности поучаствовать – неожиданно осознал, что сервер же с 24 Гб есть. А тогда я понял, что ноут с одним гигом месяц будет считать, и забил на это временно.

Однако по новому конкурсу выяснились дополнительные детали:
http://imat-relpred.yandex.ru/datasets

Важнейшим условием участия в конкурсе является описание метода, с помощью которого было произведен результат (длиной от 150 до 700 символов) на английском (желательно) или на русском языке. Это описание предоставляется вместе с результатами при их загрузке. Организаторы оставляют за собой право аннулировать регистрацию участников, которые предоставляют бессмысленные или неинформативные описания своих результатов.
***
Одним из главных условий получения приза является предоставление полного технического отчета с описанием методики получения результата. Отчет должен содержать достаточно информации, чтобы результат можно было бы воспроизвести без участия самого участника предоставившего результат.

-бгг ))
неужели без отчота не получится померить качество по загруженным наборам для оценки?
вот это реально ахтунг. своих людей и мозгов не хватает?

PS Желаю, чтобы этот случай не лучшим образом сказался на эээ… чем там нынче модно? стоимости акций, да? доле трафикогенерации в рунете, да?

Жесть вообще. Они ищут таланты, бгг.

нужны помощь или советы: побороть медленную заливку в mysql

+ завел тему на серче

Есть много данных, и они заливаются. Но с некоторых пор все стало тормозить. Как бы это побороть?

Что имеется.

* Имеются таблицы, в каждой примерно 1М строк на сейчас, рассчитываю, что будет в разы больше. Но плохо уже сейчас – заливается медленно.

* средняя таблица сейчас:

Данные 436,174 KB
Индекс 79,469 KB

* таблица такая по ключам:

CREATE TABLE `sell_urls` (
`su_id` bigint(20) unsigned NOT NULL auto_increment,
`f_sd_id` bigint(20) NOT NULL default ‘-1’,
`su_url` varchar(255) NOT NULL,
****много полей
PRIMARY KEY (`su_id`),
UNIQUE KEY `f_sd_id` (`f_sd_id`,`su_url`)
) ENGINE=MyISAM DEFAULT CHARSET=cp1251 ROW_FORMAT=FIXED;

* в конфиге mysql, как я понимаю, не должно быть ничего интересного? Key_buffer_size=4G

* mysqld при работе насасывает памяти до 30% (от 24G!!!) – не знаю, важно это или нет.

* заливка происходит из файлов через выполнение команд mysql -u -p dbname < file.sql
В этих файлах лежат запросы вида:

INSERT INTO sell_urls(f_sd_id, su_url, список полей) VALUES (список наборов значений от 1 до 100), (), ()… ON DUPLICATE KEY UPDATE параметр1=IF(параметр2>=VALUES(параметр2),параметр1,IF(параметр1=0,разные значения)), параметр=VALUES(параметр), ….. ;

Много используется этих IF-ов при обновлении.
Т.е. в зависимости от того, что лежит в таблице, происходит перезапись других полей либо нет.
Перезаписываются поля, по которым индексов нет.
Запросы в одном файле полностью относятся к одной таблице, не к разным.
Причем если одни insert, то летает очень быстро, а если update – медленно

* select запросов одновременных к этим таблицам нет вообще.

И все это медленно работает.
Причем на маленьких таблицах работает быстро. Я сначала думал, что это из-за всяких этих IF-ов, но раз на маленьких быстро – наверное, не из-за них?

Сначала еще я сменил ROW_FORMAT на FIXED, потерял на размере, вроде побыстрее стало, но все равно таблицы увеличились и стало медленно.

Что посоветуете сделать?
Разбивать таблицы на маленькие уже не хочется – эта таблица с 1М записей и так одна из 100 после разнесения.

переоптимизация или юзабилити?

Странно. Яндекс сообщал, что буки были открыты для тестирования "изменений ранжирования коммерческих сайтов московского региона".

Теперь они сказали, что выложен учет юзабилити сайтов (прямо в выдачу сразу без тестирования? или это и есть те самые изменения ранжирования?), но при этом вроде как выложил и учет переоптимизированных текстов сразу в выдачу.

В письмах в ЯВМ пишут (1) и (2), что "мы обновили поисковый алгоритм":

Как мы уже писали ранее, поисковая система Яндекс отдает предпочтение сайтам, которые нравятся и удобны пользователям, и негативно относится к попыткам повышения релевантности страниц сайта за счет чрезмерного употребления ключевых слов (слов запросов) в текстах. Мы обновили поисковый алгоритм, влияющий на ранжирование страниц, содержащих чрезмерно переоптимизированные тексты, которые предназначены в первую очередь не для пользователей, а для влияния на поисковую систему. Мы считаем, что такие тексты трудночитаемы и малоинформативны для пользователей, а значит, не являются хорошим ответом на запрос.

По мнению алгоритмов Яндекса, на страницах Вашего сайта имеются переоптимизированные тексты, поэтому позиции этих страниц в выдаче могут ухудшиться.Мы рекомендуем Вам пересмотреть контент Вашего сайта, отталкиваясь от интересов и удобства посетителей.

Когда проблема будет устранена, страницы автоматически восстановят свои позиции

Кстати, явно этот фактор (про переоптимизированность) не дискретный, а непрерывный. Т.е., по некоторым сайтам письма не приходили, а позиции съехали. Переоптимизированность недостаточная для отсылки письма 🙂 (хотя есть вариант, что малое число страниц переоптимизировано)
Или это пока предупреждения только? а выкатили только юзабилити?

лекции Расковалова в Екатеринбурге

http://habrahabr.ru/blogs/study/128882/ и http://compsciclub.ru/courses/informationretrieval

С 30 сентября по 2 октября 2011 года в Computer Science клубе в Екатеринбурге Ден Расковалов (Яндекс), один из ведущих российских специалистов по поисковым системам и вопросам качества поиска, прочтёт бесплатный курс лекций «Информационный поиск изнутри».
***
На сайте http://uralcsclub.onwebinar.ru/ будет организована живая интернет трансляция.

1. Архитектура поискового кластера (30.09.2011 – 18:00 – 19:20)
2. Архитектура поискового кластера (30.09.2011 – 19:30 – 20:50)
3. Современные методы улучшения релевантности информационного поиска (01.10.2011 – 18:00 – 19:20)
4. Современные методы улучшения релевантности информационного поиска (01.10.2011 – 19:30 – 20:50)
5. Современные методы увеличения производительности информационного поиска (02.10.2011 – 18:00 – 19:20)
6. Современные методы увеличения производительности информационного поиска (02.10.2011 – 19:30 – 20:50)

Матрикснет в Рекламной сети Яндекса – в каком периоде?

Матрикснет в Рекламной сети Яндекса

В августе Яндекс начал использовать систему машинного обучения Матрикснет для показа объявлений на тематических площадках рекламной сети, где реклама показывается пользователю в соответствии с его интересами и содержанием веб-страницы.

Новая формула отбора учитывает большее число факторов, в том числе особенности поведения пользователя в сети, что позволило отбирать для показа пользователям более интересные им рекламные объявления. В результате система точнее прогнозирует вероятность клика по объявлению — в течение первой недели после внедрения Матрикснета кликабельность объявлений выросла в среднем на 22%.

С внедрением новой формулы на сайтах рекламной сети средняя цена за клик понизилась на 12%, то есть размещать рекламу в РСЯ стало выгоднее. При этом выиграли и владельцы площадок — за счет увеличения количества кликов их доход в среднем по сети вырос на 10%.

Машинное обучение позволит и дальше совершенствовать формулу, добавляя в нее новые факторы. Таким образом можно будет ещё точнее определять, какая реклама нужна пользователю в данный момент.

-интересно, что именно является параметром, который оптимизируется. "Счастье пользователя (=бабло в долгосрочном периоде)" или "Счастье Яндекса / Директа (=бабло в краткосрочном периоде)"?

наиболее взламываемые CMS

Яндекс опубликовал немного статистики по топам сайтов вообще и топам взломанных сайтов.
Так-то понятно, что это фактически "взламываемость" в среднем по больнице, только Яндекс постеснялся ее так прямо называть.
Очень жалко, что нет числовых данных. Тогда можно было бы разделить "популярность взломанных" на "общую популярность", чтобы прикинуть отношение.
В комментах попросили учитывать криворукость админов. Понятно, что это не выйдет. Но вместо этого можно было бы учесть айпишники этих самых 10 тыс. топовых сайтов (по топу взлома и популярности). В том смысле, что можно посчитать аналогичную статистику, но с гарантированно разными айпишниками. Это дало бы приближенную к реальности картину по разному железу – более вероятно.
Тогда взломы устойчивых ЦМС через взлом сервера через один из аккаутнов (одну из ЦМС) на сервере – были бы в бОльшей степени исключены.