Интернет.Обсоски

Внезапно!!!1
Стартовала новая «Интернет-математика»

Цель этого конкретного конкурса — предоставить всем желающим возможность провести исследования по предсказанию релевантности документов по пользовательскому поведению. Специально для конкурса Яндекс предоставляет уникальный набор данных — информацию о переходах на документы из результатов поиска и асессорские оценки релевантности этих документов.

-я тоже внезапно захотел поучастовать, я-то уже во второй раз собрался в конкурсе двухлетней давности поучаствовать – неожиданно осознал, что сервер же с 24 Гб есть. А тогда я понял, что ноут с одним гигом месяц будет считать, и забил на это временно.

Однако по новому конкурсу выяснились дополнительные детали:
http://imat-relpred.yandex.ru/datasets

Важнейшим условием участия в конкурсе является описание метода, с помощью которого было произведен результат (длиной от 150 до 700 символов) на английском (желательно) или на русском языке. Это описание предоставляется вместе с результатами при их загрузке. Организаторы оставляют за собой право аннулировать регистрацию участников, которые предоставляют бессмысленные или неинформативные описания своих результатов.
***
Одним из главных условий получения приза является предоставление полного технического отчета с описанием методики получения результата. Отчет должен содержать достаточно информации, чтобы результат можно было бы воспроизвести без участия самого участника предоставившего результат.

-бгг ))
неужели без отчота не получится померить качество по загруженным наборам для оценки?
вот это реально ахтунг. своих людей и мозгов не хватает?

PS Желаю, чтобы этот случай не лучшим образом сказался на эээ… чем там нынче модно? стоимости акций, да? доле трафикогенерации в рунете, да?

Жесть вообще. Они ищут таланты, бгг.

нужны помощь или советы: побороть медленную заливку в mysql

+ завел тему на серче

Есть много данных, и они заливаются. Но с некоторых пор все стало тормозить. Как бы это побороть?

Что имеется.

* Имеются таблицы, в каждой примерно 1М строк на сейчас, рассчитываю, что будет в разы больше. Но плохо уже сейчас – заливается медленно.

* средняя таблица сейчас:

Данные 436,174 KB
Индекс 79,469 KB

* таблица такая по ключам:

CREATE TABLE `sell_urls` (
`su_id` bigint(20) unsigned NOT NULL auto_increment,
`f_sd_id` bigint(20) NOT NULL default ‘-1’,
`su_url` varchar(255) NOT NULL,
****много полей
PRIMARY KEY (`su_id`),
UNIQUE KEY `f_sd_id` (`f_sd_id`,`su_url`)
) ENGINE=MyISAM DEFAULT CHARSET=cp1251 ROW_FORMAT=FIXED;

* в конфиге mysql, как я понимаю, не должно быть ничего интересного? Key_buffer_size=4G

* mysqld при работе насасывает памяти до 30% (от 24G!!!) – не знаю, важно это или нет.

* заливка происходит из файлов через выполнение команд mysql -u -p dbname < file.sql
В этих файлах лежат запросы вида:

INSERT INTO sell_urls(f_sd_id, su_url, список полей) VALUES (список наборов значений от 1 до 100), (), ()… ON DUPLICATE KEY UPDATE параметр1=IF(параметр2>=VALUES(параметр2),параметр1,IF(параметр1=0,разные значения)), параметр=VALUES(параметр), ….. ;

Много используется этих IF-ов при обновлении.
Т.е. в зависимости от того, что лежит в таблице, происходит перезапись других полей либо нет.
Перезаписываются поля, по которым индексов нет.
Запросы в одном файле полностью относятся к одной таблице, не к разным.
Причем если одни insert, то летает очень быстро, а если update – медленно

* select запросов одновременных к этим таблицам нет вообще.

И все это медленно работает.
Причем на маленьких таблицах работает быстро. Я сначала думал, что это из-за всяких этих IF-ов, но раз на маленьких быстро – наверное, не из-за них?

Сначала еще я сменил ROW_FORMAT на FIXED, потерял на размере, вроде побыстрее стало, но все равно таблицы увеличились и стало медленно.

Что посоветуете сделать?
Разбивать таблицы на маленькие уже не хочется – эта таблица с 1М записей и так одна из 100 после разнесения.

переоптимизация или юзабилити?

Странно. Яндекс сообщал, что буки были открыты для тестирования "изменений ранжирования коммерческих сайтов московского региона".

Теперь они сказали, что выложен учет юзабилити сайтов (прямо в выдачу сразу без тестирования? или это и есть те самые изменения ранжирования?), но при этом вроде как выложил и учет переоптимизированных текстов сразу в выдачу.

В письмах в ЯВМ пишут (1) и (2), что "мы обновили поисковый алгоритм":

Как мы уже писали ранее, поисковая система Яндекс отдает предпочтение сайтам, которые нравятся и удобны пользователям, и негативно относится к попыткам повышения релевантности страниц сайта за счет чрезмерного употребления ключевых слов (слов запросов) в текстах. Мы обновили поисковый алгоритм, влияющий на ранжирование страниц, содержащих чрезмерно переоптимизированные тексты, которые предназначены в первую очередь не для пользователей, а для влияния на поисковую систему. Мы считаем, что такие тексты трудночитаемы и малоинформативны для пользователей, а значит, не являются хорошим ответом на запрос.

По мнению алгоритмов Яндекса, на страницах Вашего сайта имеются переоптимизированные тексты, поэтому позиции этих страниц в выдаче могут ухудшиться.Мы рекомендуем Вам пересмотреть контент Вашего сайта, отталкиваясь от интересов и удобства посетителей.

Когда проблема будет устранена, страницы автоматически восстановят свои позиции

Кстати, явно этот фактор (про переоптимизированность) не дискретный, а непрерывный. Т.е., по некоторым сайтам письма не приходили, а позиции съехали. Переоптимизированность недостаточная для отсылки письма 🙂 (хотя есть вариант, что малое число страниц переоптимизировано)
Или это пока предупреждения только? а выкатили только юзабилити?