там же в ШАД проскакивал и сайт machinelearning.ru и вся программа Воронцова про ML с pdf-текстами, правда, часто презентация есть, а текста лекций нет.
Автор: Евгений Трофименко
Видеолекции Школы анализа данных будут выкаладываться
Школа анализа данных Яндекса начнет выкладывать видеолекции в открытый доступ.
Сейчас выложены две лекции Воронцова с презентациями по курсу "машинное обучение".
Круговорот власти в природе
Древние греки с римлянами сформулировали принцип круговорота власти в природе. Он примерно такой:
1. Допустим, изначально был один правитель – царь, король. Не суть важно, как он появился, – может, самопровозгласился, может, народ его выбрал. Но это реально хороший человек, которому непохуй на народ, который честно хочет народу добра. Название: монархия, перевод – "власть одного".
2. У него возникают дети, и монарх хоть и старается воспитывать детей по своему подобию, но это не всегда получается – дети вырастают на всем готовом и постепенно охуевают – начинают душить народ налогами-взятками, едят комариные брови в сметане. Название: тирания.
3. Это начинает подзаёбывать, и верхушка хороших людей, которые хотят народу добра, немножко режет этого тирана и начинает править сама. Людей несколько, рулят совместно. Название: аристократия, перевод – "власть лучших".
4. У аристократов дети тоже постепенно охуевают на всем готовом и начинают тянуть и душить, отнимать и делить, и еще вдобавок бороться друг с другом. Название: олигархия, перевод – "власть немногих". Сейчас у нас примерно это, думаю.
5. Народу это блять не нравится, он митингует и свергает этих немногих нахуй. Но при этом народ весь такой правильный. То есть – они хотят правильного и хорошо жить. Название: демократия, перевод – "власть народа". (конечно, той демократии нигде нет, в том числе и в америках, там тоже олигархия)
6. Народ от свободы тоже естественным путем охуевает и бесится. Вседозволенность дает себя знать. Название: охлократия, перевод – "власть толпы".
7. Толпу тоже подзаёбывает после того, как она перебесится, и один из лидеров либо сам начинает править, либо типа с молчаливого согласия – переходим к монархии, к п.1, круговорот.
clues.yahoo.com – ассоциации, демография, EN
послушал видео Павла Браславского (Яндекс) про классификацию поисковых запросов (следующих еще несколько там)
упомянут сервис http://clues.yahoo.com/ – по словам куча данных, жаль только англоязычные и часть слов выпилена.
пример – mortgage
1. пол и возраст
2. другие популярные запросы по выборке (“From age 25 to 34, popular queries with men searching for mortgage were”)
3. распределение по географии (интересно, нормировано на общую посещаемость или как)
4. SEARCH FLOW – предшествующие запросы и последующие запросы. Круто.
5. ну и собственно связанные запросы
перелинковочка зарулила?
есть у меня сайтик РФ-ный чисто для пробы зоны: http://что-означает.рф/
ну и там отпарсенные и сведенные в один словари, UTF-урлы русские.
в сумме 120 тыс. словарных статей, но всю дорогу не индексировалось больше 8-10 тыс., да и то – часто вылетало в АГС (дублей много, понятное дело).
и всю дорогу там посещалка была типа 20-50 хостов в день.
и тут вдруг: около 4-10 декабря 2011 посещалка резко подпрыгнула до 1.5-2К в день, в основном НЧ-запросы вида “что означает ***”, “значение слова ***”. Сайтик стал выдаваться. Сейчас посещалка растет, уже до 3К доходит, страниц тоже 80+К.
может, конечно, и просто отстялся (год как раз прошел), но я все-таки думаю на внутреннюю перелинковку.
***
Особенность сайта – что страницы слинкованы. Причем использованы хитрые алгоритмы :), и может создаться впечатление, что человек линковал – ссылки на соседние словарные статьи реально по теме. Но, конечно, все автоматом делалось.
Может, она и зарулила?
Есть ли у кого примеры за-против?
я.спектр колбасит
сперва сменили id документов на след день после конфы, потом отменили показ спектра вообще, потом возвращали его обратно – мне по крайней мере было видно – но вроде бы не все видели…
А сейчас смотрю – по части запросов опять нет, ни выделения, ни айдишников! 🙂
пицца – "доставка" и "на дом" не выделены, айдишники идут с 49
а в продвижение сайтов есть и выделение, и айдишники с 52.
От жеж колбасит их ))
Видимо, позапросно включают и выключают.
я.спектр вернули обратно ))
ыыы отмену id и подсветки откатили обратно ))
Молодцы чо )
вернули и идентификаторы вида doc id="52-0-Z2853CAE6AE212681", и подсветку.
* минус вам в репу, я уже собрался сервез сделать ))
примеры:
пицца – "доставка" и "на дом" выделены
продвижение сайта – "самостоятельно" у seoshnic.ru вернули.
Короче, back to the USSR
🙂
Кто здесь? ))
Яндекс отменил подсветку и ID спектровых слов…
Это даже лучше, чем "с водой ребенка выплеснуть", приближается к "насрать себе на голову" и "самих себя высечь" ))
Предыстория: на следующий день после моего доклада яндекс сменил идентификаторы документов в выдаче – после этого спектровую примесь стало сложнее отличить от быстроробота.
Ссылка на презентацию доклада «Технология "Спектр" Яндекса и классификация веб-страниц» (это уже поправленная, после изменения идентификаторов на следующий день).
А сегодня следующий шаг – обнаружил, что:
1. Подсветка дополнительных расширяющих слов и многословных фрагментов исчезла.
2. Идентификаторы обычных документов и спектровой примеси стали одинаковыми.
Примеры:
по запросу пицца пропали выделения слов "доставка" и многословного фрагмента "на дом"
по запросу сузуки гранд витара доп. слова типа "фото, отзывы" больше не выделяются
по запросу казани много доп.слов типа "достопримечательнсоти, карта, недвижимость" больше не выделяются
ну и конечно, по продвижение сайта допслово "самостоятельно" у примеси seoshnic.ru уже не выделяется.
При отсутствии изменений в выдаче (примесь на тех же местах) идентификаторы сменились и подсветка исчезла.
Особенно прикольно то, что идентификаторы сменились без текстового апдейта. Вчера идентификаторы были из трех фрагментов и подсветка была, а сегодня из четырех и нет. Вчера все было, проверил по кешу.
Нет, ну понятно, что яндекс немножко борется )), но самим себе вредить – это жостко. ))
***
Почему "насрали на самих себя"? Потому, что подсветка в выдаче должна помогать пользователю. По крайней мере, поможет выбрать один из результатов по тому намерению пользователя, которое он поленился написать в запрос.
И ведь задача подсветки дополнительных слов – отдельная, ее надо было отдельно решать, тратить отдельно на это время. И специально подсвечивали только в пределах первой десятки.
И я понимал про пользу юзера, и поэтому так запросто делал доклад – я не верил, что юзеру сделают плохо из-за каких-то сеошников ) Это не должно было быть отменено в принципе.
А тут взяли и отменили 🙂
Тут, понятно, два варианта: либо ошибались весь год (подсветки СПЕКТРа), либо ошибаются сейчас. Виноваты в любом случае )))
***
Теперь высрался и хочу сказать яндексу небольшое спасибо.
Теперь благодаря яндексу получается, что у меня есть эксклюзивчик – база дополнительных слов и многословных фрагментов.
Раньше-то эти 6.5М запросов мог скачать любой и выяснить все то же самое, а теперь не может. ))
Теперь придется на этих расширяющих спектровых словах (по всем русским запросам, по-хорошему) сделать сервис 🙂
оптимизатор бдбд … 20 лет спустя
… 20 лет спустя
спам: а яндексу можно, типа?
яндекс предупреждает о заражении в письменном виде
Теперь уведомления рассылаются всем, чей сайт подвергся атаке злоумышленников.
***
Адреса доставки уведомлений – указанные в whois или стандартные общепринятые технические адреса (например, webmaster@, admin@, support@)
-это ж боян, такой спам уже давно ходит. Типа ааа, ваш сайт заражен.
а Яндекс считает, что ему то же самое можно, это типа не спам, если от яндекса.))
Каждое письмо содержит ссылку на отписку от уведомлений
-ага, у спамеров тоже содержит.