Собрал свою стату по last20

У меня пробивалка ласт20 на подозрительные запросы не только подозрительные пишет, но еще и обычные запросы собирает. Ну, оно уже давно стоит, хотя и с перебоями работает – вот решил собрать все запросы.

Итог:
всего запросов 68906463 (69 млн.)
уникальных запросов 28016725 (28 млн.)
всего фрагментов "одноклассник" 317673 (как в вордстате, по всем запросам. Для нормировки)
точных запросов "одноклассники" 117820

Конечно, там вычищено – порнухи и секса нет. Но зато коммерческие запросы есть. Этим будет отличаться от ливинтернетовских баз – там порнуха есть, но в коммерческих запросах должна быть дыра – сайты стату закрывают же.

Впору свою базу продавать ))

Cognitive продала Яндексу синтаксический анализатор

Cognitive продала Яндексу синтаксический анализатор
Интересно, какая основная цель – определение авторства (первоисточника) или борьбе с генеренными текстами (марков, синонимизаторы). Или извлечение фактов из текста?
Но я не очень верю, что получится что-то хорошее. Умных технологий можно придумать много, но на объемах текстов рунета они "не шмогут".
Значит, упрощения рулят. Надо про это почитать ))

Компания Cognitive Technologies объявляет о продаже (предоставление права использования за вознаграждение) компании «Яндекс» Программного Комплекса, включающего в себя возможности синтаксического анализа текста.

Синтаксический анализатор позволяет определить, какими синтаксическими отношениями связаны слова предложения. Это может звучать неожиданно, но для понимания текста эта информация гораздо важнее, чем значение отдельных слов. Потеря знаков препинания в классической фразе «казнить нельзя помиловать» приводит именно к потере однозначности синтаксических связей.

Использование синтаксического анализатора для больших корпусов текста позволяет определять и изучать статистические закономерности языка (встречаемость слов и конструкций). Такого рода закономерности могут быть использованы, в частности, при разрешении неоднозначностей (например «ключ упал на пол» и «в камнях забил ключ»), возникающих во время синтаксического разбора, а также при построении статистических моделей языка для распознавания слитной речи. Стоит отметить, что возможность разрешения неоднозначностей является одной из важнейших характеристик, отличающих лингвистические технологии разработанные Cognitive Technologies.

Применение синтаксического анализатора также позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения.

На основе данного программного комплекса компанией Cognitive Technologies создан ряд интеллектуальных программных продуктов, например системы определения авторства и стиля документа.

via

Какие нынче есть автопродвигалки?

Автоматические. Хочется их типа независимо протестировать.

Что я знаю:
1. Сеопульт
2. реинкарнация Реактора – rookii
3. Вебэффектор
4. на Мегаиндексе вроде автопродвигалка есть, письма шлют про нее
5. Маремото не считаем по двум причинам (одна из них – что он не со всеми запросами работает)

Еще какие-нибудь есть?

Яндекс начал переиндексацию, оживает )

Блин, я понял, почему вчера, при очень слабом апдейте (за 1 день, считай), выдачу мощно переколбасило (82% изменений пар сайтов).
Потому, что в последнее время, с введением Снежинска, Яндекс забил на переиндексацию, и число проиндексированных страниц постепенно падало: на морде http://tools.promosite.ru/ в самом низу страницы первый график (сумма по дням за последние 3 месяца), отдельную страницу под это потом сделаю.
Я кусок этого графика показывал на конфе, и там первое плавное падение связано с чисткой АГС, а падение в районе октября – со Снежинском. Имхо.

И вот вчера, 10 декабря, число проиндексированных страниц подпрыгнуло процентов на 15.

Вывод: хоть выложили мало “свежего” индексата, выложили много старого переиндексата. Понятно: старые ссылки учлись и т.п.
Отчего и выдачу мощно попячило.

ЗЫ Я, кстати, могу вычесть одни цифры из других, и посмотреть, за какие именно дни в прошлом была переиндексация.

в рубель

Когда бакс падал (на самом деле рубль рос, но не суть) – куча воплей было – типа пипец америке и все такое.

Несколько дней случайно вижу цифры на обменниках – бак растет на 0.5-1 р в день (ну в обменниках цифры прыгают)

Вот пруфлинк курса по ЦБ. Почему не слышно воплей?

Это при том, что привычное состояние – падение бака к новому году (типа люди достают заначки в баках и меняют на рубли для покупок, баков избыток, они дешевеют).

Чо ваще происходит, где все? 🙂

апдейты дохлеют :(

у меня сегодня апа вовремя не заметило http://tools.promosite.ru/updates/details.php?data=2009-12-10 – там нижний лимит по числу сайтов стоял, как раз 14 тысяч :), а апнуло за один день, фактически, – за 6 декабря, и сайтов как раз 13 тысяч русских, буржуйских 2700.

И ап был пропущен сегодня.

Но лимит я подправил, теперь 2 тысячи 🙂

Все-таки слабые апдейты стали, с перерывами в несколько дней.
Вот сейчас, фактически, выложен только русский индекс за один день.

Маловато будет!

ЗЫ УПД посмотрел на морду – там у меня график рисуется по числу проиндексированных страниц – не вижу 6 числа, и все!
Навел мышкой на число сайтов – там число найденных страниц рисуется, и нарисовалось очень мало – за 6 число при 11 тыс. русских сайтов 58 тыс страниц: это очень мало. Для сравнения, за 1 число при 21 тыс. ру-сайтов рисуется 17 миллионов страниц!

И переправил лимит обратно. Не хочу такие дохлоапы показывать! В будущем перейду к учету по страницам.

виджет добавили

Виджет для апометра добавили в каталог виджетов http://www.yandex.ru/catalog/ – почему-то он попал сразу на первую страницу, второй с конца. Зато по выходным работают!

У виджета щас 202 юзера, хм, не очень-то много у них юзеров, если сразу на первую попал.
А ссылко с каталога небось трастовое! 🙂
И лого, типа, прикольное у моего виджета 🙂

catchup

"скоро появится кетчуп, который всех сожрет" – так тов. Готовцев анонсировал на каком-то из КИБов (древнем, 2006 кажется) свой (совместный с Д. Завалишиным, который "Фантом") сервез catchup.ru

Типа сервез встреч:

CatchUp ("КетчАп", от английского слова "догнать" или "поймать") – это сервис, придуманный для активных людей и помогающий им встречаться чаще. При его помощи можно узнать, где находятся и чем заняты Ваши друзья, а также показать свое местоположение им.

Как это работает? Очень просто. Когда вы приходите в любое место, где будете рады видеть друзей, вам просто нужно сообщить системе о своем расположении и занятии, например "я отдыхаю в "Пропаганде", не забыв при этом указать, сколько времени вы планируете там оставаться. В ленте друзей вы можете увидеть подобные статусы всех пользователей, которые интересны вам. Например, в вашей ленте есть Маша Иванова. Взглянув на ее статус, вы можете узнать, что она еще полтора часа планирует посвятить маникюру и в это время ей можно позвонить. Вы звоните Маше и приглашаете ее в "Пропаганду". А если не дозвонились, Маша сама, закончив маникюр, просмотрит список друзей и решит, куда ей поехать дальше – к вам в "Пропаганду" или к друзьям пить коктейли в "30/7".

Вполне возможно, что вам не захочется показывать свой статус всем подряд. Тогда при выборе статуса вы можете ограничить его просмотр только своими друзьями.

Работать с "CatchUp" можно через сайт или при помощи специальной программы, которая легко устанавливается на большинство мобильных телефонов и КПК.

Сервис "CatchUp" бесплатный для всех пользователей!

А теперь домен освобождается, 7 ноября, реально во вторник уйдет.

Так-то.
Не сожрал, кажись, никого.

сделал яндекс-виджет для апометра

для апометра сделал виджет с картинкой – для морды Яндекса (степень изменения выдачи)
————–
Правильные апдейты Яндекса с картинкой
Апдейты Яндекса – текстовая база, тИЦ, релизы алгоритма. И м.б. еще чего-нибудь добавлю.
http://www.yandex.ru?add=10156
————–
Это ифрейм-виджет, просмотреть можно тут: http://tools.promosite.ru/widget.php

Типа нужно 75 пользователей, чтобы добавиться в каталог виджетов.
Прошу подписываться! 🙂