Яндекс вслед за Google – научные стипендии

Положение о научных стипендиях Яндекса

http://company.yandex.ru/grant/index.xml , deadline: 31 октября 2004 года.
А вот здесь (приложение 1) описано, что Яндекс интересует:

  1. Автоматическая обработка текста, лингвистика
    • Статистические и семантические методы текстового поиска применительно к вебу
    • Морфологические, синтаксические анализаторы
    • Снятие лексической, семантической неоднозначности
    • Нахождение и использование кросс-языковых ресурсов
  2. Анализ поисковых запросов, сеансов и протоколов
    • Построение и использование тезаурусов по пользовательским сеансам
    • Тематическая классификация запросов
    • Моделирование информационной потребности и поведения пользователя
    • Влияние сеанса и профиля пользователя на ранжирование
    • Статистическая и синтаксическая сегментация запроса, переформулирование запроса
  3. Мультимедийный поиск

    • Поиск изображений и музыки по содержанию
    • Кластеризация и классификация изображений
  4. Оценка качества поиска
    • Автоматические системы оценки качества поиска
    • Анализ поведения пользователей для оценки качества
  5. Производительность и распределенные системы

    • Эффективное исполнение запроса в распределенных системах: переформулирование запроса и выбор текстовых баз
    • Оптимизация, учитывающая ранжирование; частичные ответы
  6. Анализ ссылок в вебе

    • Меры популярности страниц, построенные на основе анализа ссылок
    • Обнаружение и анализ сообществ, их тематики, учет знания о сообществах в поиске
    • Обратная связь со стороны поисковых систем
    • Динамика появления и исчезновения ссылок, характеристики и модели веб-графа
  7. Структура веб-сайтов и веб-страниц; полудубликаты
    • Сегментация веб-страниц, выделение записей баз данных и данных, содержащихся в страницах, сгенерированных по шаблонам
    • Выявление структуры и функциональности веб-сайтов
    • Алгоритмы выявления дублей документов и «зеркал» сайтов; построение и использование сигнатур, устойчивых к небольшим изменениям документов
  8. Автоматическая классификация веб-страниц и веб-сайтов
    • Веб-каталог как учитель: классификация по зашумленным или неполным обучающим выборкам
    • Классификация с использованием гиперссылок
    • Построение и модификация тематических рубрикаторов на основе веб-корпуса
  9. Анализ стиля
    • Построение жанрового рубрикатора Веба; прослеживание эволюции традиционных и выявление новых функциональных стилей в Вебе
    • Жанровая классификация веб-текстов
    • Выявление положительных и отрицательных оценок в текстах
    • Выявление ангажированных и рекламных текстов
  10. Автоматическая обработка новостей

    • Разбиение потока новостных сообщений на событийные сюжеты
    • Построение иерархической структуры событийных сюжетов
    • Представление событийного сюжета: аннотирование, исправление фактических и стилистических ошибок в аннотациях
    • Устранение избыточности и дублирования в новостных сюжетах
    • Технология извлечения фактов для анализа новостей
    • Персонализация новостного потока
    • Рапространение информации в лентах СМИ и дневниках
  11. Автоматическое аннотирование, отвечание на вопросы

    • Составление аннотации для набора документов: аннотирование результата поиска, новостного сюжета, построение summary для сайта и т.п.
    • Аннотирование документов в зависимости от контекста: поискового запроса, жанра документа, пользовательского профиля и т.п.
    • Представление результата поиска: структурирование, аннотирование, отвечание на вопросы
    • Учет текстов ссылок при аннотировании документов, сайтов и результатов поиска
  12. Рекомендующие системы и совместная фильтрация
    • Анализ поведения пользователей интернет-магазинов, переходов пользователей
    • Совместный анализ предпочтений пользователей

А вот что Яндекс может для решения этих задач предоставить:

  1. Хост-граф Веба: ориентированный граф, вершинам которого соответствуют сайты (российского интернета), а ребрам – унифицированные ссылки между сайтами
  2. Каталог Яндекса: структура и наполнение рубрикаторов (тематического, регионального и т.д.); url-адреса, заголовки и описания веб-ресурсов.
  3. База Яндекс.Маркета: структура и наполнение товарных рубрик; описания товарных позиций, зашифрованные идентификаторы товарных позиций и продавцов
  4. Репрезентативная выборка из нескольких сотен тысяч веб-страниц в виде заархивированных текстов и поискового индекса с программным интерфейсом к ним; информация о классификационных признаках этих веб-страниц, взятая из Яндекс.Каталога
  5. Архивы протоколов запросов по различным поисковым источникам (Веб, Яндекс.Маркет и т.п.) с зашифрованными идентификаторами пользователей и статистикой результатов поиска; архивы протоколов переходов с результатов поиска по этим поисковым источникам
  6. Выборка новостных сообщений от нескольких новостных агентств с указанием
    дат и тематических категорий сообщений

-из списка мне лично пригодились бы первый и пятый пункты. Подать заявку, что ли? 🙂 Но, думаю, не интересуют их измышления таких людей, как я… 🙁

Надумал-таки способ определять ‘самое главное’ зеркало сайта

Итак, если сайт с зеркалом зарегистрирован в Яндекс-каталоге, один из доменов отвалился, то будет показываться “неглавное” зеркало.
Как определить, какое главное и стоит ли покупать освобожденное?
Предположение: когда оба зеркала доступны, в ЯК показывается главное зеркало. Осталось взять где-нибудь кеш страницы ЯК. Взять его можно в Гугле.
Примеры.
1) Завтра освобождается домен positive-pr.ru, который сейчас зеркало positivepr.ru. Какое главное? Ищем в Гугле site:yaca.yandex.ru positive-pr.ru – пусто! Ищем тогда site:yaca.yandex.ru positivepr.ru – находим страницу ЯК yaca.yandex.ru/yca/cat/Business/Marketing_and_Advertising/24.html, в кеше Гугля которой находится тот самый сайт с тИЦом 90, данные от 21 февраля.
2) Завтра освобождается домен blatata.ru с тИЦом 400, зеркало blatata.com, на сайт ведут 157 ссылок из суммарных 300. Какое главное? Ищем site:yaca.yandex.ru blatata.ru – находим искомое в двух категориях ЯК от февраля. Вывод – люди бросили главное зеркало. То же ищем в Ггуле для blatata.com – нету его.
Вот и способ.
Кстати, если цитируемость большая и сайт высоко по иерархии – то может ведь и переиндексироваться та самая страница ЯК. Тогда надо по названию искать.