Яндекс индексирует Flash

Яндекс индексирует Flash – пресс-релиз

Яндекс научился индексировать документы, созданные по технологии Macromedia Flash (*.swf). Уже сейчас в базе Яндекса десятки тысяч flash-страниц, содержащих текст, и сотни тысяч страниц, содержащих ссылки

Заодно и в расширенном поиске появился новый формат “FLASH”.
Интересно, он там заголовки как-нибудь понимает?
Тайтлы не понимает однозначно, их, очевидно, в самой технологии не предусмотрено.
Как размеры шрифта проверить, я не догадался. Надо будет нарыть доку по разбору флэша, которую Макромедиа написала для роботов.
Сначала думалось, что это технология рулит для спама. Например, если посмотреть на этот флеш-сайт (третий в приведенной выше выдаче), то обнаружится, что, например, текст из раздела “Geography” проиндексирован как текст этой стрнаицы (см. сохраненную копию в Яндексе):

The Armenian Republic is located in Transcaucasia, bordered by Georgia on the north, Azerbaijan on the east, Iran on the south, and Turkey on the west.

По идее-то, надо, чтобы этот раздел был “отдельной страницей”, содержащей только этот текст. Так что весь сайт умещается в один лист.
Ясно, почему так – ведь не получится “дать ссылку” именно на этот раздел.
Еще и посетители будут недовольны… Нет, народ точно будет против. Флешовые сайты ведь в основном многостраничные. Каково юзверю будет попадать “на морду” такого сайта по запросу к внутренней странице?
Или они должны иметь “минус” в ранжировании. А индексировать их хотят только лишь “для полноты базы”.
Ну и логично, что по цитате с этой Geography по сайту www.saberatours.am – в выдаче только одна страница, и никакой флешовой страницы. Хотя принудительным поиском по флешу – эту страницу находит.
Вывод: “для спама” непригодно. 🙂

Так называемые каталоги от webmasterpro

Недавно начал обнаруживать в ссылках на разные свои сайты очень странные вещи. Появляется много ссылок со страниц вида chtototam.com.ua/detail2346.html, причем ссылки на внутренние страницы. И заголовок страницы со ссылкой часто включает в себя заголовок страницы, на которую ссылаются. Как правило, ссылки были на статьи, поэтому я покопал глубже.
Пример. Смотрим, кто ссылается на этот блог. Все знакомы, кроме www.instudy.ru/detail3921.php Еще с сайта (9), cworld.com.ua/detail1391.php Еще с сайта (3) и rus.inc.ru Еще с сайта (2).
На этих страницах либо краткое описание, либо мета-редирект на /main.php.
Метаредиректа явно больше.
Так я и не понял, зачем человек это делает? Мелкие запросы собирает? А чтобы за мета-редирект не прибили, ссылки дает, якобы каталог? Понятно, что от тех ссылок ни тепло, ни холодно, ПРы на уровне абсолютного нуля. 🙂
Может, это эксперимент такой?
Провел раскопки, сайты обнаружены такие:
http://www.businessline.ru
http://www.instudy.ru
http://www.shopmart.ru
http://www.shopmix.ru
http://www.bytportal.ru
http://www.techcity.ru
По синтаксису #url=”www.instudy.ru/detail*” посмотрел, сколько там страниц такого рода:

www.businessline.ru 5753
www.instudy.ru 6609
www.shopmart.ru 2889
www.shopmix.ru 3733
www.bytportal.ru 3071
www.techcity.ru 3667

rus.inc.ru 8032
trotuar.com.ua 6269
finpro.com.ua 4753
csearch.com.ua 4535
searchportal.com.ua 4395
xchange.com.ua 7693
esearch.com.ua 3908

Дальше устал считать, но еще домены shopinfo.com.ua, orgprice.com.ua, computers.biz.ua, finhelp.com.ua, shoprus.com.ua, weblist.com.ua, computerstech.com.ua, searchline.com.ua, electroinstrument.com.ua, service-centers.com.ua, telerabota.com.ua, shopbiz.com.ua, 1link.com.ua, guide.com.ua.
Причем однозначно говорю – я туда ссылки на свои сайты не сабмитил!
То есть, человек просто ловит мусор, что ли? Домены (верхние 6) зарегистрированы на [email protected].
Вот и думай тут…

‘новый’ оператор в Яндексе – rhost

Тема форума Запрос в Яндекс – поиск поддоменов.
Оператор поиска по урлу с обратным порядком перечисления, комментарий Саши Садовского:

rhost=”tld.domain.*”

В этом операторе используется обратный порядок перечисления доменов — вначале первого уровня, затем второго и т.д. Например:

rhost=”ru.exler.*”

или

rhost=”ua.kharkov.kpi.*”

В результате будут найдены все документы в заданной группе доменов

r – это, наверное, от reverse…

Показ частот слов в документе

Написал “ссылки” для показа частот слов в документе (самые частотные слова). Ссылку надо перетащить на Links панель и “согласиться”. При клике оно покажет в алерте частоты в % с двумя знаками. При клике не происходит никаких обращений к внешним серверам.
Почему-то у меня не все варианты работают из панели ссылок. Не могу понять почему. Из документа все работают нормально.
Тип первый – частоты всех слов до 1/4 частоты самого частотного слова: lim) {out+=i+’ = ‘+Math.round(10000*nums[i]/arr.length)/100+’% (‘+nums[i]+’)\r\n’; };}; alert(out); void(0)”>%l
Тип второй – то же, что и первый, но 10 наиболее частотных слов с упорядочением по убыванию (не работает из панели): %0
То же, но для слов из 3 и более символов (не работает): %0l
Может, кто протестирует у себя? А то вдруг у меня MSIE кривой. Причем сообщений об ошибках JS нету!
Гринвуд, ликуй – называется. 🙂

Advantage Web Log Analyzer

Собственно, речь не об анализаторе логов, я его не пробовал. Увидев слова про рекламное аг-во Promoweb в новостях от Gray и в рассылке inet.search.seo, я удивился – как это Паша Иванов стал рекламным агентством? Позвонил. Оказалось, Паша продает программу как аффилиат.

Продажу и поддержку ALWA в России сегодня осуществляет известное агентство Интернет-маркетинга и рекламы PromoWeb (руководитель – Павел Иванов).

-вот так-то! 🙂
Он говорит, ему анализатор понравился. Стоит $79.

Показ тИЦ и “пальцев”

Перетащите на панель ссылок в броузере вот эти ссылки, и при клике оно покажет рядом с каждой ссылкой на другой домен для этого домена:
Показ кнопки тИЦа: 0) {linkdomain=document.links[i].href.substring(7,document.links[i].href.indexOf(‘/’,8)); if (linkdomain!=thisdomain && linkdomain.indexOf(nowww)==-1 && linkdomain!=’hghltd.yandex.com’) { document.links[i].outerHTML+=’‘;};}; }; void(0)”>W

(Метод собезьянничал у Professor’a)

Я делаю сабмиттер в каталоги. И скоро открою!

Типа ура и наконец-то.
История такая. Захотел я сделать сабмиттер в каталоги, который бы подставлял данные юзера в форму. И собирал бы потихоньку данные для будущего автосабмита (какие имена какой смсыл имеют, и какие есть категории).
И сделал его на perl в виде “прокладки” между человеком и сайтом каталога.
Но тут возникли сложности:
Во-первых, хтмл код люди пишут ну настолько косо, что даже человек не поймет. Даже иногда имена переменных не пишут!
Во-вторых, большая проблема была – надо переколбасить все ссылки так, чтобы они указывали на нужные страницы “через меня”.
В-третьих, почему-то скрипт не хотел иногда заполнять поля и даже глотал непредсказуемым образом куски кода… Думал-думал, не придумал.
В-четвертых, сабмит с одного IP – потенциально могут отрубить.
Короче, выложил его на http://submitter.promosite.ru/ Регистрироваться (и тем более платить) не надо, смотрите демки.
Но вот возникли более правильные мысли. Делать разбор полей яваскриптом и отказаться от идеи “серверной прокладки”. И вот, о чудо! Все работает.
Почти.
Короче, недельки через 2 сделаю все полностью. И на некоторое время (пару месяцев) открою в свободный полнофункциональный доступ – базу-то надо обучить… 🙂
Может, есть мнения, -сколько может вся эта радость стоить в денежном выражении по по уму. И на сколько месяцев ее стоит открыть на начальный период.

Тег textarea в Яндексе

Древнее – предревнее наблюдение: при поисках по различным словам в Яндексе очень часто вываливались страницы “форумов” by Matt Wright, но не страницы с текстом, с страницы “для ответа”, которые отличались практически только тем, что весь текст засобачен в тег < textarea >.
Отсюда делался вывод, что этот тег дает плюс в релевантности.
***
Сейчас смотрел, и оказалось, не прошли еще те времена. По запросу В компании Рамблер, которую я представляю, сейчас открылось несколько вакансий web-программистов первой вылезает страница с ответом, цитирующая все в textarea, вместо страницы сообщения.
А в Рамблере такого найти не удалось. Сессии, видно, не понравились Рамблеру.

Rambler is watching You!

Суть: люди из Рамблера следят персонально за оптимизаторами. Но смотрят как-то немного криво, хотя лучше от этого не становится.
Подробно:
Живет у меня сайт про ноутбуки. Чувствует себя вроде неплохо. Там три субдомена, один из которых – новостной. Проиндексированы Рамблером были вроде, ну там, как обычно поначалу – какое-то копьё по посещаемости с Рамблера было (счетчика не крутили).
Тут вижу – оппаньки, а основной домен и еще один – из Рамблера выкинуты (оба имеют коммерческую направленность), а новостной субдомен – живет нормально, даже подрос чуток.
Пишу в форму. Мол, непонятно, однако. Ответа нет.
Пишу через недельку на [email protected] . Типа, не понимаю, ничего не нарушал.
Мне в ответ приходит буквально следующее:

Мы категорически против экспериментов, проводимых над поисковой
машиной, приводящих к ухудшению качества индекса и адекватности
ранжирования результатов поиска( см.
http://blog.promosite.ru/comments.php?68 ).

Мы не сможем нормально ранжировать сайты, использующие спамерские
методы оптимизации.


C уважением,
служба технической поддержки Rambler

Что в общем, лестно, но неприятно. Читают – то читают, но ежу ведь ясно, что эксперимент был вывален на другой домен. И там же был благополучно прибанен Рамблером (и Яндексом).
А этот сайт – видишь как, наказали. Ударим, так сказать, долларом. Если ничем другим не можем.
Типа по-русски: разберемся как следует и накажем, кого попало. 🙂
Я в ответ предложил список сайтов послать – пусть все забанят тогда. Если кто хочет в этот список сайты своих конкурентов включить – пишите, я не жадный, поделюсь. 🙂
Ну, и называется – веди блог после этого.
Думайте…
А вот данные по посещениям этого блога:

81.19.65.50 Mozilla/5.0 (compatible; Konqueror/3.2; FreeBSD) (KHTML, like Gecko)
81.19.65.204 Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; T312461)
81.19.65.127 Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)

Вот с каких данных пришло письмо:

Received: from [81.19.64.101] (helo=park.rambler.ru)
Received: from Marinas.rambler.stack.net (marinas.rambler.stack.net [81.19.65.204])

Бот Рамблера ходил на блог с 81.19.66.9 и 81.19.66.6, сетка 81.19.64.0 – 81.19.66.255
Rambler is watching You…

Яндекс вслед за Google – научные стипендии

Положение о научных стипендиях Яндекса

http://company.yandex.ru/grant/index.xml , deadline: 31 октября 2004 года.
А вот здесь (приложение 1) описано, что Яндекс интересует:

  1. Автоматическая обработка текста, лингвистика
    • Статистические и семантические методы текстового поиска применительно к вебу
    • Морфологические, синтаксические анализаторы
    • Снятие лексической, семантической неоднозначности
    • Нахождение и использование кросс-языковых ресурсов
  2. Анализ поисковых запросов, сеансов и протоколов
    • Построение и использование тезаурусов по пользовательским сеансам
    • Тематическая классификация запросов
    • Моделирование информационной потребности и поведения пользователя
    • Влияние сеанса и профиля пользователя на ранжирование
    • Статистическая и синтаксическая сегментация запроса, переформулирование запроса
  3. Мультимедийный поиск

    • Поиск изображений и музыки по содержанию
    • Кластеризация и классификация изображений
  4. Оценка качества поиска
    • Автоматические системы оценки качества поиска
    • Анализ поведения пользователей для оценки качества
  5. Производительность и распределенные системы

    • Эффективное исполнение запроса в распределенных системах: переформулирование запроса и выбор текстовых баз
    • Оптимизация, учитывающая ранжирование; частичные ответы
  6. Анализ ссылок в вебе

    • Меры популярности страниц, построенные на основе анализа ссылок
    • Обнаружение и анализ сообществ, их тематики, учет знания о сообществах в поиске
    • Обратная связь со стороны поисковых систем
    • Динамика появления и исчезновения ссылок, характеристики и модели веб-графа
  7. Структура веб-сайтов и веб-страниц; полудубликаты
    • Сегментация веб-страниц, выделение записей баз данных и данных, содержащихся в страницах, сгенерированных по шаблонам
    • Выявление структуры и функциональности веб-сайтов
    • Алгоритмы выявления дублей документов и «зеркал» сайтов; построение и использование сигнатур, устойчивых к небольшим изменениям документов
  8. Автоматическая классификация веб-страниц и веб-сайтов
    • Веб-каталог как учитель: классификация по зашумленным или неполным обучающим выборкам
    • Классификация с использованием гиперссылок
    • Построение и модификация тематических рубрикаторов на основе веб-корпуса
  9. Анализ стиля
    • Построение жанрового рубрикатора Веба; прослеживание эволюции традиционных и выявление новых функциональных стилей в Вебе
    • Жанровая классификация веб-текстов
    • Выявление положительных и отрицательных оценок в текстах
    • Выявление ангажированных и рекламных текстов
  10. Автоматическая обработка новостей

    • Разбиение потока новостных сообщений на событийные сюжеты
    • Построение иерархической структуры событийных сюжетов
    • Представление событийного сюжета: аннотирование, исправление фактических и стилистических ошибок в аннотациях
    • Устранение избыточности и дублирования в новостных сюжетах
    • Технология извлечения фактов для анализа новостей
    • Персонализация новостного потока
    • Рапространение информации в лентах СМИ и дневниках
  11. Автоматическое аннотирование, отвечание на вопросы

    • Составление аннотации для набора документов: аннотирование результата поиска, новостного сюжета, построение summary для сайта и т.п.
    • Аннотирование документов в зависимости от контекста: поискового запроса, жанра документа, пользовательского профиля и т.п.
    • Представление результата поиска: структурирование, аннотирование, отвечание на вопросы
    • Учет текстов ссылок при аннотировании документов, сайтов и результатов поиска
  12. Рекомендующие системы и совместная фильтрация
    • Анализ поведения пользователей интернет-магазинов, переходов пользователей
    • Совместный анализ предпочтений пользователей

А вот что Яндекс может для решения этих задач предоставить:

  1. Хост-граф Веба: ориентированный граф, вершинам которого соответствуют сайты (российского интернета), а ребрам – унифицированные ссылки между сайтами
  2. Каталог Яндекса: структура и наполнение рубрикаторов (тематического, регионального и т.д.); url-адреса, заголовки и описания веб-ресурсов.
  3. База Яндекс.Маркета: структура и наполнение товарных рубрик; описания товарных позиций, зашифрованные идентификаторы товарных позиций и продавцов
  4. Репрезентативная выборка из нескольких сотен тысяч веб-страниц в виде заархивированных текстов и поискового индекса с программным интерфейсом к ним; информация о классификационных признаках этих веб-страниц, взятая из Яндекс.Каталога
  5. Архивы протоколов запросов по различным поисковым источникам (Веб, Яндекс.Маркет и т.п.) с зашифрованными идентификаторами пользователей и статистикой результатов поиска; архивы протоколов переходов с результатов поиска по этим поисковым источникам
  6. Выборка новостных сообщений от нескольких новостных агентств с указанием
    дат и тематических категорий сообщений

-из списка мне лично пригодились бы первый и пятый пункты. Подать заявку, что ли? 🙂 Но, думаю, не интересуют их измышления таких людей, как я… 🙁