Так называемые каталоги от webmasterpro

Недавно начал обнаруживать в ссылках на разные свои сайты очень странные вещи. Появляется много ссылок со страниц вида chtototam.com.ua/detail2346.html, причем ссылки на внутренние страницы. И заголовок страницы со ссылкой часто включает в себя заголовок страницы, на которую ссылаются. Как правило, ссылки были на статьи, поэтому я покопал глубже.
Пример. Смотрим, кто ссылается на этот блог. Все знакомы, кроме www.instudy.ru/detail3921.php Еще с сайта (9), cworld.com.ua/detail1391.php Еще с сайта (3) и rus.inc.ru Еще с сайта (2).
На этих страницах либо краткое описание, либо мета-редирект на /main.php.
Метаредиректа явно больше.
Так я и не понял, зачем человек это делает? Мелкие запросы собирает? А чтобы за мета-редирект не прибили, ссылки дает, якобы каталог? Понятно, что от тех ссылок ни тепло, ни холодно, ПРы на уровне абсолютного нуля. 🙂
Может, это эксперимент такой?
Провел раскопки, сайты обнаружены такие:
http://www.businessline.ru
http://www.instudy.ru
http://www.shopmart.ru
http://www.shopmix.ru
http://www.bytportal.ru
http://www.techcity.ru
По синтаксису #url=”www.instudy.ru/detail*” посмотрел, сколько там страниц такого рода:

www.businessline.ru 5753
www.instudy.ru 6609
www.shopmart.ru 2889
www.shopmix.ru 3733
www.bytportal.ru 3071
www.techcity.ru 3667

rus.inc.ru 8032
trotuar.com.ua 6269
finpro.com.ua 4753
csearch.com.ua 4535
searchportal.com.ua 4395
xchange.com.ua 7693
esearch.com.ua 3908

Дальше устал считать, но еще домены shopinfo.com.ua, orgprice.com.ua, computers.biz.ua, finhelp.com.ua, shoprus.com.ua, weblist.com.ua, computerstech.com.ua, searchline.com.ua, electroinstrument.com.ua, service-centers.com.ua, telerabota.com.ua, shopbiz.com.ua, 1link.com.ua, guide.com.ua.
Причем однозначно говорю – я туда ссылки на свои сайты не сабмитил!
То есть, человек просто ловит мусор, что ли? Домены (верхние 6) зарегистрированы на [email protected].
Вот и думай тут…

Advantage Web Log Analyzer

Собственно, речь не об анализаторе логов, я его не пробовал. Увидев слова про рекламное аг-во Promoweb в новостях от Gray и в рассылке inet.search.seo, я удивился – как это Паша Иванов стал рекламным агентством? Позвонил. Оказалось, Паша продает программу как аффилиат.

Продажу и поддержку ALWA в России сегодня осуществляет известное агентство Интернет-маркетинга и рекламы PromoWeb (руководитель – Павел Иванов).

-вот так-то! 🙂
Он говорит, ему анализатор понравился. Стоит $79.

Яндекс вслед за Google – научные стипендии

Положение о научных стипендиях Яндекса

http://company.yandex.ru/grant/index.xml , deadline: 31 октября 2004 года.
А вот здесь (приложение 1) описано, что Яндекс интересует:

  1. Автоматическая обработка текста, лингвистика
    • Статистические и семантические методы текстового поиска применительно к вебу
    • Морфологические, синтаксические анализаторы
    • Снятие лексической, семантической неоднозначности
    • Нахождение и использование кросс-языковых ресурсов
  2. Анализ поисковых запросов, сеансов и протоколов
    • Построение и использование тезаурусов по пользовательским сеансам
    • Тематическая классификация запросов
    • Моделирование информационной потребности и поведения пользователя
    • Влияние сеанса и профиля пользователя на ранжирование
    • Статистическая и синтаксическая сегментация запроса, переформулирование запроса
  3. Мультимедийный поиск

    • Поиск изображений и музыки по содержанию
    • Кластеризация и классификация изображений
  4. Оценка качества поиска
    • Автоматические системы оценки качества поиска
    • Анализ поведения пользователей для оценки качества
  5. Производительность и распределенные системы

    • Эффективное исполнение запроса в распределенных системах: переформулирование запроса и выбор текстовых баз
    • Оптимизация, учитывающая ранжирование; частичные ответы
  6. Анализ ссылок в вебе

    • Меры популярности страниц, построенные на основе анализа ссылок
    • Обнаружение и анализ сообществ, их тематики, учет знания о сообществах в поиске
    • Обратная связь со стороны поисковых систем
    • Динамика появления и исчезновения ссылок, характеристики и модели веб-графа
  7. Структура веб-сайтов и веб-страниц; полудубликаты
    • Сегментация веб-страниц, выделение записей баз данных и данных, содержащихся в страницах, сгенерированных по шаблонам
    • Выявление структуры и функциональности веб-сайтов
    • Алгоритмы выявления дублей документов и «зеркал» сайтов; построение и использование сигнатур, устойчивых к небольшим изменениям документов
  8. Автоматическая классификация веб-страниц и веб-сайтов
    • Веб-каталог как учитель: классификация по зашумленным или неполным обучающим выборкам
    • Классификация с использованием гиперссылок
    • Построение и модификация тематических рубрикаторов на основе веб-корпуса
  9. Анализ стиля
    • Построение жанрового рубрикатора Веба; прослеживание эволюции традиционных и выявление новых функциональных стилей в Вебе
    • Жанровая классификация веб-текстов
    • Выявление положительных и отрицательных оценок в текстах
    • Выявление ангажированных и рекламных текстов
  10. Автоматическая обработка новостей

    • Разбиение потока новостных сообщений на событийные сюжеты
    • Построение иерархической структуры событийных сюжетов
    • Представление событийного сюжета: аннотирование, исправление фактических и стилистических ошибок в аннотациях
    • Устранение избыточности и дублирования в новостных сюжетах
    • Технология извлечения фактов для анализа новостей
    • Персонализация новостного потока
    • Рапространение информации в лентах СМИ и дневниках
  11. Автоматическое аннотирование, отвечание на вопросы

    • Составление аннотации для набора документов: аннотирование результата поиска, новостного сюжета, построение summary для сайта и т.п.
    • Аннотирование документов в зависимости от контекста: поискового запроса, жанра документа, пользовательского профиля и т.п.
    • Представление результата поиска: структурирование, аннотирование, отвечание на вопросы
    • Учет текстов ссылок при аннотировании документов, сайтов и результатов поиска
  12. Рекомендующие системы и совместная фильтрация
    • Анализ поведения пользователей интернет-магазинов, переходов пользователей
    • Совместный анализ предпочтений пользователей

А вот что Яндекс может для решения этих задач предоставить:

  1. Хост-граф Веба: ориентированный граф, вершинам которого соответствуют сайты (российского интернета), а ребрам – унифицированные ссылки между сайтами
  2. Каталог Яндекса: структура и наполнение рубрикаторов (тематического, регионального и т.д.); url-адреса, заголовки и описания веб-ресурсов.
  3. База Яндекс.Маркета: структура и наполнение товарных рубрик; описания товарных позиций, зашифрованные идентификаторы товарных позиций и продавцов
  4. Репрезентативная выборка из нескольких сотен тысяч веб-страниц в виде заархивированных текстов и поискового индекса с программным интерфейсом к ним; информация о классификационных признаках этих веб-страниц, взятая из Яндекс.Каталога
  5. Архивы протоколов запросов по различным поисковым источникам (Веб, Яндекс.Маркет и т.п.) с зашифрованными идентификаторами пользователей и статистикой результатов поиска; архивы протоколов переходов с результатов поиска по этим поисковым источникам
  6. Выборка новостных сообщений от нескольких новостных агентств с указанием
    дат и тематических категорий сообщений

-из списка мне лично пригодились бы первый и пятый пункты. Подать заявку, что ли? 🙂 Но, думаю, не интересуют их измышления таких людей, как я… 🙁

Боевики.Яндекс.ру

Илья Сегалович предлагает сделать поисковик по чеченцам 🙂 Гибрид проекта Яндекс-карты.
Представляете кнопочку? Пример: “Басаев” – искать в боевиках. Или “искать на карте”. Или “найти и замочить”.
ФСБ.Яндекс.РУ – при входе предъявите Яндекс-паспорт и Яндекс-пропуск.

sweb выкинули из ЯК

Ищем e-www.ru (зеркало sweb.ru) в Яндекс-каталоге. Нет, не описан sweb.ru.

А вроде был описан! и ТЫЦ у него был поболе… За что убили? Может, за зазеркаливание экспайред-доменов на себя? В экспайредах очень и очень часто встречались зеркала sweb.ru.
Хотя память плохая, я даже не помню, был ли описан Свеб в ЯК… Кажется, да…

dddddd.ru – кому оно надо?

Обнаруживаю, что завтра освобождаются несколько суперценных доменов:

dddddddd.ru
ddddddddd.ru
ddddddddddddddddddd.ru
eeeeeee.ru
eeeeeeeeee.ru
eeeeeeeeeeee.ru

Зарегистрированы они были за неким ЗАО “Место”:

org: ZAO “Mesto”
phone: 7 095 1000002
e-mail: [email protected]
e-mail: [email protected]
e-mail: [email protected]
e-mail: [email protected]
e-mail: [email protected]
e-mail: [email protected]

-интересно, на кой им это надо было? Такие домены – кому нужны?

Сижу и парюсь над экспериментальным массивом

…страниц для расчета всяких оптимальных параметров HTML-страниц.
Перл хотя и рулит, но фантазия “а что б еще такое проверить” скоро уйдет в отпуск…
Если у кого есть желание принять участие в эксперименте, плиз, отмечайтесь (сюда или лучше в почту, если неохота афишировать сайты). Желанию должна сопутствовать возможность поставить ссылку с более-менее цитируемого, и, главное, стабильно цитируемого сайта на одну или несколько страниц массива и держать ее “вечно”. 🙂 С доступом к результатам эксперимента, естессно.
“френдз онли”. 🙂

$HTTP_HOST у некоторых…

Никогда не копался в настройках PHP. И надеюсь, не придется.

Оказывается, на некоторых хостингах (Зеноне и еще каком-то) $HTTP_HOST не содержит www в любом случае. Как же редиректить тогда на “правильный” хост? Плохо.

Также оказывается, что на некоторых хостингах в статусе HTTP-ответа сервер отрезает все слова, оставляет только цифирки.

Собственно, плохо от этого не мне, а Alex’у Kirillin’у…