из чудес последнего времени…

1.
Жил-был сайт (не мой и не подшефный), стоял хорошо. А его в Яндексе взяли и забанили. Ни за что. Причем пришел ответ, что это именно бан. А на сайт было около 600 входящих ссылок по обмену. Все остальное вообще в норме было.

2.
Жил-был сайт (не мой и не подшефный), стоял нормально. Раньше у него уже один бан был… Тут его – бац – опять забанили… Владельцы думали-думали, ничего не придумали. На сайте небольшой каталог ссылочек, ну и зеркало у него болталось в Яндексе. Думали в эту сторону… Владельцы начали шуршать по знакомым. И нашуршали так, что даже ответ от Яндекса пришел – типа хрен знает за что вас забанили, банить не за что. И вообще непонятно, как это вы в бане оказались.

Вот так.

Цены за ссылки

Опрос.
Сколько в месяц бы Вы заплатили за ссылку с сайта, у которого параметры цитруемости низкие (PR около 0-1, тИЦ около 0-30), но который находится в Яндекс-каталоге в нужной вам (клиентскому сайту т.е.) теме?
А если просто находится в ЯК, но тема не очень близкая, хотя “не-развлекательная”?
Отдельно за ссылку с морды и отдельно – за сквозную?
***
На сайте, допустим, 5 внешних ссылок с морды и внутренних разумное количество.
***
На мой взгляд, около $5-10/мес за тематическую… И $2-4 за “не очень”… А кто как думает?

adstat.rambler.ru гигнулся…

http://adstat.rambler.ru/wrds/ – 403 Forbidden, уже полдня как…
Смотрел через Яндексовскую подсветку – тоже не кажет… Неужто прикрыли? 🙂
Хотя, если что, будем рамблеровские статсы через adwords смотреть… 😀

by.ru – таки забанил Яндекс!

По мотивам клоакинга на by.ru -забанили его, целиком! 🙂
И ведь не просто основной сайт забанили, а вместе со всеми субдоменами.
Типа все ждем, пока бай.ру побежит плакаться, а Яндекс – его восстанавливать… 🙂
***
PS А еще by.ru открывает к индексации страницы с поиском в том же каталоге

Кстати, насчет Гуглевых параметров в урле Рамблера

Вроде подозрительных параметров “oe” и “btnG” – а ведь по существованию страничек вроде этой: http://www.cyborghome.ru/index.php?&cbrgshowstat=1&cbrggetstat=05_07_30.txt и поиска по статистике в http://turists.ru/rating/stat.php?lastt=1122832852&nowt=1122919252&id=82&page=ref (введите в календаре с 2005-06-27 22:00 по 2005-06-28 22:00) – получается, что этот btnG в Рамблере ввели в конце июня…
Так что не вчерашняя новость получается…
Но пока Рамблер вроде Гуглю не продался… Может, они какую-нибудь примочку от Гугля собираются купить? Типа рекламной системы какой-нибудь? И для этого параметры ввели?

Как бы я давил дорвеи, сделанные по «цепям Маркова»

В одном из постов ниже я выплескивал все свои гадкие мысли по поводу убийства дорвеев. Однако, есть класс дорвеев, который не убивается такими способами. Это дорвеи, генеренные с использованием цепей Маркова – они сохраняют грамматику оригинала (с пунктуацией, правда, проблемы, но ее отлавливать вряд ли возможно)

Что такое «цепи Маркова»?

Есть компьютерная игрушка – алгоритм, угадывающий мысли. Я тоже когда-то писал по нему программу :). Мысли человек формулирует в виде последовательности ноликов и единичек, введенных в компьютер. А компьютер отвечает или не отвечает так: после того, как ты задумал число, он пытается его угадать, а ты потом его вводишь. Обманывать компьютер нельзя, это нечестно! 🙂

Через некоторое время он начинает прилично угадывать. Даже удивительно. А алгоритм основан на том, что датчик случайных мыслей (цифирок :)) в человеке не случаен, а берет на вход предыдущие сгенеренные цифирки. И то, что следующим ходом человек сгенерит, определяется тем, какие цифры он сгенерил до того. И как ему компьютер отвечал (как вариант игры – он может угадывать втихую и не отвечать сразу, а отвечать потом).

Короче говоря, вся ситуация отслеживается на N ходов назад, и данные аккумулируются в таком виде: для каждой последовательности из N введенных ранее [0,1] считаем число введенных ПОСЛЕ этой последовательности единичек и число нулей. И считаем вероятность того, что человек введет следующим ходом. Если статистика по единичкам сильно больше, значит, «угадываем» единичку. Наоборот – ноль. Примерно одинаково – генерим случайно. А еще есть вариант игры с ответом «не знаю» в виде двойки, только тогда для эффективного угадывания данные накапливать дольше надо.

Вот такая простая скотина этот человек :). Сложным натурам можно на 3 хода назад отслеживать, простым – на 2.

Так вот цепи Маркова – это цепи событий. Они используются в жизни таких вариантах:

  • когда надо посчитать некое стационарное состояние (распределение) при наличии ограниченного набора событий. Например, перескоки электронов по энергетическим уровням. Или перескоки юзера по матрице ссылок при расчете PageRank: http://www.yandex.ru/yandsearch?text=цепи маркова pagerank&stype=www
  • Или когда надо предсказать поведение системы на основе ее нынешнего состояния. Тут используется понятно какая гипотеза – что развитие ситуации определяется тем, как она развивалась раньше на N ходов. Например, тот же текст может быть описан как последовательность и по ней выбрано слово, появление которого в тексте «следующим ходом» наиболее вероятно.

Так вот про текст и говорим. Слов, однако, гораздо больше, чем 2 (ноль и единица), поэтому эффективно угадать следующее слово не выйдет. А неэффективно, но грамматически связно – пожалуйста! Это и есть генерация по цепям Маркова.

***
Вот несколько ссылок по теме:

Про PageRank: http://www.mediacraft.ru/sections/articles/1/2.html
На форуме SeoChase: http://www.seochase.com/viewtopic.php?t=2149
Про генерацию текстов: http://predpinimatel-cd.com.ru/book/Programming/Praktical_programing/Glava3/Index2.htm (терминология там, правда, стремная)
***
Короче говоря, вероятности в случае генерации связного текста можно выбросить за ненадобностью… Алгоритм получается такой:
0) берем текст, разбиваем его по предложениям, а внутри каждого предложения выделяем последовательности из N (допустим, 2-х) слов и пишем в таблицу
1) Берем случайно одно из «первых» слов в предложении, и ставим эту пару как первую.
2) По второму слову в паре выбираем все те пары, в которых это слово идет первым и дополняем текст вторым словом
3) Идем к предыдущему пункту 2, не забывая иногда закрывать предложение (например, парами, которые встречаются в концах предложений)

Вот примерно так. Это дает грамматически связный текст в любых количествах. Для размножения можно использовать и вероятности появления той или иной последовательности, и увеличивать N, выбирая одно следующее слово по предыдущим N-1. И все цепочки слов (здесь: пары) встречаются в реальной жизни, а на пробивку по тройкам и N-кам слов никаких ресурсов у поисковика не хватит.

А как бороться с «дорвеями по цепям Маркова»?

А так, что основная цель дорвейщика – увеличить количество текста. И, взяв на вход 100-200 КБ (15-30 тыс. слов), получить на выходе огромную гору текста, разбитую по страницам.

Но свойство любого текста будет в том, что распределение тех же пар слов будет иметь длинный и тонкий хвост из редко (1 раз, например) используемых словосочетаний. Просто потому, что в русском языке слов – до фига. Даже словарный запас из 100 тыс. слов –больше, чем весь исходный для дорвейщика текст. И длина этого хвоста (ну, скажем, число пар, встречающихся в тексте 1 раз, поделенное на общее число пар) – будет измеряться в десятках процентов. А то и до 70-90%, чую, доходить будет. Ну это поверяется легко.

А поскольку лорвейщик текста нагенерил в 10-100 раз больше, чем был исходный текст, словосочетания там поюзаны многократно. Гораздо больше, чем 1 раз. Конечно, дорвейщик разбил текст по страницам, так что ловить надо в пределах сайта.

В принципе, даже ресурсов много не надо… Пробить по нескольким хорошим крупным сайтам свойства текстов. Прикинуть, например, сколько из 10 тыкнутых наугад пар слов встречаются на сайте более 1 раза. Допустим, 10-30%.

А у дорвейщика будет сильно больше 99%. Например, если дорвейщик из 100 Кб текста нагенерил 10 Мб, он каждое словосочетание использует где-то 100 раз. Ну и вероятность, что ты попадешь на уникальное в пределах сайта словосочетание – порядка 1%. А 99 будут неуникальных.

Ну и дальше сайт – ф топку. Т.е., звонок модератору.

Яндекс-Украина-Петренко

Яндекс открывает представительство в Украине
http://company.yandex.ru/news/2005/0906/index.xml

Компания «Яндекс» открывает представительство в Украине. Директором компании «Яндекс.Украина» стал Сергей Петренко, консультант по поисковому маркетингу, основатель и владелец сайта Searchengines.ru. Задача новой компании — продажа рекламы и развитие служб Яндекса, предназначенных для украинских пользователей.

«Яндекс индексировал украинские сайты с самого своего основания, — говорит Аркадий Волож, генеральный директор компании «Яндекс». — Но мы хотим быть еще ближе к украинским пользователям. Поэтому мы решили включить в команду Яндекса профессионалов, хорошо знакомых с интернет-рынком Украины».

Каждую неделю Яндексом пользуется около полумиллиона жителей Украины. Компании «Яндекс» принадлежат домены yandex.ua и yandex.com.ua. В марте 2005 года на территории Украины был зарегистрирован товарный знак «Яндекс». В июле 2005 года «Яндекс» провел первый зарубежный семинар для распространителей рекламы в Киеве.

«Яндекс уже сейчас является одним из крупнейших порталов с точки зрения украинских пользователей, — говорит Сергей Петренко. — Но надо признать, что, с одной стороны, сервисы портала могут и должны быть более удобными для жителей Украины, а с другой — портал как рекламная площадка должен стать ближе украинским рекламодателям. Этим мы и займемся в ближайшее время».

Офис компании «Яндекс.Украина» будет открыт в сентябре в Одессе. 20 сентября 2005 года компания «Яндекс» проведет пресс-конференцию в Киеве, в агентстве УНИАН. Для аккредитации журналистов приглашают обратиться в пресс-службу компании.

-на Малой Арнаутской Улице 🙂
Позравляю!
PS Теперь Серега с полным правом прилепит себе на форуме лейбл “Яндекс”. 🙂

Если бы я был поисковиком,

… я бы дорвеи уничтожал следующим образом.
Дорвеи бывают какие:
1) Из полностью генеренного текста, с долей ключевика и разных всяких частей речи в нужных пропорциях.
2) Сделанные из нормального текста со вставками ключевых слов или фраз в текст (или заменами части слов на ключевик).
3) Сделанные из блоков нормального контента на левую тему и блоков текста с ключевиками, тоже нормального и человеческого.
***
Дорвеи первого типа, полностью генеренные. Плюс для дорвейщика: уникальность текста – он действительно уникален. Минус для человека: бред полный написан. Но главное – их легче определять. Например, у поисковиков есть специальные эвристики, наборы правил для нормализации (приведения слова к нормальной форме) – причем простенькие. Это называется стемминг. Лежат в открытом доступе.
Логично, что и прикидку по падежам, числам, склонениям и т.п. робот поисковика может с хорошей вероятностью угадать, не залезая в словарь. И рассогласования. например, в числе существительного и прилагательного, стоящих рядом, отловить. И многое другое того же рода.
Понятно, что включать звоночек модератору автомат будет только при тотально неграмотном тексте (в пределах документа, раздела, сайта…). А для снижения нагрузки можно не по каждому термину документа эту проверку делать, а только по тем, которых заметная доля (в тех же пределах, сайта или документа) или просто тех, которые на странице больше 1 раза встречаются. 🙂

Дорвеи третьего типа. Плюс для человека – язык нормальный, человеческий. Минус для дорвейщика: неуникальность фраз, предложений, блоков текста. Причем если “левый” контент еще можно натырить из разных мест и сделать его малоповторяющимся, то с текстом с ключевиками такое не пройдет.
Ну способы ловли неуникальных фрагментов описаны, например, у И. Сегаловича. Ставим длину шингла поменьше, ищем в пределах сайта… Определяем, что ключевой текст размазан тонким слоем по сайту.
Их, в общем-то, и банить не надо, пессимизировать достаточно.

Ну и дорвеи второго типа. Посложнее, т.к. здесь и куски текста более уникальные, и ошибок в согласовании меньше (допустим даже, что их нет!, т.е., дорвейщик и падеж правильный поставил, и вместо существительного существительное влепил – все по уму).
Однако ж юзер, читая текст, легко определит дорвей. А для робота маркером может быть, конечно, не отсутствие смысла в тексте, а наличие большого количества пар слов, которые не употребляются (редко употребляются) в нормальной жизни. Типа “зеленая турфирма”, “радостный ноутбук” и т.п. Только есть закавыка – слов много, а их пар – еще больше… 🙁
На это есть решение. Во-первых, данные о частоте употребления тех или иных слов хранятся. Берем “часто употребительные” слова, отдельно по частям речи. Планку на “часто” ставим исходя из общего объема расчетов и объема, выделенного под хранении информации о парах слов. Дальше по выбранным словам строим заведомо подъемное количество пар слов (в нормальных формах) и пробиваем, насколько часто в базе встречается каждая.
Дальше смотрим на статистику и ставим еще одну планку, отделяющую “разумные” пары слов и выбрасывающую “неразумные”.
Ну и по документу (разделу, сайту…) смотрим, сколько среди “значимых” слов есть “разумных” и “неразумных” пар. И если неразумных много – звоним в звоночек модератору…

***
Все. Остается только ждать. 🙂

PS Кстати, текст, генеренный с исп. цепей Маркова, не берется такими способами… Упс. Но зато в этот текст по своему хотению кейвордов напихать сложно.

Яндекс-Директ: ой, ё…

Букву “ё” как-то не переваривает… Ищешь в wordstat – постельное, третьим номером: постельное бель? 1331
Смотрим статистику по “постельное бель?”, а там просто постельное бель в количестве в 10 раз меньше…
Интересно, что это за “ё” там такое… И как в таких случаях показы считают…

Почтовый обменщик

Вижу шовинизм некоторых в отношении автоматических форм отсылки заявок на обмен… Да и еще теоретически 1 повод для стука…
Так и тянет написать почтового робота – обменщика ссылками…
Типа того:
Робот запускается, берет почту, домен определяет по заголовкам.
Если в почте есть письмо без ссылок, на него шлется от того же мыла шаблон с предложением разместить ссылку. В шаблоне прописана просьба сохранять переписку через “reply”.
Если в почте есть письмо только с чужими ссылками, заходится по всем урлам и ищется ссылка на наш домен. Если она есть – хватаем первый , парсим, размещаем и пишем в базу отметку, что обмен такого-то с таким-то проведен. Мыло туда же и копию письма. Если нашей ссылки там нет – то же, но размещаем с отметкой “перепроверить” и мылим ответ с нашими ссылками и просьбой разместить в срок и прислать ссылку. Перепроверяльщик запускается пару раз в этот срок.
Если в почте есть письмо с нашими и чужими ссылками – проверяем наши линки, проверяем, что чужие размещены и мылим шаблон “спасибо”.
***
Единственно, была у меня проблема с перекодировками в php. То ли там base64, то ли еще в каких-то гадких кодировках приходят письма… Когда писал на php imap “подтверждатора регистраций на нюковых сайтах”, сталкивался.
Надо, видно, как-то вытаскивать кодировку из самого письма… где-то она там прописана должна быть… ++