Поисковые технологии 2010

Закончился ашмановский закрытый семинар Поисковые технологии 2010.
Я там был как участник, мы такие когда пришли – Ашманов такой – во, типа, оптимизатор пришел – а я такой – я, типа, разработчик поисковых систем 🙂
Конечно, изначально знали как оптимизатора, а вот еще один сильно секретный оптимизатор тоже был :), мы его с трудом спалили. В заявке я привел www.a-gde.ru – помеленьку определяем коммерческость запроса. Пытается мнения и отзывы отделить, но там плохо, а коммерческость ничего себе определяется.

Итак.

19:00 – 21:00 заезд, расселение, шашлык, глинтвейн, ночное катание.




============Первый день 26 февраля. Будущее поисковых машин

_________________
“Табличный поиск” – Виктор Лавренко (Нигма)

В общем, Нигма, оказывается, умный поисковик.
1. использует движок FF с добавками, чтобы оценивать, какие слова визуально близко друг к другу.
2. группирует страницы по маске урла в смысловые группы – типа страницы фильмов отдельно, актеров отдельно и т.д. и использует этот смысл в показе.
3. смысл этот – не смысл, а название ключа. Для разных страниц в группе смотрится (с анализм хтмл шаблона), какие тексты остаются и какие меняются в пределах группы, и те, что меняются – значение ключа, а что остаются – название ключа. Из этих ключей и значений и получается табличный поиск.
_________________
“Рейтинг онлайн-СМИ на основе дублирования новостей” – Александр Антонов (Корпорация Галактика)

_________________
“Лексический анализ: от шаблонов к семантике” – Даниил Скатов (Диктум)

Много всего про разбор предложения с определением частей речи, согласования и прочего. Я, правда, не понял, применимо ли это к коротким текстам (типа запросов) и предполагается ли, что текст изначально правильный (или умеет ошибки анализировать). Выясню отдельно.
_________________
“Некоторые подходы в задачах классификации запросов” – Марина Хоруженко (Рамблер)

Доклад о выделении специфических запросов – поиск цитат, навигационные запросы для того, чтобы по разному их отрабатывать. 3-5 из тысячи – цитаты. Для каждого запроса есть список факторов, на которых обучаются обучалки. Факторы вроде – длина запроса, число заглавных букв, число знаков препинания, стоп-слова, т.д. Еще используется аналих поведения юзера.
_________________
“Группировка результатов поиска по тематике, определение тематики документа” – Андрей Коваленко (Meta.ua)

Они пристегнули свой каталог к определению тематики запроса. В результате по каждому запросу выдача группируется по по тематикам. То, чего я всегда хотел 🙂 на момент доклада новая выдача не была выложена. Кроме того, сбоку открывается рубрикатор, где каждая ссылка ограничивает поиск тематикой (только уж очень широкий список тематик :)). Но самые основные тематики определяет качественно. Урл там есть специальный, по которому все показывается 🙂
_________________
“Реферирование одного документа, найденного по запросу, нескольких документов, ранжированный реферат поисковой выдачи” – Андрей Калинин (Поисковые технологии)

Ничего не запомнил, но подробный обзор всех методов реферирования, начиная с самых древних. Всем разработчикам поиска втыкать!
_________________
Круглый стол “Будущее поиска”


Анатолий Орлов, получается, был с презентацией 🙂

Ночью можно кататься

===========Второй день 27 февраля. Проблемы индексации и релевантности

_________________
“Анализ графа ссылок для фильтрации нецензурных изображений” – Евгений Харитонов (Яндекс)

Есть метод определения дублей картинок, нечувствительный к слабым изменениям каринки. Он склеивает копии. Дальше есть граф хтмл-страниц, где картинки вставлены, и сами картинки. Если в контенте страниц есть порно – это дает плюс в классификацию картинки как порно. Если на странице есть порно-картинка (а порно текстов нет) – это дает плюс в классификацию страницы как порно. И так много раз. Я так понял, что они обучались на том же множестве, что и определяли точность с полнотой. Учитывая при этом, что точность и полнота около 60% – я так понял, что никаких реальных результатов не достингнуто. И еще линейная зависимость между точностью и полнотой.
Да, спалил темку про продвижение по картикам 🙂
_________________
“Архитектура краулера вертикального (тематического) поиска” – Михаил Долинин (Рамблер)

Мне абсолютно неинтересно, как там чего индексируется.
_________________
“Виды поискового спама” – Михаил Волович (Ашманов и Партнеры)

Боян в части сателлитов и дорвеев. Рассмативает серьезно сателлиты и сайты несуществующих фирм. Но все равно поисковики их не могут реально детектить.
_________________
“Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet” – Андрей Гулин (Яндекс)

Выложена, как я понял, исправленная презентация (участники Гулину указали на какие-то ошибки в формулах). Самое интересное для меня, я понял, что Матрикснет понимал не так, как надо. Я думал, что статистики в 1 млн. асессорских оценок мало, а ее на самом деле много. Сегалович на пальцах объяснял, что много матриц, руками показывал 🙂
Лекции Воронцова
_________________
“Синтаксический анализ по-нижегородски” – Владимир Окатьев (Диктум)

Примерно на ту же тему, что и первый доклад от Диктума. Мне не близко.
_________________
“Метрики для интегральной оценки качества поиска” – Андрей Иванов (Ашманов и Партнеры)
Андрей показал свои индикаторы на analyzethis. Я, правда, думаю, что на общий анализатор типа “по гамбургскому счету” поисковики не согласятся. Рассказали о накрутках этих анализаторов, среди поисковиков тоже есть накрутчики 🙂
_________________
“Интернет-математика. Конкурс по машинному обучению” – Павел Карпович (Яндекс)

Рассказал про новый конкурс за 2010 – про предсказание пробок на дорогах. Да, спалил, какие участники в ИМ-2009 были алгоритмами Яндекса – это Joker, -F, alexeigor и Победа. Я уже забыл, какие из них соответтсвовали каким алгоритмам. 🙂
_________________
“10 неправильных способов сравнивать качество поисковиков” – Сергей Протасов (Рамблер)

Сергей показал, почему каждый их способов не годится для анализа качества поиска 🙂 При этом как один из методов анализа – показ чужих результатов (других СЕ) в своем дизайне – чтобы нивелировать влияние дизайна.
У Рамблера, кстати, ожидается выкатка нового алгоритма, и нынешний Рамблер отстает от лидеров на 10%, а вот новый алгоритм лучше, чем лидеры на 5%.
В презентации про это есть, значит, можно говорить 🙂
_________________
Круглый стол “Измерение качества поиска”

******
Презентации выложены на http://www.search-conf.ru/programm2010 .

inurl – новый оператор Яндекса

Говорят, что про него Сегалович в твиттере написал – надо бы начать пользоваться, чтобы Сегаловича читать 🙂
Но в хелпе есть: http://help.yandex.ru/search/?id=481939

inurl=”url”
Поиск ограничивается группой страниц, URL которых содержит заданный фрагмент.

Ищет и по пути, и по домену, не только целые слова (как в domain), но и фразы поддерживаются, и за вопросительным знаком ищет.
Щас начнется “парсинг баз” дорвейщиками 🙂

Яндекс делает дорвеи

Прикольные штуки в яндексе творятся. Я вот тут слышал такое название – “аккордеон”, типа когда вместо текста ставится оглавление, а при нажатии на пунктик оглавления появляется кусочек текста.
А сам текст – скрытый.
И причем есть четкие примеры, что за это банят. И даже обосновывают: бан за скрытый текст. Все честно.

И при этом сами яндексоиды занимаются именно этим. Например, на http://bar.yandex.ru/firefox/faq/ – именно такой аккордеон со скрытым текстом, и не только на этой странице, но и на других разделах.

Обыкновенный скрытый текст. Ну я не удержался и стуканул:

Здравствуйте!

Сайт bar.yandex.ru занимается спамом. На нем содержится скрытый текст, невидимый пользователю, но индексируемый.

Если пользователь набирает какой-нибудь запрос, например

пробки и погода в выбранном городе
защита домашней страницы
перезапустите браузер
корректор раскладки

то сайт bar.yandex.ru вылезает в первой пятерке, а то и на первом месте, с подсвеченной фразой, но при открытии страницы на ней совершенно не видно этой фразы, и приходится тыкать во все ссылки подряд, пока найдешь нужный кусок текста.

Прошу принять меры к злостным спаммерам!

Теперь посмотрим, чиво будет… 🙂

Заработок на муравьях-дорвейщиках

А ведь я был прав. Смешно, да?
В прошлом посте я сказал так: “Надеюсь, наивных здесь нет и никто не думает, что “топ 10″ PPCSEй зарабатывают основные деньги. Это бизнес не на слонах, а на муравьях”.
Мне там разные люди, например – Маузер наш ненаглядный – попеняли, что я не видел топа Умакса. Как же я так сужу, с таким апломбом? Никогда больше не повторяй такого, сказали мне в комментариях. Пойди, так сказать, не знаю куда – аппроксимируй, а потом и выступай.
Ну вот и выступаю. Взяли на слабО. 🙂
Оказалось, что я, даже не видя их пресловутого топа, сдалал правильные выводы.
Есть такой закон Зипфа (Ципф, Zipf): ранг~1/место. Этот “закон” – эмпирическая закономерность, выявленная для текстов естественного языка, но приложимая ко многим областям. http://sench.vstu.edu.ru/doc/internet/7/18.html
Если по-простому, часто для множеств наблюдается зависимость вида 1/x между некоей величиной и местом в списке, которе имеет носитель этой величины.
1/x – это закон “длинных хвостов”. Поскольку интеграл от 1/x расходится (он равен ln x), “хвост” этого графика, тонкий, но длинный – дает большой вклад в общую сумму.
Это что-то врооде закона природы. Поэтому я так уверенно про “наивных” и написал, переоценил читателей, так сказать.
Итак. Взял я “топ 20” заработков (по данным, приведенным absolut в комментариях к пршлому посту). И аппроксимировал функцией f(x)=a/(x плюс b), где по горизонтали х – место:

При этом, как видно, очень хорошая сходимость есть. Ближе к верху отклонения есть, но общее согласие отличное. Величины там относительные нарисованы.
В общем, забавно получилось. (могу дать xls)
***
А к чему я все это? Аппроксимация Топ20 косвенно подтверждает тот факт, что основные заработки PPCSEй делаются на длинном хвосте начинающих дорвейщиков, на которых и направлены все услилия владельцев пиписЕй.
Мне забавно.

Почти Вся Правда о Дорвеях И Дорвейщиках

Ну, кто такие дорвеи и дорвейщики, знают все. Вводная не нужна.
Я вот замечаю, что часто стали дорвейщики “выступать”. Статьи пишут, как лучше спамить. Интервью друг другу дают. Да и почти в каждом посте на известном форуме видно это самое… “Если ты такой белый оптимизатор, show me your money”. 🙂
Время от времени пытаюсь их покусывать, но мысли привести в порядок сподобился только сейчас. Вот, собственно.
Для меня лично дорвейный спам делится на 2 части – плохой (который мешает юзерам, но не вебмастерам) и очень плохой (который мешает и тем, и другим). Очень плохой – это, например, дорвеи плюс спам форумов, блогов и гостевух своими ссылками, которые приходится вычищать. Плохой – те же дорвеи со спамом ссылок в невидных местах (профили форумов, страницы статистики) или без спама ссылок.
Собственно, перебирать все их аргументы неинтересно (типа такого: дорвеи приносят пользу юзеру, т.к. он попадает сразу на то, что искал). Моя цель – переубедить начинающих дорвейщиков. Так что разберем самые “убийственные” аргументы 🙂

“Высокие умения дорвейщиков”

Дорвейщики иногда говорят, что белые оптимизаторы их не любят потому, что якобы дорвейщики умеют лучше оптимизировать-продвигать. И часто хвастаются, мол, “у меня дор за 3 дня по одной таблетке в топ влез”, а вы тут пыжитесь месяцами…
Нет, я, конечно, понимаю – с помощью генерилок дорвеев можно наплодить страничек на любую тему. Но ведь если дорвейщик умнее и т.п. белого оптимизатора, он минимальным усилием головного мозга может создать сайт, который не будут банить, сделав из тех же слов и тематического контента – читаемый текст.
Вместо одноразового сайта он получит долгоиграющий. Почему же он этого не делает? 🙂 Потому, что редиректу все равно, но об этом позже.

Цинизм и кто его придумал

Часто дорвейщики выглядят так, как будто именно они придумали цинизм. Они, чиста в натуре, занимаются “бизом”. Нафинг пёрсонал. А все белые оптимизаторы – сопливые желторотые недоумки, которые за отсутствием головного мозга для чего-то (вот смех!) СОБЛЮДАЮТ ПРАВИЛА поисковых систем. Во дебилы, а! 🙂
Сообщаю. Цинизм придумали не дорвейщики. Я лично гораздо циничнее. Не скажу за других “белых”, но думаю, что они тоже. И вот в чем гадость моего поведения: я ужасно циничен и соблюдаю эти правила ПОТОМУ, ЧТО МНЕ ЭТО ВЫГОДНО.
А выгодно это мне потому, что мои усилия накапливаются. Я, кроме всего прочего, очень ленив и мне нравится, когда сделанное мной работает на меня долго. А не улетает в бан тут же.

Робингудство и Романтика

Частенько у дорвейщиков бывает такое отношение, мол, “ты меня не любишь потому, что мне завидуешь”. Завидуешь – понятно, из-за денег, но это следующим пунктом.
Завидуем? Как там Доцент говорил:

“Ну что у него за жизнь? Утром – на работу, вечером – с работы, дома жена, дети сопливые. Ну в театрик сходит, ну летом в санаторий съездит. В Ялту. Тоска смертная.
А ты – ты вор, жантильмен удачи. Украл, выпил – в тюрьму. Украл, выпил – в тюрьму. Романтика. А ты говоришь… Конечно, завидует.”

Как происходит у дорвейщика:
Украл, выпил, в бан. Украл, выпил, в бан. Романтика. 🙂
Как происходит у белого оптимизатора:
Долго выковыривал, выпил- выпил- выпил, заначил на будущее… Выковырял вторую, выпил- выпил- выпил, опять заначил… Никакой романтики…
Вот зачем, спрашивается, люди делают одноразовые сайты, одноразово их ссылочно-спамят и одноразово же попадают в бан, вместо того, чтобы потихоньку накопить ресурсы? Из-за романтики?
Да вроде нет…

Про Бабло или “Кому Выгодно?”

Всем понятно, как близко стоит SEO к открытию своего бизнеса. Не “биза” на “фидах”. И даже не сайта с “рекламной моделью”. А просто бизнеса. Чиста реального.
А раз ты близко от бизнеса, то ты независим. Не договорились с одним заказчиком – можно с другим договориться или вообще свой бизнес открыть. Уж если ты оптимизатор, без клиентов фирма не останется.
А раз ты близко от бизнеса и независим, то и цена твоя выше. И денег за вложенный мозго-час платится больше. Потому, что потенциальные клиенты под твоим контролем, а бизнесу клиенты нужны.
Только клиент – это такая сволочь, которую надо прикармливать. Почти всегда (детоксы не в счет). Которая ходит вокруг да около, а купит тогда, когда к тебе и сайту твоему привыкнет. И, конечно, если сайт достойный и прочая и пр.
Нет, конечно, есть клиенты, которые “срочно-обморочно” и дорогие товары покупают. Их-то и срезают дорвейщики. Но все-таки кроме картинки с товаром и привлекательной цены клиенту нужно обслуживание. И они, клиенты, имеют свойство возвращаться в магазины, если ему понравилось один раз.
К чему все это? К тому, что “продвижение своего сайта” даже при продаже с него чужих товаров (аренде сайта, например) по-любому выгоднее “трафика со своих дорвеев”. Выгоднее в первую очередь для бизнеса с постоянными клиентами. А раз выгоднее для бизнеса, будет выгоднее и для SEO- “биды” больше (ну, или их выражение в оплате работ). И еще выгоднее при аренде сайта, там весь контроль твой.
И при долгоиграющем сайте арендатора найти – не вопрос. А можно и под готового заказчика сайт продвигать.
А в чем тогда проблема, почему тогда дорвеи плодят? Потому, что посредники есть, им тоже кушать хотца.

Где тут место посредникам (PPC SE)?

А нет им места в этой схеме с обычным продвижением сайта. PPC SE – нет места.
Т.к. если сайт-площадка долгоиграющий – денег посредник может взять лишь за однократный акт сводничества с заказчиком. А если сайт продвигается под конкретного заказчика – вообще ППС в пролете останутся.
Другое дело дорвеи. Заказчик не сможет привыкнуть к тому, что трафикогенерирующий сайт сегодня один, завтра – другой. Он этого просто не поймет. И больше того – если сайт забанят, нужно сменить не только сайт, но и самого оптимизатора, идти искать нового?
Тут появляется посредник, который просто продает трафик, объединяя покупателей (реальный бизнес) и продавцов (“чиста биз”) трафика. Правда, ни о какой лояльности посетителя речь не идет – это возможно только при долговременной работе сайта, а тут срубаются вершки.
Но самое главное в том, что продавец трафика (начинающий дорвейщик в данном случае) привыкает к ситуации. Ведь работу можно начать быстро. Дорвейщик начинает думать, что это нормально – не иметь собственного источника постоянной прибыли. Он втягивается в круг “украл-выпил- в тюрьму”.

На игле скорости – быстро, но ненадолго

Однако медленно это – долгоиграющие сайты продвигать. И трудоемко. Не то, что в PPC: кейворды – дадут, биды – дадут, дорогенератор – дадут, статью напишут и объяснят все. Ну и реферальскую ссылку дадут. 🙂
Реферальская система в ППС – отдельная песня. Нет, я, конечно, не против партнерства, в том числе привлечения целевого трафика за проценты. Только похвалы дорвейной схеме работы часто исходят от людей с “рефссылкой в подписи”. Ну и еще – от владельцев этих самых систем. А что? Им ведь выгодно. Нафинг пёрсонал.
За быстрый старт и широкий выбор тем (кейвордов) для работы начинающий дорвейщик расплачивается своей базой на будущее. Он попадает в ситуацию, которая требует непрерывно размножаться – быстрее, чем давят. “Принцип Таракана”. Работать в пустоту, вложенные услилия не накапливаются.
Наверное, многие держат деньги в банках, во вкладах с процентами. Деньги должны работать. Накопленное должно приносить пользу. Накопленные деньги работают гораздо менее эффективно, нежели свои накопленные усилия и наработки. Да и еще в теме, где ты – специалист и в области, которая быстро растет (SEO).
У некоторых получается быстро размножаться и зарабатывать деньги. Только ведь давят все равно. Догоняют и давят. 🙂

Бизнес на муравьях

Надеюсь, наивных здесь нет и никто не думает, что “топ 10 мастеров” PPC зарабатывают основные деньги. Это бизнес не на слонах, а на муравьях. [А если есть – см. следующий пост: http://blog.promosite.ru/comments.php?452 ]
Ниже “топовых” дорвейщиков есть длиннющий хвост персонажей с гораздо более скромными заработками. Но зато их очень много. Именно эта масса безымянных и приносит основные деньги PPC SE. Только они получают не “Ауди” в подарок, а повышенное слюноотделение. 🙂
Муравьев нужно постоянно мотивировать, ибо они ленивы и неорганизованны. Каждый тянет в свою сторону. Поэтому просто понять, откуда так много пиара этой темы. Вы думаете, маститые дорвейщики затевают словесные баталии на форумах ради самоудовлетворения и гордости за свое дело? Нет – ради пиара и рефералов. Вы думаете, разговоры вида “мои рефы уже квартиры покупают” ведутся для этого? Нет – для повышения слюноотделения у будущих муравьёв.
А муравьи должны работать. Кстати, муравей работает лучше всего, если у него нет базы, на которую он мог бы опереться.

Резюме – схема работы

Человека надо поставить в ситуацию, которая отрубит ему возможность работать на себя и заставит жить сегодняшним днем.
PPC нужно получать трафик, целевой, конечно. Оплачиваются клики со “страниц поиска”. Надо привести хобота на страницу поиска. Самый простой – средиректить. А раз есть редирект, долгоиграющим сайт не будет, а будет дорвеем. А раз он будет дорвем – он будет забанен, поэтому не надо учиться делать хороший контент и юзабилити, а надо учиться быстро бегать и размножаться, как таракан.
Ну и денег приносить PPC.

Nothing personal… 🙂

***
PS
Упарился, 2 дня писал. Если хочется, можно перепечатывать без ограничений и уведомлений, но со ссылкой.

Вебальта и дорвеи – близнецы-братья ненадолго?

Содатели поисковика Вебальта страдают от дорвейщиков, ими же порожденных немного ранее:
http://umaxforum.com/topic/17/10065/0/
Смешно, молодцы! 🙂
PS и дальше в теме дорвейщики рассуждают о методах борьбы с самими собой 🙂

Байки из склепа

Был у меня домен delomag.ru, купил его для нужд, а пока не использовал – вывесил на нескольких его субдоменах (10-20) эксперимент с генеренными текстами, и домен быстренько побанили. Продлять не стал.
Шло время, домен перекупили после освобождения (наверное, по принципу – раз кому-то надо было, значит и нам сгодится), разместили на нем проект на тему.
А сайт так и остался забаненным в Яндексе (“не был внесен в базу Яндекса, так как его индексация запрещена”) и Рамблере (“Ваша страница не может быть принята к регистрации”).
А мужики-то и не знают. 🙂
PS Из одного разговора – в Яндексе для обучения алгоритмов не скачивают забаненные по дорвеям сайты, а хранят только их урлы. Наобучаются. 🙂

Как бы я давил дорвеи, сделанные по «цепям Маркова»

В одном из постов ниже я выплескивал все свои гадкие мысли по поводу убийства дорвеев. Однако, есть класс дорвеев, который не убивается такими способами. Это дорвеи, генеренные с использованием цепей Маркова – они сохраняют грамматику оригинала (с пунктуацией, правда, проблемы, но ее отлавливать вряд ли возможно)

Что такое «цепи Маркова»?

Есть компьютерная игрушка – алгоритм, угадывающий мысли. Я тоже когда-то писал по нему программу :). Мысли человек формулирует в виде последовательности ноликов и единичек, введенных в компьютер. А компьютер отвечает или не отвечает так: после того, как ты задумал число, он пытается его угадать, а ты потом его вводишь. Обманывать компьютер нельзя, это нечестно! 🙂

Через некоторое время он начинает прилично угадывать. Даже удивительно. А алгоритм основан на том, что датчик случайных мыслей (цифирок :)) в человеке не случаен, а берет на вход предыдущие сгенеренные цифирки. И то, что следующим ходом человек сгенерит, определяется тем, какие цифры он сгенерил до того. И как ему компьютер отвечал (как вариант игры – он может угадывать втихую и не отвечать сразу, а отвечать потом).

Короче говоря, вся ситуация отслеживается на N ходов назад, и данные аккумулируются в таком виде: для каждой последовательности из N введенных ранее [0,1] считаем число введенных ПОСЛЕ этой последовательности единичек и число нулей. И считаем вероятность того, что человек введет следующим ходом. Если статистика по единичкам сильно больше, значит, «угадываем» единичку. Наоборот – ноль. Примерно одинаково – генерим случайно. А еще есть вариант игры с ответом «не знаю» в виде двойки, только тогда для эффективного угадывания данные накапливать дольше надо.

Вот такая простая скотина этот человек :). Сложным натурам можно на 3 хода назад отслеживать, простым – на 2.

Так вот цепи Маркова – это цепи событий. Они используются в жизни таких вариантах:

  • когда надо посчитать некое стационарное состояние (распределение) при наличии ограниченного набора событий. Например, перескоки электронов по энергетическим уровням. Или перескоки юзера по матрице ссылок при расчете PageRank: http://www.yandex.ru/yandsearch?text=цепи маркова pagerank&stype=www
  • Или когда надо предсказать поведение системы на основе ее нынешнего состояния. Тут используется понятно какая гипотеза – что развитие ситуации определяется тем, как она развивалась раньше на N ходов. Например, тот же текст может быть описан как последовательность и по ней выбрано слово, появление которого в тексте «следующим ходом» наиболее вероятно.

Так вот про текст и говорим. Слов, однако, гораздо больше, чем 2 (ноль и единица), поэтому эффективно угадать следующее слово не выйдет. А неэффективно, но грамматически связно – пожалуйста! Это и есть генерация по цепям Маркова.

***
Вот несколько ссылок по теме:

Про PageRank: http://www.mediacraft.ru/sections/articles/1/2.html
На форуме SeoChase: http://www.seochase.com/viewtopic.php?t=2149
Про генерацию текстов: http://predpinimatel-cd.com.ru/book/Programming/Praktical_programing/Glava3/Index2.htm (терминология там, правда, стремная)
***
Короче говоря, вероятности в случае генерации связного текста можно выбросить за ненадобностью… Алгоритм получается такой:
0) берем текст, разбиваем его по предложениям, а внутри каждого предложения выделяем последовательности из N (допустим, 2-х) слов и пишем в таблицу
1) Берем случайно одно из «первых» слов в предложении, и ставим эту пару как первую.
2) По второму слову в паре выбираем все те пары, в которых это слово идет первым и дополняем текст вторым словом
3) Идем к предыдущему пункту 2, не забывая иногда закрывать предложение (например, парами, которые встречаются в концах предложений)

Вот примерно так. Это дает грамматически связный текст в любых количествах. Для размножения можно использовать и вероятности появления той или иной последовательности, и увеличивать N, выбирая одно следующее слово по предыдущим N-1. И все цепочки слов (здесь: пары) встречаются в реальной жизни, а на пробивку по тройкам и N-кам слов никаких ресурсов у поисковика не хватит.

А как бороться с «дорвеями по цепям Маркова»?

А так, что основная цель дорвейщика – увеличить количество текста. И, взяв на вход 100-200 КБ (15-30 тыс. слов), получить на выходе огромную гору текста, разбитую по страницам.

Но свойство любого текста будет в том, что распределение тех же пар слов будет иметь длинный и тонкий хвост из редко (1 раз, например) используемых словосочетаний. Просто потому, что в русском языке слов – до фига. Даже словарный запас из 100 тыс. слов –больше, чем весь исходный для дорвейщика текст. И длина этого хвоста (ну, скажем, число пар, встречающихся в тексте 1 раз, поделенное на общее число пар) – будет измеряться в десятках процентов. А то и до 70-90%, чую, доходить будет. Ну это поверяется легко.

А поскольку лорвейщик текста нагенерил в 10-100 раз больше, чем был исходный текст, словосочетания там поюзаны многократно. Гораздо больше, чем 1 раз. Конечно, дорвейщик разбил текст по страницам, так что ловить надо в пределах сайта.

В принципе, даже ресурсов много не надо… Пробить по нескольким хорошим крупным сайтам свойства текстов. Прикинуть, например, сколько из 10 тыкнутых наугад пар слов встречаются на сайте более 1 раза. Допустим, 10-30%.

А у дорвейщика будет сильно больше 99%. Например, если дорвейщик из 100 Кб текста нагенерил 10 Мб, он каждое словосочетание использует где-то 100 раз. Ну и вероятность, что ты попадешь на уникальное в пределах сайта словосочетание – порядка 1%. А 99 будут неуникальных.

Ну и дальше сайт – ф топку. Т.е., звонок модератору.