Если бы я был поисковиком,

… я бы дорвеи уничтожал следующим образом.
Дорвеи бывают какие:
1) Из полностью генеренного текста, с долей ключевика и разных всяких частей речи в нужных пропорциях.
2) Сделанные из нормального текста со вставками ключевых слов или фраз в текст (или заменами части слов на ключевик).
3) Сделанные из блоков нормального контента на левую тему и блоков текста с ключевиками, тоже нормального и человеческого.
***
Дорвеи первого типа, полностью генеренные. Плюс для дорвейщика: уникальность текста – он действительно уникален. Минус для человека: бред полный написан. Но главное – их легче определять. Например, у поисковиков есть специальные эвристики, наборы правил для нормализации (приведения слова к нормальной форме) – причем простенькие. Это называется стемминг. Лежат в открытом доступе.
Логично, что и прикидку по падежам, числам, склонениям и т.п. робот поисковика может с хорошей вероятностью угадать, не залезая в словарь. И рассогласования. например, в числе существительного и прилагательного, стоящих рядом, отловить. И многое другое того же рода.
Понятно, что включать звоночек модератору автомат будет только при тотально неграмотном тексте (в пределах документа, раздела, сайта…). А для снижения нагрузки можно не по каждому термину документа эту проверку делать, а только по тем, которых заметная доля (в тех же пределах, сайта или документа) или просто тех, которые на странице больше 1 раза встречаются. 🙂

Дорвеи третьего типа. Плюс для человека – язык нормальный, человеческий. Минус для дорвейщика: неуникальность фраз, предложений, блоков текста. Причем если “левый” контент еще можно натырить из разных мест и сделать его малоповторяющимся, то с текстом с ключевиками такое не пройдет.
Ну способы ловли неуникальных фрагментов описаны, например, у И. Сегаловича. Ставим длину шингла поменьше, ищем в пределах сайта… Определяем, что ключевой текст размазан тонким слоем по сайту.
Их, в общем-то, и банить не надо, пессимизировать достаточно.

Ну и дорвеи второго типа. Посложнее, т.к. здесь и куски текста более уникальные, и ошибок в согласовании меньше (допустим даже, что их нет!, т.е., дорвейщик и падеж правильный поставил, и вместо существительного существительное влепил – все по уму).
Однако ж юзер, читая текст, легко определит дорвей. А для робота маркером может быть, конечно, не отсутствие смысла в тексте, а наличие большого количества пар слов, которые не употребляются (редко употребляются) в нормальной жизни. Типа “зеленая турфирма”, “радостный ноутбук” и т.п. Только есть закавыка – слов много, а их пар – еще больше… 🙁
На это есть решение. Во-первых, данные о частоте употребления тех или иных слов хранятся. Берем “часто употребительные” слова, отдельно по частям речи. Планку на “часто” ставим исходя из общего объема расчетов и объема, выделенного под хранении информации о парах слов. Дальше по выбранным словам строим заведомо подъемное количество пар слов (в нормальных формах) и пробиваем, насколько часто в базе встречается каждая.
Дальше смотрим на статистику и ставим еще одну планку, отделяющую “разумные” пары слов и выбрасывающую “неразумные”.
Ну и по документу (разделу, сайту…) смотрим, сколько среди “значимых” слов есть “разумных” и “неразумных” пар. И если неразумных много – звоним в звоночек модератору…

***
Все. Остается только ждать. 🙂

PS Кстати, текст, генеренный с исп. цепей Маркова, не берется такими способами… Упс. Но зато в этот текст по своему хотению кейвордов напихать сложно.

Если бы я был поисковиком,: 12 комментариев

  1. Жень, за исключением некоторых вещей это все логично.. но вот только почему то тот же яндекс уж очень хреново переваривает дорвеи 😉 а сейчас на умаксе и "партнерка, скажем так" на рунет есть … так что скоро загадят Я совсем..

  2. не все доры описаны, есть и более умные.

  3. Евген, про все доры вроде никто и не говорил, говорили про основную массу доров..

  4. Дорвеи удалить несложно, а взамен что ?
    или так скажем ….а следующие на очереди кто ?
    или может быть скажем так …. начать чистку с оптимизированных сайтов ? 🙂

  5. GreenWood .. вообще-то оптимизированные сайты нельзя приравнивать к дорвеям..

  6. GreenWood .. вообще-то оптимизированные сайты нельзя приравнивать к дорвеям..

    поисковики так сказали ?

  7. Евген, про все доры вроде никто и не говорил, говорили про основную массу доров..

    я как раз и имел ввиду, что основная часть сейчас резко умнеет.

  8. Хех, мощно. Учтём при дорвеестроительстве 🙂

    Прим. не в тему – где RSS? Я не нашёл что-то.
    __
    <a href=http://www.findfilm.ru/>Фильмы</a>

Комментарии запрещены.