Евгений Трофименко – Страница 60 – Евгений Трофименко: SEO и не только

хинт: увеличение картинок

Для витрин с товаром: сегодня увидел такой метод укрупнения картинок – http://www.log-in.ru/dtSection/galleries/?cat=8&dog=1349
Написано: Размер картинки – 100% Для изменения размера подведите указатель мыши к картинке и покрутите “колесико”
Все просто и интуитивно понятно… Так можно в определенный момент по тем же событиям яваскипта подгружать более качественную картинку…
Только вот текст страницы прыгает при ресайзе.

adstat.rambler.ru гигнулся…

http://adstat.rambler.ru/wrds/ – 403 Forbidden, уже полдня как…
Смотрел через Яндексовскую подсветку – тоже не кажет… Неужто прикрыли? 🙂
Хотя, если что, будем рамблеровские статсы через adwords смотреть… 😀

by.ru – таки забанил Яндекс!

По мотивам клоакинга на by.ru -забанили его, целиком! 🙂
И ведь не просто основной сайт забанили, а вместе со всеми субдоменами.
Типа все ждем, пока бай.ру побежит плакаться, а Яндекс – его восстанавливать… 🙂
***
PS А еще by.ru открывает к индексации страницы с поиском в том же каталоге…

Кстати, насчет Гуглевых параметров в урле Рамблера

Вроде подозрительных параметров “oe” и “btnG” – а ведь по существованию страничек вроде этой: http://www.cyborghome.ru/index.php?&cbrgshowstat=1&cbrggetstat=05_07_30.txt и поиска по статистике в http://turists.ru/rating/stat.php?lastt=1122832852&nowt=1122919252&id=82&page=ref (введите в календаре с 2005-06-27 22:00 по 2005-06-28 22:00) – получается, что этот btnG в Рамблере ввели в конце июня…
Так что не вчерашняя новость получается…
Но пока Рамблер вроде Гуглю не продался… Может, они какую-нибудь примочку от Гугля собираются купить? Типа рекламной системы какой-нибудь? И для этого параметры ввели?

3 российских десяточки…

Интресный пост на адвертке:
***
Поразительные все-таки люди наши питерские метро-коробейники (те, что ходят по вагонам, и предлагают то прошлогодние журналы, то чудо-ручки, то супер-пластыри… ну да вы их знаете). Так вот – сегодня еду в метро, входит один такой кадр и начинает свою привычную бубнилку – “Здравствуйте. Сегодня я хочу предложить вам…” – в общем, продает он какой-то женский журнал. Доходит до оглашения цены. И тут он произносит подряд следующие 3 фразы:
1. “В магазине этот журнал стоит 120 рублей. Я же предлагаю вам его в 4 раза дешевле.” – это , значитца, фраза для умных. Мол, кто в школе учился, сам поделит и поймет.
2. “Супер-пупер журнал всего за 30 рублей.” – это для недоходчивых. Чтоб не мучить уставшие после работы мозги простых обывателей, наш “сейл-манагер” прямо называет цену.
3. И вот тут уже совсем для тупых – “Всего за три российских десяточки.” То есть чтоб те, которые даже считать дальше десяти не могут, зато умеют отличать десятки от полтинников, а рубли от долларов, тоже могли совершить покупку.

Мораль: учитесь, пиарщики и рекламщики. Вот она, народная мудрость – полный охват всех социальных слоев за 3 коротких, и, в сущности, бесхитростных фразы.
***

Как бы я давил дорвеи, сделанные по «цепям Маркова»

В одном из постов ниже я выплескивал все свои гадкие мысли по поводу убийства дорвеев. Однако, есть класс дорвеев, который не убивается такими способами. Это дорвеи, генеренные с использованием цепей Маркова – они сохраняют грамматику оригинала (с пунктуацией, правда, проблемы, но ее отлавливать вряд ли возможно)

Что такое «цепи Маркова»?

Есть компьютерная игрушка – алгоритм, угадывающий мысли. Я тоже когда-то писал по нему программу :). Мысли человек формулирует в виде последовательности ноликов и единичек, введенных в компьютер. А компьютер отвечает или не отвечает так: после того, как ты задумал число, он пытается его угадать, а ты потом его вводишь. Обманывать компьютер нельзя, это нечестно! 🙂

Через некоторое время он начинает прилично угадывать. Даже удивительно. А алгоритм основан на том, что датчик случайных мыслей (цифирок :)) в человеке не случаен, а берет на вход предыдущие сгенеренные цифирки. И то, что следующим ходом человек сгенерит, определяется тем, какие цифры он сгенерил до того. И как ему компьютер отвечал (как вариант игры – он может угадывать втихую и не отвечать сразу, а отвечать потом).

Короче говоря, вся ситуация отслеживается на N ходов назад, и данные аккумулируются в таком виде: для каждой последовательности из N введенных ранее [0,1] считаем число введенных ПОСЛЕ этой последовательности единичек и число нулей. И считаем вероятность того, что человек введет следующим ходом. Если статистика по единичкам сильно больше, значит, «угадываем» единичку. Наоборот – ноль. Примерно одинаково – генерим случайно. А еще есть вариант игры с ответом «не знаю» в виде двойки, только тогда для эффективного угадывания данные накапливать дольше надо.

Вот такая простая скотина этот человек :). Сложным натурам можно на 3 хода назад отслеживать, простым – на 2.

Так вот цепи Маркова – это цепи событий. Они используются в жизни таких вариантах:

когда надо посчитать некое стационарное состояние (распределение) при наличии ограниченного набора событий. Например, перескоки электронов по энергетическим уровням. Или перескоки юзера по матрице ссылок при расчете PageRank: http://www.yandex.ru/yandsearch?text=цепи маркова pagerank&stype=www
Или когда надо предсказать поведение системы на основе ее нынешнего состояния. Тут используется понятно какая гипотеза – что развитие ситуации определяется тем, как она развивалась раньше на N ходов. Например, тот же текст может быть описан как последовательность и по ней выбрано слово, появление которого в тексте «следующим ходом» наиболее вероятно.

Так вот про текст и говорим. Слов, однако, гораздо больше, чем 2 (ноль и единица), поэтому эффективно угадать следующее слово не выйдет. А неэффективно, но грамматически связно – пожалуйста! Это и есть генерация по цепям Маркова.

***
Вот несколько ссылок по теме:

Про PageRank: http://www.mediacraft.ru/sections/articles/1/2.html
На форуме SeoChase: http://www.seochase.com/viewtopic.php?t=2149
Про генерацию текстов: http://predpinimatel-cd.com.ru/book/Programming/Praktical_programing/Glava3/Index2.htm (терминология там, правда, стремная)
***
Короче говоря, вероятности в случае генерации связного текста можно выбросить за ненадобностью… Алгоритм получается такой:
0) берем текст, разбиваем его по предложениям, а внутри каждого предложения выделяем последовательности из N (допустим, 2-х) слов и пишем в таблицу
1) Берем случайно одно из «первых» слов в предложении, и ставим эту пару как первую.
2) По второму слову в паре выбираем все те пары, в которых это слово идет первым и дополняем текст вторым словом
3) Идем к предыдущему пункту 2, не забывая иногда закрывать предложение (например, парами, которые встречаются в концах предложений)

Вот примерно так. Это дает грамматически связный текст в любых количествах. Для размножения можно использовать и вероятности появления той или иной последовательности, и увеличивать N, выбирая одно следующее слово по предыдущим N-1. И все цепочки слов (здесь: пары) встречаются в реальной жизни, а на пробивку по тройкам и N-кам слов никаких ресурсов у поисковика не хватит.

А как бороться с «дорвеями по цепям Маркова»?

А так, что основная цель дорвейщика – увеличить количество текста. И, взяв на вход 100-200 КБ (15-30 тыс. слов), получить на выходе огромную гору текста, разбитую по страницам.

Но свойство любого текста будет в том, что распределение тех же пар слов будет иметь длинный и тонкий хвост из редко (1 раз, например) используемых словосочетаний. Просто потому, что в русском языке слов – до фига. Даже словарный запас из 100 тыс. слов –больше, чем весь исходный для дорвейщика текст. И длина этого хвоста (ну, скажем, число пар, встречающихся в тексте 1 раз, поделенное на общее число пар) – будет измеряться в десятках процентов. А то и до 70-90%, чую, доходить будет. Ну это поверяется легко.

А поскольку лорвейщик текста нагенерил в 10-100 раз больше, чем был исходный текст, словосочетания там поюзаны многократно. Гораздо больше, чем 1 раз. Конечно, дорвейщик разбил текст по страницам, так что ловить надо в пределах сайта.

В принципе, даже ресурсов много не надо… Пробить по нескольким хорошим крупным сайтам свойства текстов. Прикинуть, например, сколько из 10 тыкнутых наугад пар слов встречаются на сайте более 1 раза. Допустим, 10-30%.

А у дорвейщика будет сильно больше 99%. Например, если дорвейщик из 100 Кб текста нагенерил 10 Мб, он каждое словосочетание использует где-то 100 раз. Ну и вероятность, что ты попадешь на уникальное в пределах сайта словосочетание – порядка 1%. А 99 будут неуникальных.

Ну и дальше сайт – ф топку. Т.е., звонок модератору.

Яндекс-Украина-Петренко

Яндекс открывает представительство в Украине
http://company.yandex.ru/news/2005/0906/index.xml

Компания «Яндекс» открывает представительство в Украине. Директором компании «Яндекс.Украина» стал Сергей Петренко, консультант по поисковому маркетингу, основатель и владелец сайта Searchengines.ru. Задача новой компании — продажа рекламы и развитие служб Яндекса, предназначенных для украинских пользователей.

«Яндекс индексировал украинские сайты с самого своего основания, — говорит Аркадий Волож, генеральный директор компании «Яндекс». — Но мы хотим быть еще ближе к украинским пользователям. Поэтому мы решили включить в команду Яндекса профессионалов, хорошо знакомых с интернет-рынком Украины».

Каждую неделю Яндексом пользуется около полумиллиона жителей Украины. Компании «Яндекс» принадлежат домены yandex.ua и yandex.com.ua. В марте 2005 года на территории Украины был зарегистрирован товарный знак «Яндекс». В июле 2005 года «Яндекс» провел первый зарубежный семинар для распространителей рекламы в Киеве.

«Яндекс уже сейчас является одним из крупнейших порталов с точки зрения украинских пользователей, — говорит Сергей Петренко. — Но надо признать, что, с одной стороны, сервисы портала могут и должны быть более удобными для жителей Украины, а с другой — портал как рекламная площадка должен стать ближе украинским рекламодателям. Этим мы и займемся в ближайшее время».

Офис компании «Яндекс.Украина» будет открыт в сентябре в Одессе. 20 сентября 2005 года компания «Яндекс» проведет пресс-конференцию в Киеве, в агентстве УНИАН. Для аккредитации журналистов приглашают обратиться в пресс-службу компании.

-на Малой Арнаутской Улице 🙂
Позравляю!
PS Теперь Серега с полным правом прилепит себе на форуме лейбл “Яндекс”. 🙂

Если бы я был поисковиком,

… я бы дорвеи уничтожал следующим образом.
Дорвеи бывают какие:
1) Из полностью генеренного текста, с долей ключевика и разных всяких частей речи в нужных пропорциях.
2) Сделанные из нормального текста со вставками ключевых слов или фраз в текст (или заменами части слов на ключевик).
3) Сделанные из блоков нормального контента на левую тему и блоков текста с ключевиками, тоже нормального и человеческого.
***
Дорвеи первого типа, полностью генеренные. Плюс для дорвейщика: уникальность текста – он действительно уникален. Минус для человека: бред полный написан. Но главное – их легче определять. Например, у поисковиков есть специальные эвристики, наборы правил для нормализации (приведения слова к нормальной форме) – причем простенькие. Это называется стемминг. Лежат в открытом доступе.
Логично, что и прикидку по падежам, числам, склонениям и т.п. робот поисковика может с хорошей вероятностью угадать, не залезая в словарь. И рассогласования. например, в числе существительного и прилагательного, стоящих рядом, отловить. И многое другое того же рода.
Понятно, что включать звоночек модератору автомат будет только при тотально неграмотном тексте (в пределах документа, раздела, сайта…). А для снижения нагрузки можно не по каждому термину документа эту проверку делать, а только по тем, которых заметная доля (в тех же пределах, сайта или документа) или просто тех, которые на странице больше 1 раза встречаются. 🙂

Дорвеи третьего типа. Плюс для человека – язык нормальный, человеческий. Минус для дорвейщика: неуникальность фраз, предложений, блоков текста. Причем если “левый” контент еще можно натырить из разных мест и сделать его малоповторяющимся, то с текстом с ключевиками такое не пройдет.
Ну способы ловли неуникальных фрагментов описаны, например, у И. Сегаловича. Ставим длину шингла поменьше, ищем в пределах сайта… Определяем, что ключевой текст размазан тонким слоем по сайту.
Их, в общем-то, и банить не надо, пессимизировать достаточно.

Ну и дорвеи второго типа. Посложнее, т.к. здесь и куски текста более уникальные, и ошибок в согласовании меньше (допустим даже, что их нет!, т.е., дорвейщик и падеж правильный поставил, и вместо существительного существительное влепил – все по уму).
Однако ж юзер, читая текст, легко определит дорвей. А для робота маркером может быть, конечно, не отсутствие смысла в тексте, а наличие большого количества пар слов, которые не употребляются (редко употребляются) в нормальной жизни. Типа “зеленая турфирма”, “радостный ноутбук” и т.п. Только есть закавыка – слов много, а их пар – еще больше… 🙁
На это есть решение. Во-первых, данные о частоте употребления тех или иных слов хранятся. Берем “часто употребительные” слова, отдельно по частям речи. Планку на “часто” ставим исходя из общего объема расчетов и объема, выделенного под хранении информации о парах слов. Дальше по выбранным словам строим заведомо подъемное количество пар слов (в нормальных формах) и пробиваем, насколько часто в базе встречается каждая.
Дальше смотрим на статистику и ставим еще одну планку, отделяющую “разумные” пары слов и выбрасывающую “неразумные”.
Ну и по документу (разделу, сайту…) смотрим, сколько среди “значимых” слов есть “разумных” и “неразумных” пар. И если неразумных много – звоним в звоночек модератору…

***
Все. Остается только ждать. 🙂

PS Кстати, текст, генеренный с исп. цепей Маркова, не берется такими способами… Упс. Но зато в этот текст по своему хотению кейвордов напихать сложно.

в воскресенье едем – присоединяйтесь!

Оптимизаторы и сочуствующие, подтягивайтесь:
http://forum.searchengines.ru/showthread.php?p=909640

Сбор утром в воскресенье (по времение – окончательно на форуме) у м. Измайловская, затем едем на специальное озеро по Щелковскому шоссе жарить и есть шашлыки и пить пиво.

На данный момент: 4-5 чел есть, 2 машины.

Яндекс-Директ: ой, ё…

Букву “ё” как-то не переваривает… Ищешь в wordstat – постельное, третьим номером: постельное бель? 1331
Смотрим статистику по “постельное бель?”, а там просто постельное бель в количестве в 10 раз меньше…
Интересно, что это за “ё” там такое… И как в таких случаях показы считают…

Февраль 2026
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28