Ну, вы сами все поняли, в общем.
Год: 2004
Теоретически…
Об анализе выдачи.
Вот есть, например, несколько факторов – например, в простейшем случае, % в тексте и ссылки со словами.
И есть вся выкачанная выдача по этому запросу.
Тогда разбиваем каждый фактор на диапазоны значений и смотрим, как распределены сайты в выдаче целиком – получается этакая таблица значений:
0 ссылок | 1-5 ссылок | 5-10 ссылок | … | |
0 % частота | Ni% | Ni% | Ni% | Ni% |
0.01-1.99 % частота | Ni% | Ni% | Ni% | Ni% |
2-5 % частота | Ni% | Ni% | Ni% | Ni% |
… | Ni% | Ni% | Ni% | Ni% |
В ячейках – доля сайтов, попадающих в этот диапазон. Это получается общая статистика по всей выдаче по слову. Конечно, диапазонов может быть много, да и факторов – больше двух.
И так же выбираем “верхушку выдачи”, делаем аналогичный анализ и смотрим, как отличаются % сайтов, попавшие в разные ячейки. Можно делать “срезы” по выдаче, уходя в ее глубину.
Тогда вероятно, можно приблизиться к оптимальным значениям…
Но…
Сколько данных нужно? Положим, вся выдача Яндекса – 5000 результатов. Допустим, у нас 10 диапазонов каждого из 2-х параметров – итого 100. А нужно, чтобы статистика еще как-то существовала… Здесь в среднем получается по 50 результатов на ячейку (собственно, сами диапазоны надо выбирать именно так, чтобы внутри них статистика была приличной – где-то участить, где-то проредить).
Ну а если взяли, например, первые 500? По 5 результатов в клетке в среднем? Фигня, а не статитика. А если первые 100 анализируем? 🙂
Т.е., получается – либо отдельные гипотезы проверять остается, выбирая минимальное число диапазонов (2-3, например, в произведении 4-9), либо фигня получится.
Да и факторов млжет быть гораздо больше.
Хотя для выискивания зависимостей может подойти… Сначала предположить зависимость, потом напридумывать гениальных 🙂 гипотез и их проверять…
Иначе данных маловато получается.
Термсы Арбатека меня радуют…
в части реселлерской программы – просто какое-то руководство для шпиёнов:
Могут ли мои клиенты узнать, что я реселлер?
Мы соблюдаем полную анонимность перед конечным клиентом. Вы оказываете техническую поддержку и проводите расчеты с вашими клиентами. Мы никак не вступаем в контакт с вашими клиентами.Какие технические меры вы соблюдаете, чтобы сохранить анонимность?
Мы бесплатно предоставляем анонимные DNS серверы, которые никак не указывают на нас. Вы также можете использовать бесплатные личные DNS серверы ns1.вашеимя.ru и ns2.вашеимя.ru.Что такое персональные DNS серверы?
Использование этой бесплатной услуги позволяет создать иллюзию того, что вы размещаете домены ваших клиентов на собственном оборудовании. В случае если вы выберете эту опцию, whois записи доменов ваших пользователей будут показывать ns1.вашеимя.ru и ns2.вашеимя.ru, что придает уверенности конечному пользователю в надежности провайдера. Для того, чтобы эта функция работала, доменное имя реселлера (указываемое при оформлении заказа) должно быть проделегировано на наше оборудование.Кто регистрирует доменные имена для реселлера и его клиентов?
Для соблюдения полной анонимности реселлер сам регистрирует доменные имена для себя и конечных пользователей.
-только надо было написать, что если будут пытать, все равно, честное пионерское, мы вас не выдадим врагу. 🙂
Но если вам не понравится качество наших услуг, учтите, что
использование ненормативной лексики в общении с сотрудниками и службами компании недопустимо и расценивается как грубое нарушение Правил.
-видать, проблема навязла в зубах… Интересно, и много таких желающих использовать ненормативную лексику? Видно, много… 🙂
сотовые телефоны с контрактами
Такая вот история… 🙂
Делаем мы магазин партнерский с торговцами мобилами. Ну, они базу нам дали. Сижу ее, колбашу под свой сайт.
Тут в базе – вижу, есть отдельно таблица с телефонами, отдельно с контрактами, и еще есть отдельно таблица цен на “телефоны с контрактами”. Там – айдишники телефона и контракта и цена “в связке”.
Думаю, дай-ка я ее юзерам в более удобном виде выведу. Дай-ка, думаю, сгруппирую по оператору и посчитаю минимальную и максимальную экономию на покупке телефона по группе контрактов этого оператора… И со ссылочкой на соответствующую страницу, само собой.
Пишу sql запрос… Вывожу и вижу что-то вроде:
Сэкономьте от $3 до $3 при покупке с контрактами Билайн
Сэкономьте от $3 до $3 при покупке с контрактами МТС
…
Блин, эти умники просто вычли 3 бакса при покупке телефона с контрактом… И стоило отдельную таблицу (раз в 30 больше телефонной) под это городить??? 🙂
Неисповедимы пути программистов… 🙂
теги в тайтле на Апорте
По мотивам темы форума:
На Апорте – по запросу абразивный инструмент, 4-я позиция, сайт http://www.posveshenie.ru …
🙂
А ведь хорошо, качественно.
Анализируем выдачу Яндекса
Данные
Выдача Яндекса по запросу “порно”. Скачать сырые данные здесь: report.zip 165Kb, формат данных:
N - номер в выдаче url CY Inbound Pages - ссылающихся страниц Inbound Sites - ссылающихся сайтов Inbound Pages Thematic Links - по синтаксису a#href="url*"[порно] число страниц Inbound Sites Thematic Links - число ссылающихся правильными словами сайтов Pages found - страниц с сайта найдено Yaca Name - категория ЯК, название Yaca Url - категория ЯК, урл Title Found words - найдено слов в тайтле Title Numwords - всего слов Title >4 Numwords - длинных слов Title netweight - символов в тайтле нетто Title brut weight - брутто Hfirst Found words - в первом найденом заголовке hХ Hfirst Numwords Hfirst >4 Numwords Hfirst netweight Hfirst brut weight Text Found words - найдено слов в тексте Text Numwords - всего слов в тексте без тегов Text >4 Numwords Text netweight Text brut weight Text Found N different tags - сколько различных уникальных тегов включают в себя целевое слово Text Found different tags list - список этих тегов
Pages found может глючить, показывать 2, когда надо 1.
Inbound Sites Thematic Links и Inbound Sites Thematic Pages могут глючить, показывать 0, когда надо 1.
CY – число ссылающихся страниц и сайтов
Видно, что среднее значение ИЦ примерно совпадает по всему диапазону с числом ссылающихся сайтов. Центр синей “колбасы”. Отклонения, правда, на полпорядка в обе стороны.
А вот с числом ссылающисхся страниц особо ничего не коррелирует.
Частоты в тексте, тайтле и Hfirst – по позиции
На графиках показаны частоты (в долях, не в процентах) целевого слова в разных частях страницы (по общему количеству слов). Видно, что выдача явственно разбита на 2 части – по крайней мере, по частоте слов в тексте. Примерно первые 1200 результатов имеют более низкую частоту в тексте, чем вторая часть выдачи.
Это валовые частоты. Без разбора групп страниц по цитируемости. Поподробнее посмотрим на первую часть выдачи, и тренд поставим по меньшему числу точек:
Не все так гладко… Да, вроде средняя частота в тексте приближается к 5%. Но ведь, во-первых, разброс все равно большой – в выдаче есть разные цифры, и только среднее около 5%. Во-вторых, это все цитируемые страницы, а на них выдача может быть и скорее всего перекошена цитируемостью.
Число ссылающихся сайтов, ссылающихся с нужными словами, CY, число найденных страниц – по позиции
На графиках показаны по позиции в выдаче в логарифимческих координатах – CY, число сайтов, ссылающихся с ключевым словом, число таких ссылающихся страниц, число найденных страниц на сайте.
Видно, что тЫЦ в “первой части” выдачи совсем немного отличается от второй – ну, немного побольше. А вот число ссылающихся сайтов (на 2 порядка) и число ссылающихся страниц (на 3 порядка) серьезно уменьшается. Практически, за 1000-м результатом на сайты уже никто не ссылается “нужными словами”. Правда, у этого экспериментального массива есть недочет – если ссылающийся сайт один, в данных он присутствует как ноль. Но сейчас это не принципиально.
Видно, как гладко снижается количество ссылающихся сайтов в пределах первых пяти! сотен. Это, конечно, тренд, и скачки в реальных данных есть. Но ведь и разную цитируемость ссылающихся страниц учесть мы тоже не можем… Так что остается считать, что цитируемость у ссылающихся страниц примерно одинакова – раз уж мы размазываем ссылки тонким слоем. Видимо, придется для анализа частот выбрасывать цитируемые страницы вообще.
Частоты в тексте при нулевых: числе ссылающихся сайтов, отсутствии текста в тайтле и hX – по позиции
Помучившись к Excel, написал себе сервис для выборок из этого массива данных через SQL – для выборок.
На графике изобразим: долю слов в тексте, усредненную, для разных интервалов по позиции в выдаче, с выбранными ограничениями. Эти ограничения – отсутствие различных “лополнительных” параметров, могущих влиять на релевантность: слов в тайтле, в Hx, ссылающихся ключевиками страниц, большого (>2) числа найденных страниц сайта, и, наконец, отсутствии всех этих параметров. Страницы, в которых все эти вещи отсутствуют, появляются где-то со второй сотни.
Здесь идет усреднение доли (не процента) целевого слова в тексте в пределах каждой сотни результатов выдачи. Явно от 3% снижение идет до 1% в пределах тысячи, а затем идет “вторая”, мусорная часть выдачи.
Откуда берется это разделение на 2 части выдачи? В обеих частях выдачи есть сайты, близкие по параметрам. Единственно, что во второй части выдачи очень мало ссылающихся сайтов. Если учесть, что в собранных данных есть глюк – при 1 ссылающемся сайте в таблице их нариовано 0, а также то, что “тематические” внутренние ссылки сюда не попадают (просто яндекс их не дает) – вероятно, это разделение в основном из-за ссылок.
Хотя есть и другой вариант – наличие некоей “более качественной” части базы. Или “менее некачественной”.
В любом случае надо работать с тем, что есть – ни передаваемый ВИЦ ссылающихся, ни возможные “минимальные границы” по ВИЦу для учета этой сслыки в ссылочном ранжировании, ни внутренние ссылки мы учесть не можем – будем анализировать первую тысячу, предполагая, что все разделение именно из-за ссылок.
То же, но в пределах первой тысячи:
Есть разброс, не все гладко… Самым интересным графиком, по идее, должен быть график “без всего”. Однако, внутренние ссылки мы тут все равно не учли… Так что придется их рассматривать по-отдельности.
В общем, без различных важных параметров частота около 1-2% ближе к оптимальности… Наверное.
То же, но не с усреднениями, а с трендами
То же, но в пределах первой тысячи:
То же самое с трендом по 50 точек:
Все равно закидоны явные прослеживаются.
В общем, странная ситуация. Получается, что для малоцитируемых страниц лучше частоты около 1-2%. А частоты около 3-7% неоптимальны? В хвосте выдачи как раз страницы с такими частотами. Вот как можно изобразить связь между частотами в тексте и числом ссылающихся ключевиками сайтов и страниц: (усреднение по 20 точек)
Более подробно можно посмотреть здесь – (усреднение по 20 точек) – такое впечатление, что наиболее оптимальные среди малоцитируемых страниц (обл. 2) имеют около 1-2%, а страницы с частотой выше делятся на две группы – тематически цитируемые и вылезшие за счет ссылочного ранжирования (обл. 1) и все остальные, нецитриуемые, в хвосте (обл. 3):
Тематичность по Яндекс.каталогу
Доля сайтов из развлекательного раздела ЯК.
Резюме
Хрен его знает. Надо сравнить с выдачей по другим словам. И вообще, ничего нет лучше чистого эксперимента, без цитируемостей 🙂
А надо ли регистрироваться в Рамблер Топ100?
Собственно, считается за аксиому, что надо. А тут я недавно несколько сайтов в Рамблер добавил, а на Топ100 забил. Не до того было. И эти сайты неплохо находиться стали… Хотя тут много факторов…
Таки у Рамблера есть коэффициент популярности, который складывается из чего-то пейджранк-подобного и из данных Топ100 в качестве дополнительной информации (а может, проверки?).
Но ведь данные Топ100 могут и в минус играть. Если, скажем, реальная посещаемость страниц со счетчиком ниже “теоретической”, рассчитанной пейджранком.
Случай накруток и подкруток не рассматриваем.
И поскольку все обменные ссылки делаются не для посещаемости и не приносят ее – в общем случае установка счетчика Топ100 будет означать снижение “к-та популярности”. Т.к. оценка “по пейджранку” явно должна быть выше “оценки по посещаемости”.
Какие-нибудь примеры есть по сайтам, не внесенным в Топ100?
попалим blogs.yandex.ru
Обнаружил заход сюда с http://blogs.yandex.ru/search.xml?how=tm&rd=3&text=блоги
Не пущает, однако… Тестируют новый проект, что ли?
Еще один способ обратить на себя внимание
…на Яндексе: по запросу шубы меха первым идет сайт westfur.com, у которого сниппет – без пробелов – вылезает в правую часть страницы и прямо разрезает объявления Директа.
Смотрим в код – заголовок 9!! уровня:
< h9>ателье,головные,изделия,полушубки,продажа, салон,шапки,уборы,фабрика,меха,норка,лиса, бобр,бобёр,куница,соболь,шуба.< /h9>
Мдя. 9 уровень заголовка – это пять. 🙂
Про спам комментариев в блогах
Многие отключают комментарии в блогах. Потому, что их спамят. Я у себя использовал некое временное решение для борьбы с этим делом.
На этот блог было две “атаки” спаммеров – оба раза по 15-20 сообщений проспамили с промежутком недели в две. После первого раза я сделал одну вещь – при посте страница отдает error 500 и нормальный контент. После второго раза все прекратилось – видимо, когда спамерская тулза прожевала эту ошибку, она решила, что на блоге все плохо и не стоит с ним иметь дел. 🙂 Еще 4ХХ ошибка – тоже вариант.
В принципе, спамерские софты должны это отлавливать – им же не хочется спамить в мертвые блоги. 🙂
Хотя те, кто юзает готовые софты блогов, напрягутся посильнее, выискивая нужное место в скрипте…
Может, кому-то поможет…