Вау! конкурс стипендий Яндекса

В Яндексе вынесли решение по конкурсу стипендий.
Никто не знает, а я на самом деле подавал в Яндекс проект исследования. Я думал, подать или нет… Подал, и оно прошло! 🙂
Короче, вот здесь – http://company.yandex.ru/grant/result1.xml под вторым номером

101803 – «Оптимизация расчета ссылочной популярности и учета…»

-это мое как раз. Полностью называется так: Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.
А о чем там в аннотации написано – не скажу! 🙂

PS Еще и на пиво останется….

Google Suggest – борьба с нашей ленью

Google Suggest: http://www.google.com/webhp?complete=1&hl=en
При вводе части запроса в окошко предлагает формулировки с общим числом найденных результатов. Формулировки и как подстановка новых слов в запрос, так и на основе введенной части слова.
В FAQ написано, что они не знают, когда будут поддерживать другие языки… но русские запросы предлагаются нормально.
Как и написано в факе, “это сделано, чтобы помочь юзеру уточнять и переформулировать запрос”. Борьба с частотными однословными запросами, видимо.
А что, очень хорошая борьба. 🙂
Да, написано, что список формулировок получается в риалтайм, и что он не использует serach history юзера.

Our algorithms use a wide range of information to predict the queries users are most likely to want to see

-вот только непонятно, что-то вроде “ассоциативных” запросов там заложено или просто по частоте…
PS
Но и косячит его сильно… Вводит по собственному желанию дополнение, если оно единственное, а стрелку назад нажмешь – стирает все… 🙁

наши методисты…

Почему-то не читаю рассылку Андрея Иванова по почте, а захожу туда в архив на Сабскрайбе. Когда настроение почитать появляется. 🙂
*** off: наверное, это и есть причина популярности блогов – когда письмо приходит, настроения читать его нет, есть дела разные… А когда почитать охота, письмо уже завалялось и его не найдешь…
Итак, в одном из последних выпусков дали материал ТЕКСТОВЫЕ ПАРАМЕТРЫ РЕЛЕВАНТНОСТИ – в виде методики анализа оптимальной частоты кейвордов. Кстати, он почему-то не подписан… Наверное, методика настолько элементарна, что такую банальность стыдно своим имененем подписать.
Итак, методика.
Начало, “постановка задачи”:

Очевидно, что из перечисленных характеристик мы можем определить только пп. б) и г), размер же базы Яндекса и частота какого-то слова в ней нам неизвестны.

-ключевое слово “нам”. 🙂 “Вес слова в базе” или его подобие, во-первых, можно посмотреть в reqtext (кто знает, тот поймет :)), а во-вторых, частота слова в базе с хорошей прикидкой (плюс-минус 0.3 порядка) пропорциональна числу найденных документов по этому слову. С отклонениями в один-полтора порядка 🙂 для очень частотных слов, вроде “www”, которые часто употребляют на одной странице очень много раз. Проверено reqtext-ом.

Сформулируем еще короче.
Оптимальные веса для разных ключевых слов – различны

-я бы сформулировал подлиннее… Но если покороче :)… Оптимальные веса МОГУТ быть различными, да и не веса, а диапазоны весов. И эти диапазоны могут пересекаться…
Но, собственно, вернемся к методике.

Но опытный веб-мастер знает, что верхние строчки результатов поиска занимают ссылки на авторитетные, хорошо цитируемые сайты, и фактор цитируемости может исказить картину весовых коэффициентов. Поэтому анализировать стоит не только первые 10 позиций, но и посмотреть, каково распределение весов “пониже”, в Тор20, Тор30, Тор50

-странно. А почему не Топ100? Ведь документов по запросу выдается, как правило, куча. Туева. Почему не взять первые 10% хотя бы? Потому, что это очень много и SeMaster.ru не вынесет такого.
Итак, что предлагается.
Допустим, у меня есть мешок картошки и мне в закрытом оборонном НИИ поставили задачу – определить, какие особенные качества должны иметь картофелины, которые при длительном встряхивании мешка “всплывают” наверх.
И я, допустим, взял этот мешок и долго встряхивал, перераспределяя в нем картошку. Ну а потом взял и проанализировал… Ну, допустим, все картофелины из верхнего слоя. Допустим, их там 10… Нет, 10 мало, возьмем 20… 🙂
Проанализируем, и получим фигу. Потому, что всплытие картофелин может определяться не только и не столько их собственными качествами, сколько качествами их утонувших соседей.
Да и хуже того. Картофелины разного размера могут образовать конгломерат :), в котором в промежутки между сферическими 🙂 картофелинами одного размера R помещаются картофелины размера R/6, к примеру… И в вершине мешка будет смесь. Которую нельзя разделить на “оптимальные” компоненты. И усреднив параметр R, мы получим картофелину, которая туда не впишется. (пример – замешивание сайтов в выдачу по тематикам или по жанрам)
Да и еще хуже. При изменении размера картофелины она может по иным законам цепляться за соседей (или не цепляться) и вообще может не существовать оптимального размера…
*** off: это я к тому, что когда-то я выбрал всю выдачу по однословному запросу, и, пробив 4000 страниц, обнаружил, что в последних 2/3 сайтов средняя частота слова в тайтле около 1/3, но они чередуются – то ноль, то 1, то 0.5. То что-то другое.
*** Да, и влияние “общей релевантности” числа страниц с сайта тоже выбрасывать не стоит.
Но все-таки. Ладно, анализируем 20-40 места, строим таблицу и делаем скриншот.
И что бы видим? 2.56% средняя частота. Но в топе результатов (которые по умолчанию полагаются оптимальными или хотя бы более оптимальными, чем остальные :)) есть и 6.5%, и 0.60% – и вообще, огромный разброс. Да и в тайтле, о ужас, разное количество слов нарисовалось…
все поделить (с) Шариков 🙂
А все-таки… Если, скажем, у какого-то сайта цитируемость (по ссылкам правильными словами) ого-го, а процент, ну… допустим, выше оптимального? Пролезет этот сайт за счет цитируемости повыше в выдаче? Пролезет.
А если процент НИЖЕ оптимального? Вот черт… Тоже пролезет.
Тогда какой выхлоп? Семастер помучить и за доступ заплатить в будущем, что ли?
Таки смысла нет усреднять первые N или кусок их первых N. Надо всю выдачу анализировать. Или хотя бы ее значительную часть, в виде N*10% выдачи.
___
ЗЫ Кстати, похожим методом я пользуюсь, отличия – в том, что рассматриваются сайты с минимальными показателями цитируемости, типа чем ц-ть ниже – тем больше внимания обращаю на саму страницу 🙂 Да и то смысла мало при неравных тайтлах и Х1-3.

double opt-in рассылки

На одном из своих 🙂 сайтов подписываю народ на рассылку. Выскакивает поп-андер окошко, в котором предлагается оставить имя и е-мейл.
После чего человеку приходит письмо с требованием подтвердить подписку, кликнув по ссылке в письме.
Сегодня подбил результаты – по базе в 300 подписчиков около 40-60% подтверждают подписку (совсем в среднем – 46%). Маловато будет. Может, отказаться от этого подтверждения? Или написать “более правильное” письмо для просьбы о подтверждении?
Уже ставим ссылку на обещенный материал прямо в письмо с просьбой о подтверждении… Скоро дойдем до того, чтобы этот материал в первом же письме слать… Что ж, половину подписчиков терять?
У кого-нибудь есть статистика по тому, насколько охотно народ потверждает подписку? По темам?

Google AdSense приходит в Рунет

via alexmoskalyuk:

We wanted to let you know that today Google introduced its Google AdSense service in Russia, bringing to Russian webmasters increased value and the ability to maximize the earning potential of their site.

Google AdSense enables Russian websites to offer their users access to billions of web pages through Google’s advanced search technology. The program is an extension of the Google WebSearch program previously offered exclusively to larger websites and portals. This new online program enables qualified web publishers to place a Google search box on their websites and provide their users with Google search results and keyword-targeted advertisements. Google shares the revenue generated from ad clicks with the web publisher.

To join the new program, publishers fill out the online application for Google AdSense available at www.google.ru/adsense/. Once approved, publishers simply copy and paste a few lines of HTML onto their web pages to insert a Google search box. In addition to WebSearch, publishers can also add Google SiteSearch(TM) to help visitors find information easily within their web pages.

-вероятно, это Гугловый newsletter был источником… На https://www.google.com/adsense/?hl=ru&sourceid=aso&subid=us-et-ads написано вот что:

Разместите на своем сайте поисковое окно Google, с помощью которого поиск может производиться как по всему Интернету, так и непосредственно на Вашем сайте, и зарабатывайте деньги, когда Ваши посетители кликают на контекстные объявления, появляющиеся на страницах с результатами поиска. Узнать подробнее об AdSense для поиска.

В настоящее время программа Google AdSense для контекста недоступна для русскоязычных сайтов (кликните эдесь для просмотра поддерживаемых языков).

…а машина без колес

Вчера, ковыряясь в коде нескольких своих больших магазинов (в сумме около 10 тыс. страниц), обнаружил, что я не прописал в категориях и подкатегориях h1. 🙂 Т.е., стилем прописал, а тегом нет. Даже сам не заметил разницы. 🙂
А я-то смотрю и радуюсь, как хорошо идет траф… А тут такая ляпа. То-то народ идет только на товарные страницы…
Ну вот, появилась дополнительная причина переиндексировать сайты…

Выделение в Рамблере

Странно. Иногда Рамблер не выделяет болдом найденный фрагмент в тайтле.
Я такое уже замечал, но тогда он выделял болдом первый и не выделял второй найденный фрагмент.
Пример: PIONEER KEH-P4020R – 1, 2, 5, 7, 11, 13, 15 номера выделены, остальные – нет.
При этом характерно, что у “невыделенных” ссылок в сниппетах ничего нету. Пустой сниппет. Хотя ежу понятно, что в тексте страниц есть фрагмент запроса, причем зачастую точный запрос есть и в большом количестве.
Может, он так борется со слишком большим трафиком на сайт? 🙂 И с переоптимизацией? 🙂 Или просто с оптимизацией?

beer optimization party

Есть предложение устроить все-таки встречу оптимизаторов. Надо решить, в каких числах, мне кажется, 11-12 декабря нормально. 18-19 уже поздновато…
Ну и по времени договоримся… Мне кажется, около 16-18 часов начать нормально…
Думаю, имеет смысл тут договориться, и, набрав кворум и определив место, кликнуть народ на Searchengines.ru
Максим предложил в качестве места “вьетнамку” или как ее там-

Выходишь из метро к савеловскому рынку, идешь в сторону компьютерного центра (2 этажное здание, там куча маленьких павелионов), проходишь дальше и сворачиваешь налево. Немного пройдешь, справа будут ворота (въезд автомобильный) и вход во въетнамский крытый рынок. Рядом со входом лестница в кафе “Ханой”

Еда вьетнамская. Например, кальмар запеченый в тесте с картофелем (порции большие) стоит ~70 руб. Пиво разливное (по-моему Сибирская Корона и Туборг) ~35 руб 0.4 литра.

Почти в центре, но и не на окраине. 🙂
Есть предложение, что Максим мог бы там договориться (он все-таки знает место), но сначала количество человек надо определить. И узнать, надо ли заранее денег собирать.
Я тоже зайду. 🙂

Сами мы не местные… штат Вашингтон.

Русский вариант портала штата Вашингтон 🙂

Эта страница предлaгается на русском языке, чтобы помочь жителям штата Вашингтон найти информацию правительства на интернетe. На этой странице представлена не вся информация, которая доступна на интернетовcкой странице правительства штата Вашингтон на английском языке. Департамент Информационных Услуг не гарантирует точности переводов страниц на иностранных языках и не отвечает за проблемы, которые могут возникнуть в процессе пользования этими страницами.

-и так далее. Несомненно. И так далее..
via alexmoskalyuk