“подавление повторений на стадии индексации”

… в Яндексе как-то плохо работает.
Например, по этому запросу, позиция 54 (echo.msk.ru/interview/33150/q.html) – почему не “подавлено”? Подсвечивается нормально
Так тоже ищет нормально
Или запрос нецелевой? 🙂

domain: “новый” оператор Яндекса?

Я довольно давно увидел, что при поиске по Яндекс-каталогу урла система автоматически превращает его в url=”домен.ru*”. Что-то мне чудится, что там и оператор domain=”” мелькал…
Итак, в общем поиске работает оператор domain=”string”, который показывает все сайты с этой подстрокой в имени домена (и третьего, и второго, и первого, и нулевого! уровня). Работает на точное соотвествие одной из частей доменного имени, без чисел.
Также работает звездочка:
domain=”search*” – по любым совпадениям.
Работает и domain=”ru”, и domain=”root”. 🙂
Как нашел: смотрел reqtext на странице поиска строки “XML-вид каталога Яндекса” по сайту blog.promosite.ru. А reqtext такой:
((“XML::45433 вид::2105 каталога::1451 Яндекса::76938”)//6 <<(domain="promosite"::39515:0 &/(1 1) domain="ru"::39515:0 &/(1 1) domain="root"::39515:0):0) Еще и какие-то цифры через двоеточие два раза вместо одного...

Зеркалинг Яндекса

К примеру. На этом блоге заметка может выдаваться в виде “для комментариев” ( http://blog.promosite.ru/comments.php?182 ) и в виде “по датам” ( http://blog.promosite.ru/bydate.php?2005-01-03 ). Текст практически одинаковый.
Но. Ищем в Яндексе цитату, например, “XML-вид каталога Яндекса” – пишет, 2 результата еще с сайта.
Однако, заходим в эти 2 результата – показывают один. При этом и одну, и другую страницы он вроде знает.
Похожее и со ссылками: a#link=”www.leningradspb.ru*”[шубы] – 8 страниц, а зайдешь посмотреть – одна, и та уже несколько месяцев как не существует. Черт его поймет.

А щастье было так возможно…

Как сказано в статье Ильи Сегаловича про поиск Яндекса, “на стадии индексации подавляются множественные вхождения запросов, предназначенные для накачки рел-ти” или типа того.
Сначала я забыл про это “на стадии индексации”. Потом до следующего утра думал, что вот, в руках алгоритм Яндекса – не терпелось опробовать. 🙂
Но не вышло. На стадии индексации вырезаются.
***
Что хотел сделать? В “подсветку”, как известно, передается заколдованный запрос пользователя. И id документа (d). И еще что-то (ds).
А зачем туда передавать заколдованный запрос, что, разве нельзя тупо подсветить все слова запроса в документе? Я по определению думал, что должны подсвечиваться все слова – даже не тестил никогда. Потом обалдел, когда увидел, что подсвечены не все слова! Тут и понял, что подсветка идет по найденным пассажам. Т.е., подсветка работает сродни поиску, по тому же алгоритму. Для этого и переколдованный запрос передается.
Сначала подумал, что часть документа выбрасывается как “переоптимизированная”. Но нет, при переформулировании запроса можно добиться подсветки любого словосочетания. Так же при изменении “мягкости” можно тоже подсветить все.
Отличный инструмент получается – что подсвечено, то Яндекс учитывает при ранжировании. А неподсвеченные слова – бесполезны. А если словосочетание обязано быть подсвеченным по операторам контекста, но не подсвечивается – значит, оно вырезано как спаммерское (таких примеров, правда, не видел пока).
Я-то что думал. Ведь при подсветке Яндекс забирает страницу заново с сервера… А ведь ее можно поменять и снова подсветить… И так понять правила “вырезания переоптимизации”. 🙂
Но увы.
Поигрался изменениями. Забавно, Яндекс конец предложения считает только, если после точки слово начинается с большой буквы, а если с маленькой – не считает… В общем, о разделителях можно узнать.
***
Примеров спама с тупыми перечислениями слов запроса напостите, плиз, кому не лень. 🙂

Яндекс-Директ – караул! Последнее отнимают! :(

Яндекс-Директ косячило в последнее время – то страниц с запросами просматривать больше 20 не дает, то стоп-слова вырезает…
А сейчас смотрю – он логические операторы поддерживать перестал! Вбиваю конструкцию со скобками и значком “|” типа (а|б) – а он, гад, все скобочки и операторы в пробелы превращает! 🙁
Готовится к наплыву лохов-рекламодателей, наверно. Готовит им почву для бОльших трат…

SearchStatus: Extension for Mozilla and Firefox

SearchStatus: A Search Extension for Mozilla and Mozilla Firefox

For every site you visit using Firefox or Mozilla, SearchStatus lets you view its Google PageRank, Google Category, Alexa popularity ranking, Alexa incoming links, Alexa related links and backward links from Google, Yahoo! and MSN – all in one place.

и бизнесе…

Во-первых, меняю название блога, добавил “…и бизнесе”. Куда же без него.
Кстати.
Некоторое время читаю такой блог – Дневник предпринимателя (пишет Владимир Шахиджанян). Человек известный по книжке “1001 вопрос про это” и программе “Соло на клавиатуре” (ergosolo.ru).
Вот, сделал человек свою фирму, решил заняться бизнесом, теперь мучается. 🙂
Дневник сей публикуется с задержкой на несколько месяцев – в это какой-то смысл вложен. Ну, реклама программы “Соло” автоматом вставляется, это понятно.
870 с чем-то дней прошло, а дела все не идут нормально. Скоро 3 года как.
Поучительный урок.
Что имеется? Довольно посещаемый сайт (в своей теме лидер, хотя там давки по определению быть не может) плюс офлайн-реклама. Имеется 20-30 сотрудников, в основном молодежь (из его же студентов, их знакомых) на зарплате 100-200(250) баков. Имеется около 50 продаж программы в день (цена диска 150 рублей).
В общем, имеется полное прозябание.
Тут чтобы всю ситуацию понять, надо весь дневник (большую часть) прочитать.

Общий смысл

В.Ш. хотел создать такую фирму – вроде коммунизма на дому. Чтобы все друг друга любили и работали не за деньги, хотя “конечно, деньги мы платить будеи, когда они появятся”. Да вот только они не появляются.
Понятно, откуда же им повляться! Цена программы 150 рублей – и сетевой корпоративной версии в том числе. В.Ш. пишет, что он хочет, чтобы программа была доступна всем, а не только богатым :), даже студентам. Хотя сейчас иные студенты… больше В.Ш. зарабатывают.
В общем, своего рода коммунизм на дому, облегченная версия. Или же секта. В.Ш. даже своих клиентов (которым надо-то – научиться печатать и забыть) – называет “СОЛИСТАМИ”! Т.е., ты как бы вступаешь в некий клан почитателей этой программы и должен всем ее рекомендовать. И тебе об этом напомнят, позвонят и спросят, не знаешь ли ты еще 2-3 человек, кому можно было бы впарить “Соло”? А начальство спроси, не нужна ли ему сетевая версия?
Предполагается, что человек, купив программу дешево, должен быть настолько благодарен (за дешевизну) ее создателям, что должен ее советовать всем.
Цепочка такая: программа дешевая => должно быть много клиентов (каждый, имеющий компьютер, в теории) => клиент должен из благодарности ее всем впаривать => а им мы тоже будем дешево продавать => платить сотрудникам и рекламу давать денег нет => сотрудники работают из личной привязанности к В.Ш. => зато есть коммунизм, но денег, опять-же, нет.
Ну вот кто купил бы такую программу за 150 рублей? Я бы рассудил так – я не машинистка, мне это обучение не нужно – но если обучаться слепому десятипальцевому методу – это ведь время надо тратить! Как минимум несколько часов в день и так от 10 дней до месяца. Всего в часах на обучение уйдет, пусть, 50 часов – это 6 раз по рабочему дню из 8 часов, т.е., неделя чистого рабочего времени. Если человек зарабатывает, положим, $300/мес – время, которое он потеряет, стоит $75.
Если он его теряет за счет работодателя, то конечно, – проблем нет. Поэтому, видимо, корпоративные клиенты и не хотят ставить сетевые версии. Но как программа-обучалка может стоить в 15 раз дешевле времени, которое с ее помощью должно быть с пользой потрачено? КАК??
Тут у любого создастся впечатление, что это чепуха, а не программа – раз так дешево стоит. Кстати, на 264-м дню существования фирмы сотрудники такие мысли высказывали – но нет, не внял В.Ш.
Вот интересно, что будет. 🙂

Дранг нах Дмоз…

Литературные таланты угасают, не пишется людям. Некоторым хотелось бы чего-то написать, да наполовину ничего не знают, а другую половину жалко высказывать.
Но в моменты апофи.. апофе… короче, сильных чувств рождаются нетленные произведения. Такое, например:
Cossack раскрывает подлую и низкую сущность ДМОЗ (Открытого каталога, ODP), а также его бесполезность и даже вред.
Это произведение человеческой мысли можно использовать как учебник по зачерпыванию кала и выливанию его на обидевших. В данном случае Cossack-а обидели вышестоящие редакторы OPD, исключив его из партийных списков. 🙂
А надо помнить Козака и его раннее, прямо-таки трепетное отношение к ДМОЗу – руководство всегда право, нужно каяться, ежели согрешил и все такое. Вот для справки раздел про ODP на Searchengines.ru, который Козак в свое время модерировал.
Но оказалось, что не только вышестоящие модераторы ДМОЗ, но и другие темные силы сгущали тучи за его спиной и лелеяли против него коварные планы.
Что интересно, одной из этих сил оказался я. 🙂 Наверное, потому я попал в славный список, что несколько дней назад позабавился насчет Козаковского сайта из редакторского профиля.
Ну что ж, приведу этот опус целиком, надеюсь, автор не обидится.
Только как же Google будет рассчитывать “тематичность” ссылок, если не будет учитывать Google Directory, который есть копия ДМОЗа? В опубликованных статьях его сотрудники основывались именно на каталоге при расчете 16 (кажется) тематических частей PageRank.
Итак:

В настоящее время Дмоз потерял всякую привлекательность для поисковых систем и для подавляющего большинства сайтов – вреден.

Децентрализация, повышение роли локального поиска и увеличение влияния внутристраничных факторов превращает Дмоз в обычный список ссылок, высокий Toolbar PageRank первой страницы которого создает иллюзию его нужности и востребованности.

Включение сайта в так называемые “тематические” разделы – на практике удаляет его от реального пользователя, поскольку каталог Дмоза не может обеспечить региональную првязку каждого сайта. Такая попытка сделана в каталоге Яндекса, но она пока реализуется в ограниченной форме из-за слабого развития региональных разделов и малой популярности самого каталога.

Лучше годы Дмоза давно прошли, скажем честно, они закончились в день когда разработчики поисковых систем задумались о создании локального поиска… который принимая во внимание постоянное увеличение числа сайтов на основных языках Интернета [ включая интересные для меня: английский и русский ] делает бесполезным глобальный поиск: русской фирме из Майями в большинстве случев не нужен и даже безразличен специалист по рекламе из Новосибирска.

Дмоз был хорош, когда поиск ограничивался одной страной: США и небольшим количеством продвинутых сайтов за ее пределами написанных на хорошем английском. Сейчас включение британского сайта [ сделанного на британском диалекте ] в “тематический” раздел с названием и описанием адаптированными для американской аудитории – дает только Toolbar PageRank ссылки… который практически бесполезен с весны 2003 года…

Отстойный поиск по базе Дмоза не может быть улучшен и сейчас обсуждается вопрос отключения его для обычных пользователей. Архитектура, а точнее тот замученный компьютер, на котором подвешены сервера Дмоза, физически не в состоянии обеспечить работу минимально приличного поиска по запутанной базе Дмоза.

Повышение значимости текста ссылки провоцирует редакторов Дмоза на создание сайтов с ублюдочными названиями вроде: [ что угодно ] [ ключевое слово/слова ] для “пропихивания” нужных текстов, а “правило” о ограничении количества включений адресов связанных с одним сайтом [ легко обходимое так называемыми “мета-редакторами” ] – способствует развитию коррупции и извращению основного принципа открытости… якобы заложенного при создании каталога.

Для основных поисковиков не составляет труда отфильтровать попытки спама, идущие из Дмоза. Тот же Google занимается поисковой рекламой и им не нужны конкуретны… Выдача Google серьезно улучшилась за последние 6 месяцев, причем именно за счет отсева спама созданного редакторами Дмоза.

Страдать за идею и доказывать коррумпированность “мета-редаторов” не в моих правилах, тем более что есть более продуктивные пути использования свободного времени … чем работа на “дядю”, особенно при невозможности внедрения изменений и полном отсутствии интереса к развитию Дмоза у спонсоров [ AOL Time Warner ].

Последние техниеческие разработки, внедренные в Дмозе, были направлены на увеличение, или скорее на усиление контроля за радекторами, а это уже полная мура… достаточно взглянуть на ближневосточные разделы Дмоза проспамленные ссылками на страницы американских студентов и университетов… которые давно мертвы. Количество мертвых ссылок в Дмозе приближается к 1/3, а количество нерассмотренных сайтов превышает 30%, а в популярных разделах 50% от числа опубликованных. На этом фоне любые попытки что-то изменить теряют смысл.

Фактически сейчас Дмоз превратился в гадюшник, где идет борьба за категории с высоким Toolbar PageRank, который может быть использован только для торговли ссылками… чем собственно и занимается достаточно большое число редакторов Дмоза. Фактически они пытаются обманывать Google, а по тем же американским законам – Google может найти способы давления… и скорее всего уже нашел, если принять во внимание податливость AOL при заключении сделок с Google.

Деградация Дмоза и рост востребованности локального поиска в Интернете, а также накопленный опыт редактирования помогли мне сформулировать мысль о неоходимости создания своих каталогов, под свои нужды и свои регионы. Всего на первом этапе будет создано 5 каталогов плюс Каталог Казака, который после интеграции с этим форумом фактически станет пилот-проектом.

В дальнейшем мы готовы продолжать работать над созданием тематических или региональных каталогов и приглашаем опытных редакторов Дмоз и Зиал к взаимовыгодному сотрудничеству.

Ну, виноватые у Козака найдутся… 🙂 Искать он умеет.