Про аббревиатуры и прилагательные в Яндексе

красиво, подробно расписывают…

Довольно много, 6-8% запросов:

Использование новых расширений слов запроса суммировано в следующей таблице:

Переход из одной части речи в другую — 17182 пар слов, 6% запросов
Транслитерация — 25455 пар слов, 8% запросов
Аббревиатуры — 19360 пар слов, 1,5% запросов

Интересный "переход из одной части речи в другую":

московские работа
московские знакомства
московская продажа
– везде слово "москва" выделено и учтено. А в московские окна – не выделено 🙂

яндекс показывает кириллические домены

тема форума.

Пример: "окна su":

http://xn—-7sbbgpqmf1aiqn6k.su/
найден по ссылке: красивые-окна.su…
красивые-окна.su
http://xn—-7sbbgobsawdlngm6qpb.su/
найден по ссылке: алюминиевые-окна.su…
алюминиевые-окна.su
http://xn—-7sbbgpqodc1agde4ap2m.su/
найден по ссылке: пластиковые-окна.su…
пластиковые-окна.su

Однако по ссылке на кириллический урл (пример: url="пластиковые-окна.su") сайты не находятся.

Гугель, кстати, раньше начал находить IDN домены.

PS Я тоже считаю, что кириллические домены – говно, а тем более в зоне SU. Ни одного не купил. Я вообще считаю, что наш КЦ (координационный центр) нас наёбывает нипадеццки… Взять хотя бы бывшую эпопею – с "транслитными дублями" доменов, типа собирались ввести кириллицу в РУ и их собирались "приоритетно регистровать" на владельцев транслитных дублей. Куча народу повелась, и тов. Денискин по туризму…

Я-то ладно – 1. опоздал к раздаче и 2. очень хорошо, что опоздал, зарегал штук 10-15 транслита.

А ведь иные люди (jsc "russobalt") попали на кучу транслитных доменов.

Так что нашим мудакам я не верю принципиально.

Интересный ап Яндекса сегодня

Тулза-то, понятно, показывает, что выложено проиндексированное за 3 дня – с 2008-04-25 по 2008-04-27.

Но вдобавок увеличилось количество документов за прошлые даты, которые замечены в предыдущем апе – скажем, за 24 апреля число сайтов подросло с 50 до 70 тыс., и за древние числа (17, 18, 19 апреля) подросло.

Т.е., как бы доапдейтили старое.
И вообще, прошлый ап 27-го какой-то странный был – очень мало сайтов выложено за 17-19 апреля… Рядом стоит 39 тыс. от 16 апреля, и тут же 8 тыс. за 17 апреля…

Странно все это. Да еще и число документов за свежие даты слабо пляшет, а раньше до 4-6 тыс. доходило… Либо тюнят выдачу "прикидки числа сайтов", либо быстроробота пригнобили…

Яндекс стал добавлять описание ЯК перед НПС

здесь тема форума
пример – для сайтов, найденных по ссылке (в форуме пишут, что не только для них, или там от настроек зависит) перед текстом ссылок выводят описание Яндекс каталога.
Надо бы после выводить. А так пофиг. Ну выводят и выводят.

поиск по датам в гугле

Alexf2000 по поводу апометра поинтересовался у народа, как бы такое сделать для гугла, и народ в комментах спалил документ, в котором описан оператор google daterange=formdate-todate.
Про этот оператор немного в доках гугла: http://code.google.com/apis/soapsearch/reference.html

If you want to limit your results to documents that were published within a specific date range, then you can use the “daterange:” query term to accomplish this. The “daterange:” query term must be in the following format:
daterange:<start_date>-<end>
where
<start_date> = Julian date indicating the start of the date range
<end> = Julian date indicating the end of the date range
The Julian date is calculated by the number of days since January 1, 4713 BC. For example, the Julian date for August 1, 2001 is 2452122.

Даты – начальная и конечная – задаются по некоему “Юлианскому” календарю (слыхал о таком отдаленно :)) в виде числа дней, прошедших от January 1, минус 4713-го года (блин, кто тогда документы “публиковал”? 🙂 нет чтоб 1970-01-01 взять), для которого есть и в PHP операторы, и калькулятор нарылся.

Так в доках пишут “were published within a specific date range“… Видимо, это таки дата индексации.

Повтыкал. Если брать даты от сегодня в прошлое, то по некому запросу гугль сначала находит десятки тысяч документов, но в какую-то дату начинает находить около 100-300 документов (ходить вглубь!). У меня это 5-6 дней назад.

Так наверное, пока документов много – это диапазон дат, индексация за которые выложена. А остатки в старые даты – непереиндексированные древние документы. Вроде last-modified там отдается текущий, вряд ли он неправильный. В будущее по дате гугль не пущает.

Надо бы прикрутить к апометру.

фиксация яндекса 26.03.2008

Я, к примеру, в среду 26-го ждал апдейта, чтобы анонсировать апометр. Чтобы хотя бы два апа там было, а то выглядит бедновато :), так-то сбор данных стартовал 17 марта, один ап туда попал.

И вот вместо апа часа в три дня 26-го число найденных документов по датам перестало "плавать". А оно все время плавает в плюс-минус, от десятка до пары сотен в "свежие" дни.

Если фиксация – видимо, вручную сделали. Или, может, откат с фиксацией? И до сих пор ведь зафиксировано.

Забавные вещи выявляются.

Минус один оператор?

Тема на форуме об отмене оператора : (одинарное двоеточие)

По ответу Платона "Указанный оператор больше не используется. Информация со страницы помощи удалена".

Ну, одинарное двоеточие – пользовательский вес слова или выражения… Пользовательский, а не частотный, как в двойном двоеточии. Кстати. на странице хелпа был описан как раз он (одинарный), а двойного не было.

Конечно, жалко. Двойное двоеточие вроде пока работает.

Ползком до ссылочного

Лог эксперимента.

0. Куплено много ссылок в сапе на ранее незнакомые Я страницы. В том числе уникальное слово в тексте ссылки, и оно же есть на странице. Число ссылок – порядка 500-1500, покупалось в три приема. Жырность ссылающихся – существенно разная.

Сначала появилось ~100 страниц, представленных как урлы. Т.е., яндекс прососал, что урл существует, но его не забрал. В поиске по абракадабре в Я внутри сайта есть ссылающиеся страницы (по ссылочному тексту). А просто в поиске Я – сайта нет.

Через ап 100 страниц проиндексированы, тайтл кажет в выдаче по сайту. Найдено по тексту. Еще добавилось ~130 других урлов, свеженьких, как в предыдущем пункте.

Что забавно, в оба раза в обычной выдаче Я по абракадабре есть ТОЛЬКО ссылающиеся страницы, страниц с домена нет вообще. И в глубине тоже нет. Все найденное – с ограничением по сайту.

Голые урлы показываются как НПС, проиндексированные – по тексту.
Причем при поиске по слову по сайту все урлы идут в строгом порядке – сначала старые (проинд.), потом новые (голые).

Через 2-3 недели: добавилось 10-20 страниц, верно, тормоза в индексации (Итого ~250).
В обычной выдаче по абракадабре на 1 месте появился сайт с 3 страницами, проиндексированными вчера (я стал выводить время генерации страницы везде), ссылка на сохраненку – быстророботная. Страницы из самых ранних 100, в выдаче по сайту находятся по тексту. Ниже них идет борода из 130 непроиндексированных страниц НПС в старом порядке.

Ниже – те самые первые 100 страниц, только один момент: первые 50 – НПС, несмотря на то, что текст есть на страниц и в тайтле виден (сохраненки показываются). Нижние 50 – найдены по тексту, как раньше.

Кажется, что:
1. В самом начале, пока до релевантности тексты и ссылки не допёрли, сортировка идет по времени индексации, раньше – лучше. И существенно ненулевой плюсик, т.к. голые урлы "делают" проиндексированные с искомым текстом на странице.
2. Ссылочная и текстовая релевантность "конкурируют" за вид сниппета – если ссылочная рел. высокая, пишет НПС несмотря на наличие текстов на странице. Ну это можно уже считать бояном. Кстати, подтверждается тем, что 50 последних НПС выше все до единого, чем 50 найденных по тексту.
3. Почему проиндексированное и находимое по тексту не полезло сразу в общую выдачу, а полезло только после быстроробота – ХЗ. Может, типа вылеживалось до поры?

***
продолжение следует.