сеошники – дебилы

чел кается, это он спалил… блин http://forum.searchengines.ru/showthread.php?t=523795 (дайте ему минус в репу, что ли. я уже 🙂 )
Короче, некоторое время назад в тестовом режиме ХМЛ http://xml.yandex.ru/test_query.xml появлялись интересные параметры:
1. релевантность показывалась цифрой. внутри тега relevance была цифра от 100 млн до 400+ млн (для витальных результатов). Но и меньше 100 млн были результаты – 10+ млн (по запросам типа порнухи, скачать, фильмы и вся такая тема). Я еще не разбирал результаты, это навскидку.
2. были теги geo и geoa с айди региона
3. был тег clon с айдишником, общим для всех клонов – аффилиаты
4. был тег FactorDocLen в интервале 0-1, это была целочисленная дробь вида N/255, зависела от длины (числа слов? пока не смотрел) документа.

***
ну и вообще – там многое изменилось, показывает теперь sitelinks, всякие источники описания сайта (дмоз, як), всякие темы наподобие блогов
***
уроды!
это ж цифры нам дали посмотреть, блять!
***
я сам-то скачал выдачу по топ1000 примерно 18 тыс сеорейтовских коммерческих запросов и по 26 тыс самых частотных рунетовских запросов – с цифирками, конечно.

Вот!!!

язык до Хунгари доведет

оператор lang="язык" позволяет искать по страницам с присвоенным языком. Я на этом как раз сделал различия в определялке апдейтов буржуйского и русского индекса.
Когда-то языков было шесть, и я думал, что так оно и останется:

Отбирает для поиска страницы, написанные на определенном языке:
* русском (ru)
* украинском (uk)
* белорусском (be)
* английском (en)
* французском (fr)
* немецком (de)

(цитата из копии старой страницы с языком запросов, к слову сказать: новая страница с "памяткой" по языку запросов – УГ, там нет примеров языков и примеров mime документов, а может, и еще чего-то нет).

Но таки их, языков, уже не шесть, а тридцать один. Или больше. Напротив каждого языка стоит число документов, взятое из парсинга первой тыщи результатов по 40 тыс. запросов:

ru 84613923
en 1436073
uk 101924
nl 85928
tr 42446
de 33869
it 21366
es 17899
fr 15524
be 13733
cs 9794
bg 8228
ro 7021
pl 7019
pt 4394
ca 3721
hu 3299
kk 3028
tt 2157
ka 1498
lt 1045
fi 765
lv 645
az 502
et 294
hy 148
ar 132
he 94
sr 89
ba 53
el 43

Запросы пробивались в основном русские – 20 тыс самых популярных по частотности и 18 тыс. отпарсенных из ашмановского сеорейта, тоже ничего себе популярные и в основном коммерческие.

Но тем не менее – английского языка мало, 1.7%, а в сумме число документов с нерусским языком – 2.1%. Это документы, которые встречались в выдаче при пробивке.

Конечно, если искать оператором lang="", будут другие числа, больше. Это может означать, что нерусские документы в русской выдаче давятся, что, конечно, логично.

Таки языков много. А нам и не сообщили.

буки готовятся

на серчах заметили открытие буки, и что там вылезают какие-то библиотеки, но яндексоиды поскакали и прикрыли.

Бета-версия поиска закрыта
Спасибо за тестирование. Мы постарались проанализировать все ваши отзывы и учтем их в следующих версиях.

Небось скоро покажут.
Как это за уши тягать – "показать Москву". Тут небось покажут Мадрид, или его уже показали, только никто не заметил? 🙂

ЗЫ Предсказываю, что "библиотечность" сайта будет являться одним из факторов в ранжировании.
Или не так: библиотечность, – это же типа некоммерческость. Как раз та самая мадридская тема с коммерческими и некоммерческими ссылками.
Только тут – не классификация ссылок, а классификация сайтов. Ну посмотрим.

сегодняшний апдейт

Вот сегодняшний апдейт, в который выложили документы за два дня, а изменение выдачи близко к нулю (2.6% по моим мерам) как бы говорит нам, что изменения в выдаче чиста от выкладывания новых документов – не бывают.

А бывают от пересчета параметров, а пересчета, значит, не было.

Кстати, внизу приводится взвешенное изменение выдачи по разным классам запросов, и самое приличное изменение выдачи по классу запросов "редкие никакие". 🙂
По таким запросам да, выкладывание документов – определяющий фактор. 🙂

Посоветуйте мануалы по байес-фильтрам

?
Что-нибудь коротенькое, простенькое и понятное.
Собственно, интересует не фильтрация спама, а работа с вероятностями, условными вероятностями и т.п. в плане классификации.

Указание региона сайта в Яндекс.Вебмастере для тИЦ=0

на серче заметили раньше, чем яндекс объявил. 🙂

интересно, на сколько повысится число сайтов с регионом. Судя по требованию страницы с "подтверждением" отношения сайта к региону, таки модераторы это смотрят.

нужно пару советов по развитию апометра

апометр развивается: сейчас есть ссылочные и текстовые апдейты, комдир, мониторинг выдачи, мощность изменений по разным классам запросов.

но будет развиваться еще сильнее, а именно:

1. гео.
будут апдейты геопривязки сайтов. частенько при изменении выдачи без индекса оказывается, что прошел геоапдейт. Какие нужны данные – достаточно просто указать, что мол, геоапдейт (они бывают, как правило, в дни текстовых апдейтов, около 4-5 утра).
Методика – контроль числа сайтов и страниц в поиске по региону. Поэтому кроме чисто времени можно выдавать и количественные данные (* на сколько повысилось-понизилось число сайтов).
Оно вам нано? Да, и какие регионы тогда брать?

2. пересчет весов ссылок
бывает и в обычные текстовые апдейты для уже имеющихся старых ссылок. обычно около 4-6 утра.

3. апдейты факторов по общей базе рунета
типа весов слов. тоже бывает в дни текстовых апдейтов, тоже около 4 утра.
также можно довольно точно считать относительные изменения в общем размере базы – типа подросла ли она и насколько.
Обычные методы (типа запросов domain:root) изза прюнинга дают фиговую точность, а прюнинг врубается в полный рост при числе найденного около 20-30 тыс. доменов.

4. относительная мощность ссылочного и текстового по положению НПС
есть запросы, где много НПС. я тут открыл запрос, который позволяет выпячивать НПС )) Можно считать относительное положение НПС-результатов относительно текстовых. (конечно, ранжирование НПС совсем другое, но все равно). Нано?

пацаки обрели свою КЦ

домен кц.рф – для настоящих пацаков! 🙂 (координационный центр, кстати, чо – ТМ "КЦ" зарегал, что ли?)

Раз пошла такая пьянка – сделал (=стырил с phpclasses.org) перекодировщик текстов в пуникод и обратно.
Удобен тем, что берет на вход любой текст, независимо от пробелов и прочих символов. А у всех остальных тырильщиков этого класса берет на вход только одно целое слово без пробелов – неудобно.
И еще генерит таб-делимитед соотвествие слово-перекодировка.

расклейка выдачи яндекса

Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost.

товарищи яндексоиды: расклеивать страницы по запросу rhost – это неправильно и очень плохо. Если я домены по маске хочу найти – мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.