Забавно Яндекс-каталог по цитируемости сортирует… Вот, например, что с группировкой по доменам, что по “все ресурсы” – после 121-126 места, когда “цитируемость” доходит до нуля, начинается новый жизненный цикл превращений – тИЦы до 5400 подрастают. И опять давай сначала…
Казалось бы, чего же проще… По цифирке отсортить… 🙂
Что интересно – это не дублирование. Например,
“Ф-Центр” – компьютерная фирма (тИЦ 5400) появляется на 7 странице, но в начале, на 1 странице ее нет, там тИЦы от 3500 начинаются…
Что еще забавнее – Яндекс.Маркет.Компьютеры с нулевым тИЦом… Нет, я его однозначно обогнал, получается… 🙂
Сортировка “по цитируемости” в ЯК: 14 комментариев
Комментарии запрещены.
Видимо, происходит "сборка" из разных подразделов. Сначала собираются ресурсы конкретной рубрики, потом добавляются ресурсы из соседних (сходных или более общих).
Вот тут тоже хорошо заметен скачок в цитируемости.
http://search.yaca.yandex.ru/yca/cy/ch/www.awarm.net/
Штука сходна с поиском в каталоге. Сначала отбираются и сортируются по тИЦ ресурсы, где ключевая фраза в заголовке, а потом те, где фраза в описании.
Вот пример http://search.yaca.yandex.ru/yandsearch?text=пылесосы&rpt=rs2 – разрыв происходит между 5-м и 6-м местом.
Можно предположить, что выборка в рубрике аналогична поиску по некой фразе (фразам) являющейся для этой рубрики ключевой.
подитожим:
1) жулики
2) халявщики
😉
aleks, иногда лучше жевать, чем говорить…
Промолчишь, за умного сойдешь. 🙂
Похоже просто на глобальные глюки. 🙂 Кстати, у "настольных компьютеров" подразделов нет… 🙂
>Штука сходна с поиском в каталоге
-а вот алгоритмы поиска – это в элементе их дело… Как хотят, так и ищут. А сортировка – это все-же проще и четко понятно, как должно быть. 🙂
Вот только вопрос – есть ли в этом разрыве глубокий смысл, позволяющий постигнуть внутренние алгоритмы 🙂
То есть раньше такого точно не было? (Перескоки тИЦ заголовок / описание при поиске в каталоге были и очень давно).
Я имел в виду не подразделы данного раздела, а соседние подразделы в более общей теме.
Зная любовь ЯК к скрытым данным (типа присвоения рубрики без описания), выдвигаю безумную :)) идею – у каждого ресурса есть список "ключевых слов рубрики" (или цифровых коэффициентов принадлежности рубрике). При отборе в рубрике, отбираются (и сортируются по тИЦ) сначала ресурсы, где ключевое слово (коэф.) наиболее подходящий (стоит на первом месте), а затем добавляются те ресурсы, где то же слово (коэф.) тоже присутствует, но не на первом месте. То есть аналогично моему примеру с пылесосами – сначала отобрали то, что содержит слово в заголовке, потом то, что содержит слово в описании, а потом может быть и то, что содержит слово в неких скрытых полях.
Алгоритмы каталога (но не основного поиска) – может быть. Можно дорассуждаться 🙂 до алгоритмов передачи столь любимого многими тИЦ. Тематическая близость завязывается на коэффициенты… чем ближе рубрика, тем жирнее кусок…
>То есть раньше такого точно не было?
-не вглядывался, а то бы знал…
>Я имел в виду не подразделы данного раздела, а соседние подразделы
-я посмотрел, вроде после "разрыва" сайты не повторяются, т.е. если сайт с большим тИЦ идет после разрыва в одном подразделе, то не идет в другом. Кажется.
Еще примерчик экстремальный: http://yaca.yandex.ru/yca/tungrp/cat/Computers/Hardware/Printers/1.html
И почему-то многих доменов, однозначно существовавших в ЯК, не находит… Хотя тематику в "пальцах" показывает и рубрику при поиске выдает.
Нет, сломалось что-то… А сообщить куда следует некому… 🙂
Пример вполне подходит под мою "теорию" 🙂
"Hewlett Packard" – не относится напрямую к рубрике "принтеры", хотя понятно, что и принтеры тоже у них есть. По БАРу HP относится к рубрике "Hardware", а при нажатии "Индекс цитирования", мы попадаем в рубрику "Каталог / Hi-Tech / Hardware /
Универсальное". Можно предположить, что HP имеет метку "принтеры", но не как основную метку, а как дополнительную, что позволяет ему отбираться в рубрику "принтеры", но только после тех ресурсов, у кого "принтеры" – основная метка.
Кстати, вот еще – в "высоких" рубриках, типа Каталог / Hi-Tech – разрывов я не нашел. Туда идет отбор "оптом" из всех нижележащих (специализированных) рубрик, то есть метка более высокого уровня "забивает" метки подрубрик.
Будем посмотреть. Мне кажется, что ошибки нет.
А например, вот тут точно глюк – http://yaca.yandex.ru/yca/ungrp/cat/Computers/99.html попробуй перейти на следующую страницу (сотую, последнюю), нажав на "…"
Не находит в поиске по ЯК или в рубрике?
Тут полный бардак. Есть рубрики, которые практически полностью дублируются, хотя они и находятся в разных разделах. Например –
http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Cottages/”>http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Cottages/
http://yaca.yandex.ru/yca/ungrp/cat/Private_Life/Housing/Construction/
(разница в два ресурса – 146 и 144 сайта в рубрике)
А вот
http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Building_Supplies/”>http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Building_Supplies/
http://yaca.yandex.ru/yca/ungrp/cat/Private_Life/Housing/Building_Supplies/
хотя и имеют сходное название и одинаковый список подрубрик, но отличаются количеством ресурсов в этих самых подрубриках.
Хм, еще странность – http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/ тут видно, что в подрубрике "Строительные и отделочные материалы (2400)" – 2400 ресурсов. Если зайти в подрубрику, то наблюдем надпись: "Сайтов в рубрике: 1085", а суммирование подразделов дает 1429 ресурсов. Получается, что 114 сайтов где-то "подвисли" или небыли учтены по какой-то причине.
-это не бага, это фича. Все-же каталог для людей. Они выбирать одну и ту же тему могут, зайдя в “прайват лайф” и в “бизнес”.
-плохо ты следишь за своими действиями в каталоге… На урл обращай внимание :). /tungrp – это “все ресурсы”, т.е., разгруппировано по доменам, выводятся отдельные страницы с одного домена 2 уровня независимо. А по умолчанию группировка идет по доменам, т.е., пишется количество разных доменов.
-то же самое. Рановато ты aleks-а начал затыкать, однозначно 🙂
-не находит при поиске по урлу в каталоге.
Я так понимаю, что с первой частью рассуждений ты согласен? 🙂
На мой взгляд, рубрики несколько "разноватые"…
Каталог / Бизнес / Строительство /Дачи и коттеджи
Каталог / Дом / Квартира и дача/Строительство
"дачи" совпадают, но вот квартиры и коттеджи – несколько разные вещи.
А вотпрос в том, что количество ресурсов в этих рубриках всё же разное (всего на единицу, но всё же). И вопрос в том, к какой рубрике приписан конкретный сайт и как это коррелирует с другими рубриками.
Спасибо, я действительно этого не заметил. Ок, приводим урлы к единой группировке. Результат всё равно аналогичный. Рубрики близнецы по названию и по подрубрикам, но количество ресурсов разное. Почему?
От разных группировок картина сильно не меняется.
Ты хочешь сказать слово в поддержку "жулики и халявщики"? Я не привык, что бы такими словами бросались….
Упс… а пример можно? Ты ищешь как url="www.xxx*" или просто http://www.xxx.ru? В первом случае важно наличие / отсутствие www.
>Я так понимаю, что с первой частью рассуждений ты согласен?
-с какой частью, про то, что происходит "сборка" из разных подразделов? Пока нет, думаю, это все-же глючит ЯК. Надо смотреть подробнее, а это лень.
>На мой взгляд, рубрики несколько "разноватые"… Каталог / Бизнес / Строительство /Дачи и коттеджи Каталог / Дом / Квартира и дача/Строительство
-каталог для людей, а человек разными путями может до раздела "строительство" дойти – кто-то через "дачи и дом", кто-то через "бизнес". За этим и сделали, очевидно.
>Рубрики близнецы по названию и по подрубрикам, но количество ресурсов разное. Почему?
-а хрен его знает, да и наплевать! 🙂 На фоне остальных глюков это мизер.
>Упс… а пример можно? Ты ищешь как url="www.xxx*" или просто http://www.xxx.ru?
-и так, и так, собственно, он сам переписывает запрос. Пример не хочу, я ушел в тину 🙂 Но они есть, несколько. Тема в баре показывается, рубрика сайта в выдаче – тоже, а поиск по урлу не дает.
Если это глюки, то согласен – наплевать. Но лично мне кажется, что это не глюки и определенные выводы сделать можно, хотя особого толка от этих выводов я пока не вижу :))
А если в БАРе нажать "индекс цитирования" куда и с каким результатом перебрасывает?
К словам "сайт не найден в ЯК, тИЦ такой-то".
Ну, так я и думал, примеров туева хуча. Запрос в Янекс- "sony ru" – sony.ru приписана категория и тема, но в просмотре тЫЦ посылают на фиг, якобы нет в ЯК…
Мдя…
Можно было бы вспомнить про скрытые категории, но старый бар показывает и источник, и адресат, и сектор, и тему, и регион….
Тут уж точно что-то не в порядке… типа все категории (скрытые :)) раздали, а описание дать забыли 🙂