Сортировка “по цитируемости” в ЯК

Забавно Яндекс-каталог по цитируемости сортирует… Вот, например, что с группировкой по доменам, что по “все ресурсы” – после 121-126 места, когда “цитируемость” доходит до нуля, начинается новый жизненный цикл превращений – тИЦы до 5400 подрастают. И опять давай сначала…
Казалось бы, чего же проще… По цифирке отсортить… 🙂
Что интересно – это не дублирование. Например,
“Ф-Центр” – компьютерная фирма (тИЦ 5400) появляется на 7 странице, но в начале, на 1 странице ее нет, там тИЦы от 3500 начинаются…
Что еще забавнее – Яндекс.Маркет.Компьютеры с нулевым тИЦом… Нет, я его однозначно обогнал, получается… 🙂

Сортировка “по цитируемости” в ЯК: 14 комментариев

  1. Казалось бы, чего же проще… По цифирке отсортить… 🙂

    Видимо, происходит "сборка" из разных подразделов. Сначала собираются ресурсы конкретной рубрики, потом добавляются ресурсы из соседних (сходных или более общих).

    Вот тут тоже хорошо заметен скачок в цитируемости.

    http://search.yaca.yandex.ru/yca/cy/ch/www.awarm.net/

    Штука сходна с поиском в каталоге. Сначала отбираются и сортируются по тИЦ ресурсы, где ключевая фраза в заголовке, а потом те, где фраза в описании.

    Вот пример http://search.yaca.yandex.ru/yandsearch?text=пылесосы&rpt=rs2 – разрыв происходит между 5-м и 6-м местом.

    Можно предположить, что выборка в рубрике аналогична поиску по некой фразе (фразам) являющейся для этой рубрики ключевой.

  2. aleks, иногда лучше жевать, чем говорить…

    Промолчишь, за умного сойдешь. 🙂

  3. Похоже просто на глобальные глюки. 🙂 Кстати, у "настольных компьютеров" подразделов нет… 🙂
    >Штука сходна с поиском в каталоге
    -а вот алгоритмы поиска – это в элементе их дело… Как хотят, так и ищут. А сортировка – это все-же проще и четко понятно, как должно быть. 🙂
    Вот только вопрос – есть ли в этом разрыве глубокий смысл, позволяющий постигнуть внутренние алгоритмы 🙂

  4. Похоже просто на глобальные глюки. 🙂

    То есть раньше такого точно не было? (Перескоки тИЦ заголовок / описание при поиске в каталоге были и очень давно).

    Кстати, у "настольных компьютеров" подразделов нет… 🙂

    Я имел в виду не подразделы данного раздела, а соседние подразделы в более общей теме.

    а вот алгоритмы поиска – это в элементе их дело… Как хотят, так и ищут. А сортировка – это все-же проще и четко понятно, как должно быть. 🙂

    Зная любовь ЯК к скрытым данным (типа присвоения рубрики без описания), выдвигаю безумную :)) идею – у каждого ресурса есть список "ключевых слов рубрики" (или цифровых коэффициентов принадлежности рубрике). При отборе в рубрике, отбираются (и сортируются по тИЦ) сначала ресурсы, где ключевое слово (коэф.) наиболее подходящий (стоит на первом месте), а затем добавляются те ресурсы, где то же слово (коэф.) тоже присутствует, но не на первом месте. То есть аналогично моему примеру с пылесосами – сначала отобрали то, что содержит слово в заголовке, потом то, что содержит слово в описании, а потом может быть и то, что содержит слово в неких скрытых полях.

    Вот только вопрос – есть ли в этом разрыве глубокий смысл, позволяющий постигнуть внутренние алгоритмы 🙂

    Алгоритмы каталога (но не основного поиска) – может быть. Можно дорассуждаться 🙂 до алгоритмов передачи столь любимого многими тИЦ. Тематическая близость завязывается на коэффициенты… чем ближе рубрика, тем жирнее кусок…

  5. >То есть раньше такого точно не было?
    -не вглядывался, а то бы знал…
    >Я имел в виду не подразделы данного раздела, а соседние подразделы
    -я посмотрел, вроде после "разрыва" сайты не повторяются, т.е. если сайт с большим тИЦ идет после разрыва в одном подразделе, то не идет в другом. Кажется.
    Еще примерчик экстремальный: http://yaca.yandex.ru/yca/tungrp/cat/Computers/Hardware/Printers/1.html
    И почему-то многих доменов, однозначно существовавших в ЯК, не находит… Хотя тематику в "пальцах" показывает и рубрику при поиске выдает.
    Нет, сломалось что-то… А сообщить куда следует некому… 🙂

  6. Еще примерчик экстремальный: http://yaca.yandex.ru/yca/tungrp/cat/Computers/Hardware/Printers/1.html

    Пример вполне подходит под мою "теорию" 🙂

    "Hewlett Packard" – не относится напрямую к рубрике "принтеры", хотя понятно, что и принтеры тоже у них есть. По БАРу HP относится к рубрике "Hardware", а при нажатии "Индекс цитирования", мы попадаем в рубрику "Каталог / Hi-Tech / Hardware /
    Универсальное". Можно предположить, что HP имеет метку "принтеры", но не как основную метку, а как дополнительную, что позволяет ему отбираться в рубрику "принтеры", но только после тех ресурсов, у кого "принтеры" – основная метка.

    Кстати, вот еще – в "высоких" рубриках, типа Каталог / Hi-Tech – разрывов я не нашел. Туда идет отбор "оптом" из всех нижележащих (специализированных) рубрик, то есть метка более высокого уровня "забивает" метки подрубрик.

    Нет, сломалось что-то… А сообщить куда следует некому… 🙂

    Будем посмотреть. Мне кажется, что ошибки нет.

    А например, вот тут точно глюк – http://yaca.yandex.ru/yca/ungrp/cat/Computers/99.html попробуй перейти на следующую страницу (сотую, последнюю), нажав на "…"

    И почему-то многих доменов, однозначно существовавших в ЯК, не находит… Хотя тематику в "пальцах" показывает и рубрику при поиске выдает.

    Не находит в поиске по ЯК или в рубрике?

    Тут полный бардак. Есть рубрики, которые практически полностью дублируются, хотя они и находятся в разных разделах. Например –
    http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Cottages/”>http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Cottages/
    http://yaca.yandex.ru/yca/ungrp/cat/Private_Life/Housing/Construction/
    (разница в два ресурса – 146 и 144 сайта в рубрике)

    А вот
    http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Building_Supplies/”>http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Building_Supplies/
    http://yaca.yandex.ru/yca/ungrp/cat/Private_Life/Housing/Building_Supplies/
    хотя и имеют сходное название и одинаковый список подрубрик, но отличаются количеством ресурсов в этих самых подрубриках.

    Хм, еще странность – http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/ тут видно, что в подрубрике "Строительные и отделочные материалы (2400)" – 2400 ресурсов. Если зайти в подрубрику, то наблюдем надпись: "Сайтов в рубрике: 1085", а суммирование подразделов дает 1429 ресурсов. Получается, что 114 сайтов где-то "подвисли" или небыли учтены по какой-то причине.

  7. Есть рубрики, которые практически полностью дублируются
    http://yaca.yandex.ru/yca/tungrp/cat/Business/Construction/Cottages/
    http://yaca.yandex.ru/yca/ungrp/cat/Private_Life/Housing/Construction/

    -это не бага, это фича. Все-же каталог для людей. Они выбирать одну и ту же тему могут, зайдя в “прайват лайф” и в “бизнес”.

    хотя и имеют сходное название и одинаковый список подрубрик, но отличаются количеством ресурсов в этих самых подрубриках

    -плохо ты следишь за своими действиями в каталоге… На урл обращай внимание :). /tungrp – это “все ресурсы”, т.е., разгруппировано по доменам, выводятся отдельные страницы с одного домена 2 уровня независимо. А по умолчанию группировка идет по доменам, т.е., пишется количество разных доменов.

    Хм, еще странность

    -то же самое. Рановато ты aleks-а начал затыкать, однозначно 🙂

    Не находит в поиске по ЯК или в рубрике?

    -не находит при поиске по урлу в каталоге.

  8. Я так понимаю, что с первой частью рассуждений ты согласен? 🙂

    >Есть рубрики, которые практически полностью дублируются
    … (в урлах было несоотв. /tungrp /ungrp – свел к одному типу)

    -это не бага, это фича. Все-же каталог для людей. Они выбирать одну и ту же тему могут, зайдя в "прайват лайф" и в "бизнес".

    На мой взгляд, рубрики несколько "разноватые"…
    Каталог / Бизнес / Строительство /Дачи и коттеджи
    Каталог / Дом / Квартира и дача/Строительство
    "дачи" совпадают, но вот квартиры и коттеджи – несколько разные вещи.
    А вотпрос в том, что количество ресурсов в этих рубриках всё же разное (всего на единицу, но всё же). И вопрос в том, к какой рубрике приписан конкретный сайт и как это коррелирует с другими рубриками.

    >плохо ты следишь за своими действиями в каталоге… На урл обращай внимание :). /tungrp – это "все ресурсы", т.е., разгруппировано по доменам, выводятся отдельные страницы с одного домена 2 уровня независимо. А по умолчанию группировка идет по доменам, т.е., пишется количество разных доменов.

    Спасибо, я действительно этого не заметил. Ок, приводим урлы к единой группировке. Результат всё равно аналогичный. Рубрики близнецы по названию и по подрубрикам, но количество ресурсов разное. Почему?

    >Хм, еще странность
    -то же самое.

    От разных группировок картина сильно не меняется.

    Рановато ты aleks-а начал затыкать, однозначно 🙂

    Ты хочешь сказать слово в поддержку "жулики и халявщики"? Я не привык, что бы такими словами бросались….

    -не находит при поиске по урлу в каталоге.

    Упс… а пример можно? Ты ищешь как url="www.xxx*" или просто http://www.xxx.ru? В первом случае важно наличие / отсутствие www.

  9. >Я так понимаю, что с первой частью рассуждений ты согласен?
    -с какой частью, про то, что происходит "сборка" из разных подразделов? Пока нет, думаю, это все-же глючит ЯК. Надо смотреть подробнее, а это лень.
    >На мой взгляд, рубрики несколько "разноватые"… Каталог / Бизнес / Строительство /Дачи и коттеджи Каталог / Дом / Квартира и дача/Строительство
    -каталог для людей, а человек разными путями может до раздела "строительство" дойти – кто-то через "дачи и дом", кто-то через "бизнес". За этим и сделали, очевидно.
    >Рубрики близнецы по названию и по подрубрикам, но количество ресурсов разное. Почему?
    -а хрен его знает, да и наплевать! 🙂 На фоне остальных глюков это мизер.
    >Упс… а пример можно? Ты ищешь как url="www.xxx*" или просто http://www.xxx.ru?
    -и так, и так, собственно, он сам переписывает запрос. Пример не хочу, я ушел в тину 🙂 Но они есть, несколько. Тема в баре показывается, рубрика сайта в выдаче – тоже, а поиск по урлу не дает.

  10. >Рубрики близнецы по названию и по подрубрикам, но количество ресурсов разное. Почему?

    -а хрен его знает, да и наплевать! 🙂 На фоне остальных глюков это мизер.

    Если это глюки, то согласен – наплевать. Но лично мне кажется, что это не глюки и определенные выводы сделать можно, хотя особого толка от этих выводов я пока не вижу :))

    Тема в баре показывается, рубрика сайта в выдаче – тоже, а поиск по урлу не дает.

    А если в БАРе нажать "индекс цитирования" куда и с каким результатом перебрасывает?

  11. Ну, так я и думал, примеров туева хуча. Запрос в Янекс- "sony ru" – sony.ru приписана категория и тема, но в просмотре тЫЦ посылают на фиг, якобы нет в ЯК…

  12. Мдя…

    Можно было бы вспомнить про скрытые категории, но старый бар показывает и источник, и адресат, и сектор, и тему, и регион….

    Тут уж точно что-то не в порядке… типа все категории (скрытые :)) раздали, а описание дать забыли 🙂

Комментарии запрещены.