Блоки ссылок и поиск по $anchor

Думал посмотреть, сколько слов с длинной ссылке играют роль. Кстати, наспамьте в камментах кто может: урлов сайтов, на которых есть длинные, очень длинные ссылки (внутренние или внешние, неважно).

Ну, думал, сейчас найду такие сайты с помощью чего-то типа $anchor(сайт / 10 сайт). И вижу первым:

создание сайтов
… сайт разработка сайта раскрутка сайта веб дизайн разработка сайтов дизайн сайтов создать сайт дизайн сайта изготовление сайтов изготовление сайта web- …
www.kottedgi.ru/art_2.html (8 КБ) 20.04.2004 — совпадение фразы
Найденные слова · Похожие документы

Захожу на этот дорвейчик. Внизу видна гора ссылок:

создание сайтов cjplfybt cfqnjd компьютерная помощь ремонт компьютера ремонт компьютеров компьютеры ремонт ремонт компьютеров москва москва ремонт компьютеров ремонт пк ремонт компьютера в москве ремонт pc ремонт компьютеры ремонт компьютора ремонт компьютра ремонт кмпьютера ремонткомпьютера настройка компьютера настройка компьютеров установка windows установка windows 98 переустановка windows windows 98 установка windows98 настройка windows переустановка windows 98 виндовс установка windows xp операционные системы windows xp установка windowsxp установка ос установить windows переустановка windows xp установка программы локальная сеть установка драйвера настройка модемов создание сайта как создать сайт разработка сайта раскрутка сайта веб дизайн разработка сайтов дизайн сайтов создать сайт дизайн сайта изготовление сайтов изготовление сайта web-дизайн веб-дизайн создание своего сайта создание web-сайтов создание web сайта создание веб сайта создание веб сайтов создание сайтв сздание сайтов созданиесайтов cjplfybt cfqnf htvjyn rjvgm.nthjd htvjyn rjvgm.nthf yfcnhjqrf rjvgm.nthjd yfcnhjqrf rjvgm.nthf cjplfybt cfqnf cfqn rjvgm.nth rjvgm.nths htvjyn cfqns цштвщцы ctnm ctnb vjltv vjltvs помощь компьютер скорая компьютерная помощь компьютерная скорая помощь компьютернаяпомощь вызов мастера по ремонту компьютера вызов мастера по настройке компьютера вызов мастера по установке windows вызов мастера по установке программ вызов мастера по настройке модема вызов мастера по созданию сайта

Причем все ссылки короткие, в пару слов. Как же Яндекс нашел эту страницу?
Поскольку для поиска по текстам ссылок необходимо иметь индекс по словам из текстов ссылок:
Варианта два.
1) Яндекс может объединять все стоящие рядом ссылки в одну – сначала меня проперло по этому варианту – хороший был бы способ борьбы с блоками ссылок… Но потом поостыл. Слишком экстремально. Хотя надо подумать.
2) Яндекс может хранить индекс по текстам ссылок без разбора по урлам ссылок, а как просто кучу текста. Но ведь он должен ссылочное ранжирование реализовывать как-то? И учитывать текст ссылок на сайты по урлам отдельно. Тогда
2.1) под-вариант: индекс для поиска по $anchor и индекс для учета сс.ранжирования – разные индексы. А нах надо хранить два разных? Это противоречит гипотезе “разработчики умны”. По идее, поиск по $anchor- извращение, ненужное обычному юзверю. Спецом его делать никто бы не стал.
2.2) под-вариант: индексы разделяются на индекс по текстам ссылок, где каждой ссылке, соответствует некий номер id, и индекс урлов ссылок по этим номерам. Тогда можно и ссылочное ражирование учесть, а в поиске по $anchor без #link – просто забить на второй индекс.

Видимо, это и есть разумный вариант. Хотя надо переобдумать завтра.

Ну или вот оно же- $anchor(вызов / 5 вызов) – 3-е место наш дорвей занимает. А слова “вызов” однозначно в разных ссылках стоят.
Хотя как-то странно все-таки работает этот поиск… Надо поковыряьтся.

Блоки ссылок и поиск по $anchor: 6 комментариев

  1. Просто лажа-с, им не трудно сохранять все ссылки, включая якоря и считать индекс говенности страницы по первым…

  2. Во-первых, по русски пиши.
    Во-вторых, там нигде не написано, что что-то из ссылок не сохраняется. Читать тебе тоже надо учиться?

  3. Хорошо – пусть будет индекс паршивости или нехорошести страницы. А якоря – такие же ссылки…

  4. Засланец, рекомендую подписываться узнаваемым образом :). Думаешь, то что что ты заходишь из подсети на маленьком теплом острове, мне ни о чем не говорит? 🙂

    Так чего ты хочешь выяснить или сказать? При чем тут индекс нехорошести, вычисляемый по ссылкам и что это такое? 🙂

  5. Подписываться полностью – лом, а вдруг это не я.

    Давай пойдем самым простым путем: как легче… А легче всего складывать все ссылки в таблицу и автоматом давать им индексы [ вес, коэффициенты ] в зависимости от совпадения их по адресу и тексту, одновременно раскладывая тексты ссылок по словам с учетом либо количества знаков, либо количества слов в тексте ссылки, например:

    слово: засланец
    количество упоминаний: 3
    количество слов в тексте ссылки: 5

    И в результате можно сразу получать коэффициенты по каждому слову в текстах ссылок, каждому адресу и по странице откуда идут ссылки.

    Более того, все это можно привязать к какому-нить ИЦу [ причем нелинейно ] и тогда все попытки расковырять алго – завянутъ.

    Хотя если запустить десятка два более-менее однопитных сайтов, к какому-то выводу можно и прийти. Кстати, я выкладываю такую подсетку, если надо ссылки со свежих сайтов – можно включить в эксперимент на взаимообразной основе, там надо по-больше разнообразия в IPшниках.

    И еще: надеюсь подразумевался остров Хортица…

  6. >и автоматом давать им индексы [ вес, коэффициенты ] в зависимости от совпадения их по адресу и тексту

    -по совпадению с чем? С текстом запроса?

    >слово: засланец количество упоминаний: 3 количество слов в тексте ссылки: 5
    -в этом случае, увы, не получится искать по фразам в тексте ссылок. В индексе должны быть и положения (координата) каждого слова. А тогда количество слов в тексте ссылки – избыточная информация, зачем ее хранить?
    Как бы дело даже не в расковыривании алогоритма. Просто обычный обратный индекс – каждому слову соответствует урл страницы и координата в тексте страницы.
    А в индексе по ссылкам кроме этого должен быть еще и урл для каждого слова.
    Насчет эксперимента – я не понимаю, что именно ты хочешь определить с его помощью.

Комментарии запрещены.