Рамблер – миллиард документов и поиск

Влад Шабанов на своем блоге в “планете” сказал, что у Рамблера миллиард документов в индексе. (via sevson)
Причем дал ссылку такую: ${universe}
Интересный оператор. 🙂 Вроде в хелпе такого нет.
Кстати, полез в хелп по операторам Рамблера – с удивлением обнаружил, что описан “клей” Рамблера, сообщение о котором давалось давным-давно в “рамблер-группах”:

Оператор && (логическое И)

Два запроса, соединенные оператором &&, образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу собака && кошка найдутся только те документы, которые содержат и слово “собака”, и слово “кошка”.

Между тем, как мы все понимаем, слово “собака” и слово “кошка” на найденной странице могут находиться в самых разнообразных местах, как рядом – в одном предложении, так и в разных предложениях, и даже разных статьях. Для того, чтобы дать понять поисковой машине, что слова должны находиться близко друг к другу, Вы можете использовать модифицированное И – &, для управления им служат регулирующие операторы > и <. Чтобы расстояние между словами в результате поиска было меньше заданного по умолчанию, можно использовать конструкцию &< или &<<, чем больше регулирующих операторов, тем сильнее Вы уменьшаете расстояние. Чтобы увеличить исходное расстояние, нужно применить обратный оператор: &> или &>>.

Оператор && не имеет степеней регулировки и является оператором И, при котором в запрос попадают даже самые далеко отстоящие друг от друга слова.

Там же, в блоге Шабанова, есть повторное описание оператора &&& – поиск по сайту:

Все никак не мог придумать жизненный пример для оператора ‘&&&’ (логическое И в пределах сайта)
Изначально оператор затеян был для борьбы со спамом, а вот “гражданского” назначения как-то не видно было.
А пример вот какой: хочу я купить кучку всякой техники для кухни, причем желательно все в одном, максимум, двух магазинах. Чтоб не бегать, не оплачивать по 10 раз доставку и т. д. Есть у меня конкретные названия моделей (зашел в М-Видео, выбрал и списал). Найти каждую из них в отдельности — запросто, по 100 магазинов. Но в первом попавшемся по запросу со стиралкой нет холодильника и т. д.
Искать надо так:
candy aquamatic 800t &&& LG MH 6384 &&& zanussi ZK630 LX

– прикололо “гражданское применение”. Типа делайте выводы, как борются со спамом (любители цепей Маркова :)).
В общем, фсем фтыкать!

Рамблер – миллиард документов и поиск: 17 комментариев

  1. У Рамблера в индексе миллиард, у Яндекса – 800 миллионов, как-нибудь можно узнать количество страниц в базе Апорта (т.е. обойти магическую цифру 10K)?
    И еще по поводу размеров индекса. В пятницу (21 апреля) в индексе Вебальты было 32 млн. страниц, сегодня уже 80 миллионов, такими темпами она может очень быстро войти в тройку SE(ru).

  2. Вот здесь вот: http://www.webalta.net/ru/news.html написано, что 1 марта у них было 2,4 млн документов. Согласен, что рост происходит рывками, но тем не менее, градиент этого роста впечатляет!

  3. Каждый квартал Google покупает где-то 100,000 серверов, говорят тут: http://glinden.blogspot.com/2006/04/100k-new-servers-per-quarter-at-google.html

    P.S. C такими масштабами конечно не сравнить, но по местным мерам очень даже ничего.
    P.S. Тем более на фоне объявлений "Автор и руководитель этого проекта неспешно ищет новых форм сотрудничества и/или предложений работы в серьезных проектах." на морде некогда многообещающего поисковика.

  4. Интересные мысли, Жень. Очень сейчас полезно…

  5. Сегодня на Вебальте написали, что у них уже 250 миллионов документов в индексе, т.е. теперь она всего в 4 раза меньше Рамблера.

  6. У webalta выдача совсем не релевантная выдаваемым документам, часто только наличие ссылки со словом гарантирует 1 место

  7. У webalta выдача совсем не релевантная выдаваемым документам, часто только наличие ссылки со словом гарантирует 1 место

    Мне тоже показалось, что со ссылочным ранжированием у них перебор (точнее даже с внутренним ссылочным). Но намного больший повод для критики – это отсутствие морфологии. Сейчас, как мне показалось, у них прикручен только стемминг.

  8. Надпись на Вебальте:

    Всего проиндексировано 58 959 187 документов объёмом 1 539Гб

    Интересно девки пляшут … Структуру индекса пришлось менять, что-ли …

  9. Чем дальше, тем хуже – сейчас Вебальта вообще лежит.

  10. миллиард документов при инвесном индексе – вопрос количества машин. Мы пробовали поднимать индекс на 6 локалках – получались довольно приличные результаты. Скоро расскажу, сколько смогут вытянуть документов 3 одноюнитника.

  11. Цитата из блога Вебальты:

    На сегодняшний день поисковик Webalta проиндексировал 227 936 830 страниц, общим объемом 6205Гб. Безусловно, есть к чему стремиться. Интересно то, что 227 млн страниц по оценкам Webalta 1/4-ая от всего объема страниц Рунета.

    Это получается 227M*4 ~= 1 миллиард Рамблера. Т.е. Рамблер проиндексил весь Рунет! Не похоже =)

  12. Я Вам скажу больше, по моим личным оценкам, Рамблер завышает кол-во документов как минимум на 30% от того, что у них есть в базе.

  13. Знаю, сталкивался. Есть сайтик: 8 статических страниц + 1 динамическая с одним параметром, который изменяется от 1 до 80 – итого 8+80=88. Рамблер c этого сайта проиндексировал 191 страницу. Даже если предположить, что он не склеил domain.com и http://www.domain.com, то все равно "недостача"(или перестача =) в 191-88*2=15 страниц.

  14. У Яндекса уже тоже есть миллиард. Правда как-то странно они его написали:
    >Поиск по 1054 432 544 веб-страницам

  15. На Вебальте опять перетряска базы. Индекс колбасит как NASDAQ какой-то 🙂

  16. Это следствие технических трудностей, завтра ночью вернется в норму 🙂

Комментарии запрещены.