Рамблер – миллиард документов и поиск

Влад Шабанов на своем блоге в “планете” сказал, что у Рамблера миллиард документов в индексе. (via sevson)
Причем дал ссылку такую: ${universe}
Интересный оператор. 🙂 Вроде в хелпе такого нет.
Кстати, полез в хелп по операторам Рамблера – с удивлением обнаружил, что описан “клей” Рамблера, сообщение о котором давалось давным-давно в “рамблер-группах”:

Оператор && (логическое И)

Два запроса, соединенные оператором &&, образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу собака && кошка найдутся только те документы, которые содержат и слово “собака”, и слово “кошка”.

Между тем, как мы все понимаем, слово “собака” и слово “кошка” на найденной странице могут находиться в самых разнообразных местах, как рядом – в одном предложении, так и в разных предложениях, и даже разных статьях. Для того, чтобы дать понять поисковой машине, что слова должны находиться близко друг к другу, Вы можете использовать модифицированное И – &, для управления им служат регулирующие операторы > и <. Чтобы расстояние между словами в результате поиска было меньше заданного по умолчанию, можно использовать конструкцию &< или &<<, чем больше регулирующих операторов, тем сильнее Вы уменьшаете расстояние. Чтобы увеличить исходное расстояние, нужно применить обратный оператор: &> или &>>.

Оператор && не имеет степеней регулировки и является оператором И, при котором в запрос попадают даже самые далеко отстоящие друг от друга слова.

Там же, в блоге Шабанова, есть повторное описание оператора &&& – поиск по сайту:

Все никак не мог придумать жизненный пример для оператора ‘&&&’ (логическое И в пределах сайта)
Изначально оператор затеян был для борьбы со спамом, а вот “гражданского” назначения как-то не видно было.
А пример вот какой: хочу я купить кучку всякой техники для кухни, причем желательно все в одном, максимум, двух магазинах. Чтоб не бегать, не оплачивать по 10 раз доставку и т. д. Есть у меня конкретные названия моделей (зашел в М-Видео, выбрал и списал). Найти каждую из них в отдельности — запросто, по 100 магазинов. Но в первом попавшемся по запросу со стиралкой нет холодильника и т. д.
Искать надо так:
candy aquamatic 800t &&& LG MH 6384 &&& zanussi ZK630 LX

– прикололо “гражданское применение”. Типа делайте выводы, как борются со спамом (любители цепей Маркова :)).
В общем, фсем фтыкать!

Рамблер – миллиард документов и поиск: 17 комментариев

lermont.ru:

24.04.2006 в 15:24

У Рамблера в индексе миллиард, у Яндекса – 800 миллионов, как-нибудь можно узнать количество страниц в базе Апорта (т.е. обойти магическую цифру 10K)?
И еще по поводу размеров индекса. В пятницу (21 апреля) в индексе Вебальты было 32 млн. страниц, сегодня уже 80 миллионов, такими темпами она может очень быстро войти в тройку SE(ru).
Евгений Трофименко:

24.04.2006 в 15:38

>такими темпами она может очень быстро войти в тройку SE
-"такими темпами" она бы уже давно была в тройке 🙂
lermont.ru:

24.04.2006 в 16:11

Вот здесь вот: http://www.webalta.net/ru/news.html написано, что 1 марта у них было 2,4 млн документов. Согласен, что рост происходит рывками, но тем не менее, градиент этого роста впечатляет!
lermont.ru:

24.04.2006 в 16:16

Каждый квартал Google покупает где-то 100,000 серверов, говорят тут: http://glinden.blogspot.com/2006/04/100k-new-servers-per-quarter-at-google.html

P.S. C такими масштабами конечно не сравнить, но по местным мерам очень даже ничего.
P.S. Тем более на фоне объявлений "Автор и руководитель этого проекта неспешно ищет новых форм сотрудничества и/или предложений работы в серьезных проектах." на морде некогда многообещающего поисковика.
Skyter:

24.04.2006 в 23:40

Интересные мысли, Жень. Очень сейчас полезно…
lermont.ru:

28.04.2006 в 09:29

Сегодня на Вебальте написали, что у них уже 250 миллионов документов в индексе, т.е. теперь она всего в 4 раза меньше Рамблера.
Владимир:

04.05.2006 в 12:28

У webalta выдача совсем не релевантная выдаваемым документам, часто только наличие ссылки со словом гарантирует 1 место
lermont.ru:

04.05.2006 в 15:10

У webalta выдача совсем не релевантная выдаваемым документам, часто только наличие ссылки со словом гарантирует 1 место

Мне тоже показалось, что со ссылочным ранжированием у них перебор (точнее даже с внутренним ссылочным). Но намного больший повод для критики – это отсутствие морфологии. Сейчас, как мне показалось, у них прикручен только стемминг.
lermont.ru:

07.05.2006 в 22:21

Надпись на Вебальте:

Всего проиндексировано 58 959 187 документов объёмом 1 539Гб

Интересно девки пляшут … Структуру индекса пришлось менять, что-ли …
lermont.ru:

10.05.2006 в 11:08

Чем дальше, тем хуже – сейчас Вебальта вообще лежит.
pelvis:

25.05.2006 в 04:27

миллиард документов при инвесном индексе – вопрос количества машин. Мы пробовали поднимать индекс на 6 локалках – получались довольно приличные результаты. Скоро расскажу, сколько смогут вытянуть документов 3 одноюнитника.
lermont.ru:

07.06.2006 в 13:24

Цитата из блога Вебальты:

На сегодняшний день поисковик Webalta проиндексировал 227 936 830 страниц, общим объемом 6205Гб. Безусловно, есть к чему стремиться. Интересно то, что 227 млн страниц по оценкам Webalta 1/4-ая от всего объема страниц Рунета.

Это получается 227M*4 ~= 1 миллиард Рамблера. Т.е. Рамблер проиндексил весь Рунет! Не похоже =)
Алексей Гурешов:

07.06.2006 в 15:31

Я Вам скажу больше, по моим личным оценкам, Рамблер завышает кол-во документов как минимум на 30% от того, что у них есть в базе.
lermont.ru:

08.06.2006 в 16:22

Знаю, сталкивался. Есть сайтик: 8 статических страниц + 1 динамическая с одним параметром, который изменяется от 1 до 80 – итого 8+80=88. Рамблер c этого сайта проиндексировал 191 страницу. Даже если предположить, что он не склеил domain.com и http://www.domain.com, то все равно "недостача"(или перестача =) в 191-88*2=15 страниц.
lermont.ru:

15.06.2006 в 12:17

У Яндекса уже тоже есть миллиард. Правда как-то странно они его написали:
>Поиск по 1054 432 544 веб-страницам
lermont.ru:

21.06.2006 в 11:50

На Вебальте опять перетряска базы. Индекс колбасит как NASDAQ какой-то 🙂
Алексей Гурешов:

21.06.2006 в 20:40

Это следствие технических трудностей, завтра ночью вернется в норму 🙂

Комментарии запрещены.

Июль 2026
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31