Влад Шабанов на своем блоге в “планете” сказал, что у Рамблера миллиард документов в индексе. (via sevson)
Причем дал ссылку такую: ${universe}
Интересный оператор. 🙂 Вроде в хелпе такого нет.
Кстати, полез в хелп по операторам Рамблера – с удивлением обнаружил, что описан “клей” Рамблера, сообщение о котором давалось давным-давно в “рамблер-группах”:
Оператор && (логическое И)
Два запроса, соединенные оператором &&, образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу собака && кошка найдутся только те документы, которые содержат и слово “собака”, и слово “кошка”.
Между тем, как мы все понимаем, слово “собака” и слово “кошка” на найденной странице могут находиться в самых разнообразных местах, как рядом – в одном предложении, так и в разных предложениях, и даже разных статьях. Для того, чтобы дать понять поисковой машине, что слова должны находиться близко друг к другу, Вы можете использовать модифицированное И – &, для управления им служат регулирующие операторы > и <. Чтобы расстояние между словами в результате поиска было меньше заданного по умолчанию, можно использовать конструкцию &< или &<<, чем больше регулирующих операторов, тем сильнее Вы уменьшаете расстояние. Чтобы увеличить исходное расстояние, нужно применить обратный оператор: &> или &>>.
Оператор && не имеет степеней регулировки и является оператором И, при котором в запрос попадают даже самые далеко отстоящие друг от друга слова.
Там же, в блоге Шабанова, есть повторное описание оператора &&& – поиск по сайту:
Все никак не мог придумать жизненный пример для оператора ‘&&&’ (логическое И в пределах сайта)
Изначально оператор затеян был для борьбы со спамом, а вот “гражданского” назначения как-то не видно было.
А пример вот какой: хочу я купить кучку всякой техники для кухни, причем желательно все в одном, максимум, двух магазинах. Чтоб не бегать, не оплачивать по 10 раз доставку и т. д. Есть у меня конкретные названия моделей (зашел в М-Видео, выбрал и списал). Найти каждую из них в отдельности — запросто, по 100 магазинов. Но в первом попавшемся по запросу со стиралкой нет холодильника и т. д.
Искать надо так:
candy aquamatic 800t &&& LG MH 6384 &&& zanussi ZK630 LX
– прикололо “гражданское применение”. Типа делайте выводы, как борются со спамом (любители цепей Маркова :)).
В общем, фсем фтыкать!
У Рамблера в индексе миллиард, у Яндекса – 800 миллионов, как-нибудь можно узнать количество страниц в базе Апорта (т.е. обойти магическую цифру 10K)?
И еще по поводу размеров индекса. В пятницу (21 апреля) в индексе Вебальты было 32 млн. страниц, сегодня уже 80 миллионов, такими темпами она может очень быстро войти в тройку SE(ru).
>такими темпами она может очень быстро войти в тройку SE
-"такими темпами" она бы уже давно была в тройке 🙂
Вот здесь вот: http://www.webalta.net/ru/news.html написано, что 1 марта у них было 2,4 млн документов. Согласен, что рост происходит рывками, но тем не менее, градиент этого роста впечатляет!
P.S. C такими масштабами конечно не сравнить, но по местным мерам очень даже ничего.
P.S. Тем более на фоне объявлений "Автор и руководитель этого проекта неспешно ищет новых форм сотрудничества и/или предложений работы в серьезных проектах." на морде некогда многообещающего поисковика.
Интересные мысли, Жень. Очень сейчас полезно…
Сегодня на Вебальте написали, что у них уже 250 миллионов документов в индексе, т.е. теперь она всего в 4 раза меньше Рамблера.
У webalta выдача совсем не релевантная выдаваемым документам, часто только наличие ссылки со словом гарантирует 1 место
Мне тоже показалось, что со ссылочным ранжированием у них перебор (точнее даже с внутренним ссылочным). Но намного больший повод для критики – это отсутствие морфологии. Сейчас, как мне показалось, у них прикручен только стемминг.
Надпись на Вебальте:
Интересно девки пляшут … Структуру индекса пришлось менять, что-ли …
Чем дальше, тем хуже – сейчас Вебальта вообще лежит.
миллиард документов при инвесном индексе – вопрос количества машин. Мы пробовали поднимать индекс на 6 локалках – получались довольно приличные результаты. Скоро расскажу, сколько смогут вытянуть документов 3 одноюнитника.
Цитата из блога Вебальты:
Это получается 227M*4 ~= 1 миллиард Рамблера. Т.е. Рамблер проиндексил весь Рунет! Не похоже =)
Я Вам скажу больше, по моим личным оценкам, Рамблер завышает кол-во документов как минимум на 30% от того, что у них есть в базе.
Знаю, сталкивался. Есть сайтик: 8 статических страниц + 1 динамическая с одним параметром, который изменяется от 1 до 80 – итого 8+80=88. Рамблер c этого сайта проиндексировал 191 страницу. Даже если предположить, что он не склеил domain.com и http://www.domain.com, то все равно "недостача"(или перестача =) в 191-88*2=15 страниц.
У Яндекса уже тоже есть миллиард. Правда как-то странно они его написали:
>Поиск по 1054 432 544 веб-страницам
На Вебальте опять перетряска базы. Индекс колбасит как NASDAQ какой-то 🙂
Это следствие технических трудностей, завтра ночью вернется в норму 🙂