В http://company.yandex.ru/ написано:
В поиске Яндекса сегодня
сайтов: 2 533 866,
веб-страниц: 875 760 238,
объем проиндексированной
информации: 22 538 ГБ.
Когда-то я подбивал статистику по средним параметрам страниц в рунете, сравнивал ее с разными данными – вроде все отлично сходилось. По этой статистике получалось, что текста в html-документе в среднем 6 кБ, а вместе с кодом – 17 кБ. Вряд ли статстика принципиально изменилась…
Берем 17000, умножаем на 875760238 – получаем 13.54 ТБ.
Берем 6000, умножаем на 875760238 – получаем 4.78 ТБ.
***
А у Яндекса написано, что объем проиндексированной информации – 22.5 ТБ. Нестыковочка.
Я вот всегда считал, что проиндексированная информация – это типа тексты страницы. А весь скачанный код – не хранится.
Неужели проиндексированное по-Яндексовски – это скачанное?
PS И даже так, что если скачано 22.5 ТБ – то неужели средний размер страницы почти в 2 раза увеличился?
картинки тоже инфа
>тоже инфа
-и тоже индексируются, конечно???
Что касается картинок – то Яндекс ведь их индексирует. Часто бывает в поиске по картинкам что в выдаче картинка есть (в индексе), а по ссылке ее уже нет. Это не индексация?
Помимо всего прочего, Яндекс индексирует еще и DOC, RTF, PDF и тому подобные типы файлов, которые крайне редко попадаются в выдаче. И весят они немало, и имеются на любом мало-маськи коммерческом сайте (договора, прайсы, и прочее).
Также, не стоит забывать о CSS и JS. Что из них Яндекс индексирует, а что нет – судить не мне. Но если пытаться объяснить цифру в 22 ТБ…
Давайте различать "скачивает" и "индексирует". 🙂 В случае с картинками поиск идет по текстам около картинки и ее имени… Это все берется из хтмл.
Форматов doc и т.п. – мало файлов просто. http://www.yandex.ru/yandsearch?ras=1&date=&text=РјС‹&spcctx=notfar&zone=all&link to=&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=3&to_ month=5&to_year=2006&mime=pdf&Link=&rstr=&site=&numdoc=10&ds=
– поиск слова "мы" по формату PDF – 192 тыс. документов, по DOC – 120 тыс. Меньше 1/1000 от html! 🙂
У меня получается средний размер документа чуть более 26,2К, что в итоге даёт чуть менее 21,4 ТБ. Это индексируя текст, html, xml, pdf, doc, xls, ppt, swf, rtf
Так что всё правильно у Яндекса посчитано, он примерно тот же набор типов файлов индексирует 🙂
<img src="http://im2-tub.yandex.ru/i?id=7056878
картинки скачивает
Вероятно, имеется в виду объем всего индекса, а там информация представлена в каком-то другом виде. Разумеется, структура данных индекса подразумевает использование чрезмерной, дублирующей информации для ускорения опрераций – это нормально.
К примеру: в форумах в таблице с темами часто хранится количество сообщений в теме – это избыточная информация, поскольку это число можно считать "на лету". Но так получается быстрее.
wayfarer, ну да, ежу понятно, что скачивает. Но "индексированное" на мой взгляд, это нечто другое.
Maxime, в принципе, ближе к делу, но только брутто-документ в 3 раза тяжелее нетто-документа. А откуда данные статистики? Опубликованы?
Вообще, это принципиальный для некоторых вопрос. Для поисковика: чтобы собрать базу, соперничающую с Яндексом, надо скачать либо 20 терабайт (как сейчас получается), либо 60. Разница существенная. 🙂
Евгений, опять на себя намекаете?
Ну да, на себя. 🙂
Данные отсюда: http://www.43n39e.ru/ , почти онлайн 🙂
там гигабайты указаны, то есть не 22209 ГБ, а 22, 209 Гб.