Документы в Яндексе – размеры

В http://company.yandex.ru/ написано:

В поиске Яндекса сегодня
сайтов: 2 533 866,
веб-страниц: 875 760 238,
объем проиндексированной
информации: 22 538 ГБ.

Когда-то я подбивал статистику по средним параметрам страниц в рунете, сравнивал ее с разными данными – вроде все отлично сходилось. По этой статистике получалось, что текста в html-документе в среднем 6 кБ, а вместе с кодом – 17 кБ. Вряд ли статстика принципиально изменилась…
Берем 17000, умножаем на 875760238 – получаем 13.54 ТБ.
Берем 6000, умножаем на 875760238 – получаем 4.78 ТБ.
***
А у Яндекса написано, что объем проиндексированной информации – 22.5 ТБ. Нестыковочка.
Я вот всегда считал, что проиндексированная информация – это типа тексты страницы. А весь скачанный код – не хранится.

Неужели проиндексированное по-Яндексовски – это скачанное?

PS И даже так, что если скачано 22.5 ТБ – то неужели средний размер страницы почти в 2 раза увеличился?

Документы в Яндексе – размеры: 12 комментариев

  1. И даже так, что если скачано 22.5 ТБ – то неужели средний размер страницы почти в 2 раза увеличился?

    Что касается картинок – то Яндекс ведь их индексирует. Часто бывает в поиске по картинкам что в выдаче картинка есть (в индексе), а по ссылке ее уже нет. Это не индексация?

    Помимо всего прочего, Яндекс индексирует еще и DOC, RTF, PDF и тому подобные типы файлов, которые крайне редко попадаются в выдаче. И весят они немало, и имеются на любом мало-маськи коммерческом сайте (договора, прайсы, и прочее).

    Также, не стоит забывать о CSS и JS. Что из них Яндекс индексирует, а что нет – судить не мне. Но если пытаться объяснить цифру в 22 ТБ…

  2. Давайте различать "скачивает" и "индексирует". 🙂 В случае с картинками поиск идет по текстам около картинки и ее имени… Это все берется из хтмл.
    Форматов doc и т.п. – мало файлов просто. http://www.yandex.ru/yandsearch?ras=1&date=&text=РјС‹&spcctx=notfar&zone=all&link to=&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=3&to_ month=5&to_year=2006&mime=pdf&Link=&rstr=&site=&numdoc=10&ds=
    – поиск слова "мы" по формату PDF – 192 тыс. документов, по DOC – 120 тыс. Меньше 1/1000 от html! 🙂

  3. У меня получается средний размер документа чуть более 26,2К, что в итоге даёт чуть менее 21,4 ТБ. Это индексируя текст, html, xml, pdf, doc, xls, ppt, swf, rtf
    Так что всё правильно у Яндекса посчитано, он примерно тот же набор типов файлов индексирует 🙂

  4. Вероятно, имеется в виду объем всего индекса, а там информация представлена в каком-то другом виде. Разумеется, структура данных индекса подразумевает использование чрезмерной, дублирующей информации для ускорения опрераций – это нормально.

    К примеру: в форумах в таблице с темами часто хранится количество сообщений в теме – это избыточная информация, поскольку это число можно считать "на лету". Но так получается быстрее.

  5. wayfarer, ну да, ежу понятно, что скачивает. Но "индексированное" на мой взгляд, это нечто другое.
    Maxime, в принципе, ближе к делу, но только брутто-документ в 3 раза тяжелее нетто-документа. А откуда данные статистики? Опубликованы?

    Вообще, это принципиальный для некоторых вопрос. Для поисковика: чтобы собрать базу, соперничающую с Яндексом, надо скачать либо 20 терабайт (как сейчас получается), либо 60. Разница существенная. 🙂

  6. Вообще, это принципиальный для некоторых вопрос

    Евгений, опять на себя намекаете?

Комментарии запрещены.