Документы в Яндексе – размеры

В поиске Яндекса сегодня
сайтов: 2 533 866,
веб-страниц: 875 760 238,
объем проиндексированной
информации: 22 538 ГБ.

Когда-то я подбивал статистику по средним параметрам страниц в рунете, сравнивал ее с разными данными – вроде все отлично сходилось. По этой статистике получалось, что текста в html-документе в среднем 6 кБ, а вместе с кодом – 17 кБ. Вряд ли статстика принципиально изменилась…
Берем 17000, умножаем на 875760238 – получаем 13.54 ТБ.
Берем 6000, умножаем на 875760238 – получаем 4.78 ТБ.
***
А у Яндекса написано, что объем проиндексированной информации – 22.5 ТБ. Нестыковочка.
Я вот всегда считал, что проиндексированная информация – это типа тексты страницы. А весь скачанный код – не хранится.

Неужели проиндексированное по-Яндексовски – это скачанное?

PS И даже так, что если скачано 22.5 ТБ – то неужели средний размер страницы почти в 2 раза увеличился?

Документы в Яндексе – размеры: 12 комментариев

wayfarer:

03.05.2006 в 18:49

картинки тоже инфа
Евгений Трофименко:

03.05.2006 в 19:25

>тоже инфа
-и тоже индексируются, конечно???
Гарик "refuzZer":

03.05.2006 в 20:10

И даже так, что если скачано 22.5 ТБ – то неужели средний размер страницы почти в 2 раза увеличился?

Что касается картинок – то Яндекс ведь их индексирует. Часто бывает в поиске по картинкам что в выдаче картинка есть (в индексе), а по ссылке ее уже нет. Это не индексация?

Помимо всего прочего, Яндекс индексирует еще и DOC, RTF, PDF и тому подобные типы файлов, которые крайне редко попадаются в выдаче. И весят они немало, и имеются на любом мало-маськи коммерческом сайте (договора, прайсы, и прочее).

Также, не стоит забывать о CSS и JS. Что из них Яндекс индексирует, а что нет – судить не мне. Но если пытаться объяснить цифру в 22 ТБ…
Евгений Трофименко:

03.05.2006 в 21:09

Давайте различать "скачивает" и "индексирует". 🙂 В случае с картинками поиск идет по текстам около картинки и ее имени… Это все берется из хтмл.
Форматов doc и т.п. – мало файлов просто. http://www.yandex.ru/yandsearch?ras=1&date=&text=РјС‹&spcctx=notfar&zone=all&link to=&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=3&to_ month=5&to_year=2006&mime=pdf&Link=&rstr=&site=&numdoc=10&ds=
– поиск слова "мы" по формату PDF – 192 тыс. документов, по DOC – 120 тыс. Меньше 1/1000 от html! 🙂
Maxime:

04.05.2006 в 01:26

У меня получается средний размер документа чуть более 26,2К, что в итоге даёт чуть менее 21,4 ТБ. Это индексируя текст, html, xml, pdf, doc, xls, ppt, swf, rtf
Так что всё правильно у Яндекса посчитано, он примерно тот же набор типов файлов индексирует 🙂
wayfarer:

04.05.2006 в 11:02

-и тоже индексируются, конечно???

<img src="http://im2-tub.yandex.ru/i?id=7056878
картинки скачивает
Бондарев Александр:

04.05.2006 в 12:34

Вероятно, имеется в виду объем всего индекса, а там информация представлена в каком-то другом виде. Разумеется, структура данных индекса подразумевает использование чрезмерной, дублирующей информации для ускорения опрераций – это нормально.

К примеру: в форумах в таблице с темами часто хранится количество сообщений в теме – это избыточная информация, поскольку это число можно считать "на лету". Но так получается быстрее.
Евгений Трофименко:

04.05.2006 в 12:43

wayfarer, ну да, ежу понятно, что скачивает. Но "индексированное" на мой взгляд, это нечто другое.
Maxime, в принципе, ближе к делу, но только брутто-документ в 3 раза тяжелее нетто-документа. А откуда данные статистики? Опубликованы?

Вообще, это принципиальный для некоторых вопрос. Для поисковика: чтобы собрать базу, соперничающую с Яндексом, надо скачать либо 20 терабайт (как сейчас получается), либо 60. Разница существенная. 🙂
lermont.ru:

04.05.2006 в 15:01

Вообще, это принципиальный для некоторых вопрос

Евгений, опять на себя намекаете?
Евгений Трофименко:

04.05.2006 в 16:02

Ну да, на себя. 🙂
Maxime:

04.05.2006 в 16:35

Данные отсюда: http://www.43n39e.ru/ , почти онлайн 🙂
pelvis:

25.05.2006 в 03:48

Данные отсюда: http://www.43n39e.ru/ , почти онлайн 🙂

там гигабайты указаны, то есть не 22209 ГБ, а 22, 209 Гб.

Комментарии запрещены.

Март 2026
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Фев
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31