Имеем 2 тенденции:
1) Рост мощностей железа при тех же ценах и удешевление нынешнего. Трафик тоже должен дешеветь. Поэтому поисковики будут более производительными и войти новичку станет легче.
2) Засирание интернета всякими текстами. Кучи разных онлайн-дневников, новостных сайтов, партнерок, клонов магазинов, хомяков, сервисов, форумов и т.п. Дорвеев в том числе. Объем информации увеличивается непомерно.
Вопрос, что происходит быстрее? Мне кажется, засирание интернета текстами идет гораздо быстрее. Что из этого будет следовать?
Что поисковик в будущем не только не сможет заиндексировать все, но и ему будет ненужно индексировать все – потому, что 90% “всего” – натуральный мусор.
Или, если сказать по-другому: на каждый доллар, вложенный в индексацию (в железо и траф) имеем некую удельную отдачу (которая проявляется в качестве поиска и лояльности пользователей, например). При индексации “всего, что в рот полезло”, эта отдача будет уменьшаться, поскольку:
* чем дальше, тем больше мусора
* чем дальше, тем больше дублирования информации.
В этом случае на первый план выходит умение поисковика отличать качественную инфу от говна.
Яндексу пока все равно – Рунет маленький. А вот по Гуглу заметно – начал нос воротить от некоторых сайтов и уже давно. Внутрь сайта без ссылок не пойдет… Страницы потеряет…
***
Так эту ситуацию можно “экстраполировать наоборот” – и будет вывод, что для создания качественного поисковика совсем не обязательно индексировать всё. Или, по-другому: сокращение объема индекса на 90% может ухудшить поиск на 10%…
Этакий маркетинговый подход к созданию поисковиков…
В продолжение.
Поэтому уже давно появляются и развиваются специализированные поисковики, которые ищут только по сайтам определенных тематик.
Проблема:
определение что есть качественная инфа.
Если с дублированной инфой еще можно справиться, то определять индексировать ли (гипотетический пример) творения современного "Пушкина" или какого-нибудь "Сорокина" без участия человека, да даже и с участием очень тяжело.
Брать за основу ссылки (или как в научном мире цитирования) тоже не выход. Можно привести примеры, которые приводил О`Рейли про книги, можно просто самому догадаться, что если работа не известна, то цитирования нет, если нет цитирования, то нет известности – круг замкнулся. Не все авторы наделены маркетинговыми способностями, чтобы помочь своей работе найти своего читателя, а инфа может быть очень ценной.
Цензура – это естественное явление для систем, которые не в состоянии сами справиться с обработкой (восприятием, переработкой, донесением) данных?
Но пользователям то ведь важнее у кого больше охват. Поэтому гугл так популярен. Так что лучше скушать все что есть (железо дешевое) и поработать над ранживаронием, чем терять посетителей…
>Но пользователям то ведь важнее у кого больше охват.
-с какого потолка взято? 🙂
с потолка популярности гугли 🙂 для простых пользователей инета большие цифры всегда завлекательны 😉
minaton, т.е., по собственному вниманию к цифиркам? Так не надо за "всех простых пользователей инета" говорить. 🙂
Если бы они тоже так думали и делали, то не просматривали бы полторы страницы выдачи на рыло. А просматривали бы все N.
Это только у владельцев поисковиков инфа есть, по каким запросам результатов находится очень мало (10 штук и меньше), и сколько такие запросы в общем потоке составляют. По-моему – составляют очень много, и поэтому уже полнота важна.
А вообще все что ты изложил – это не о будущем, а о настоящем. Сегалович вон на конференции осенней один в один то что у тебя написано рассказывал.
Так это теорема Паретто 80/20. В 20% мест находится 80% информации.
ИМХО, чтобы грязи в инете было меньше, надо больше продвигать специальные сервисы, типа яндекс.маркет, рамблер.покупки… Еще что-то придумать. Чтобы в результате, 99.9 процентов людей чтобы купить машину не лезло в простой поисковик, а шло на специальные (модерируемые, платные для рекламодателей) сервисы. В этом случае, не будет смысла строчить дорвеи, клонировать магазины… Но перспективы этого и мне кажутся весьма туманными.
возможно и так, хотя это спорный вопрос… только вот очень скоро этого охвата будет выше крыши… простому человеку реально не нужно больше 100 ресурсов об одном и том же – пусть даже разными словами.. иначе теряется просто смылс в поиске информации