Некоторое время назад (то ли год, то ли меньше) сделал я сайтик для экспериментов. Сайтик по определению должен быть “белым”, чтобы жить долго.
Поскольку на сайтике предполагалось иметь много страниц, была введена программная поддержка if-modified-since. Т.е., чтобы лимит на индексацию не забивать старыми страницами, чтобы новые страницы исправно добавлялись.
Сначала Рамблер забрал вообще все и резко, и держит в базе до сих пор. Это 30-35 тыс. специально оборудованных страниц.
А Яндекс – сначала индесировал долго (по 4-5 тыс. в месяц набирал, вдвое дольше Рамблера), так несколько месяцев назад начал выкидывать из базы страницы сайта. То слезло до 3000, теперь уже 1800. Но н еможет вроде Яндекс так хорошо нечеткие дубли выделять, я это точно знаю. Тем более сайт построен так, чтобы кроме самого контента (он состоит из новостей, читабельных и прочая! :)) не было видно никакой обвязки. Практически голый хтмл.
И вычищает их Яндекс!
Вот сижу и думаю – а из-за чего? Сначала думал – из-за низкой цитируемости домена… Это я думал, когда число страниц снизилось до 5000… Теперь 3 – 1.8 тыс… Теперь думаю – либо нечеткие дубликаты научились резать, либо if-modified-since виноват… Опять же, может, дату они чекают? Типа, запрос в прошлое дают и смотрят, скока месяцев инфа не менялась?
Обнулил в базе все отметки о if-modified-since – сайт как будто не проиндексирован Яндексом… Вот и посмотрю, будет ли расти число проиндексированных страниц…