Некоторое время назад (то ли год, то ли меньше) сделал я сайтик для экспериментов. Сайтик по определению должен быть “белым”, чтобы жить долго.
Поскольку на сайтике предполагалось иметь много страниц, была введена программная поддержка if-modified-since. Т.е., чтобы лимит на индексацию не забивать старыми страницами, чтобы новые страницы исправно добавлялись.
Сначала Рамблер забрал вообще все и резко, и держит в базе до сих пор. Это 30-35 тыс. специально оборудованных страниц.
А Яндекс – сначала индесировал долго (по 4-5 тыс. в месяц набирал, вдвое дольше Рамблера), так несколько месяцев назад начал выкидывать из базы страницы сайта. То слезло до 3000, теперь уже 1800. Но н еможет вроде Яндекс так хорошо нечеткие дубли выделять, я это точно знаю. Тем более сайт построен так, чтобы кроме самого контента (он состоит из новостей, читабельных и прочая! :)) не было видно никакой обвязки. Практически голый хтмл.
И вычищает их Яндекс!
Вот сижу и думаю – а из-за чего? Сначала думал – из-за низкой цитируемости домена… Это я думал, когда число страниц снизилось до 5000… Теперь 3 – 1.8 тыс… Теперь думаю – либо нечеткие дубликаты научились резать, либо if-modified-since виноват… Опять же, может, дату они чекают? Типа, запрос в прошлое дают и смотрят, скока месяцев инфа не менялась?
Обнулил в базе все отметки о if-modified-since – сайт как будто не проиндексирован Яндексом… Вот и посмотрю, будет ли расти число проиндексированных страниц…
Яндекс: if-modified-since виноват или дубликаты?: 6 комментариев
Комментарии запрещены.
А отрывок из обращения Сегаловича и пр. к степендиатам Яндекса в этом случае не подходит:
Количество выбираемых с сайта документов должно зависеть от размера сайта; при росте размера сайта его абсолютное значение должно расти, а доля документов – падать. Т.е. функция должна вести себя примерно так:
• с сайта размером в 100 документов берется 10 образцов,
• c сайта размером в 1000 документов берется 50 образцов,
• c сайта размером в 10000 документов берется 200 образцов
• и т.д.
Кстати у них вроде бы весной существенно улучшилась давка нечетких дублей. Причем похоже, что процедура требовала определенного времени.
ONO, о чем ты? Какое обращение Сегаловича? 🙂
Если ты про выборку представительной коллекции документов веба (для исследований), то к индексации обычных сайтов оно не должно никак относиться.
Бля!
Сейчас проиндексированных Яндексом страниц на этом сайте – 9300. После того, как я удалил инфу о времени индексации и правильный ответ на if-modified-since исчез, все страницы отдают 200 ОК.
Это при том, что довольно долго падало число страниц в Я – то 5, то 3, то 1.8 тыс. То ли глюки в обработке, то ли так и задумано…
Знаешь, Женька, я уже из-за этого 2 месяца назад убрал вообще со всех сайтов 304. Те же самые наблюдения. Те же результаты. Только у меня это на паблиш-сайтах, а не на экспериментальных.
Alexander Kirillin, а тем временем на этом сайте 9300 проиндексированных страниц из ~40 000. Это, конечно. лучше, чем 3000. 🙂