Правильные апдейты Яндекса

Сделал более правильную пробивалку текстовых апдейтов Яндекса: http://tools.promosite.ru/, которая показывает апы и даты, за которые страницы были выложены.

Почему это – правильные апдейты?

Сейчас все пользуются апометром Иванова и SergoZD. Он работает так: берет выдачу Яндекса по максимально широкому запросу (ru|com|info…) с абракадаброй для пробивки кеша, отсортированную по дате. Возможно, еще rd=0 добавляют и еще что-нибудь. Когда в этой выдаче появляется сайт с “новой” датой, считают это апдейтом.

Проблемки возникают следующие. Во-первых, частенько возникают мифические “доапы” (или “перед-апы”). Во-вторых, “Cамая поздняя дата в БД” слишком уж большая бывает – ну нет таких новых документов в обычной базе! Ну нет и все. Вот например: “ап” 25.03.2008 марта, а поздняя дата 22.03.2008.

Отчего это все происходит?

Сначала палю тему. 🙂

В хелпе Яндекса есть оператор date=”YYYYMMDD”, причем есть очень давно. Описан так: “Поиск производится только по страницам, дата которых удовлетворяет заданному условию.”  Дата в данном случае есть HTTP-заголовок Last-modified, убедимся в этом дальше.

Но многие документы отдают неправильный Last-modified, например, если поискать дату в будущем (сейчас 26 марта): date=”20080425″, найдем несколько сайтов. Например, страница на afisha.webrostov.ru – сохраненка не быстророботная. Проверим ее http-хедеры через какой-нибудь сервис – и легко увидим искомую строчку Last-Modified: Mon, 24 Apr 2008 23:00:00 GMT… Ну, дата идет следующим днем – ладно.

Итак, last-modified может неправильно отдаваться. И как раз поэтому в выдаче Яндекса могут быть документы, которые проиндексированы во время Х, а Яндексу кажется, что дата у них позже. В общем, если поискать этим оператором по ближайшему прошлому – быстророботные страницы там будут, но и страницы основного робота – тоже.

Я все думал – откуда в апометре Иванова и SergoZD такая точность даты? Я так думаю, что либо скриптом лезется на “новую” страницу и дергается Last-Modified, либо Яндекс.ХМЛ такую информацию дает, но берет он ее оттуда же. Логично?

Поэтому в алгорим с сортировкой по дате могут закрадываться ошибки именно в виде “случайных” попаданий сайтов, которые кажутся новыми, а проиндексированы давно. Может, подкрутили что-нибудь, и релевантность по запросу “ru” у сайта увеличилась. 🙂 Ну и, конечно, дополнительные обновления есть – число найденных документов по дате колеблется во времени. Не важно, почему.

Только выплыл дополнительно, может, один сайтик, который и попался скрипту, а делается вывод о мегаапдейте. Которого 99% юзеров не заметят, зато заметят 99% сеошников. Вот например: “замечен” апдейт 25.03.2008 04:01:06, которого не было, несколько доапов от 19.03.2008, которых тоже не было (разница в несколько минут = это один и тот же апдейт).

К счастью, большинство сайтов с датой настроены правильно. Итак, как работает мой апометр.

Он перебирает запросы вида date=”YYYYMMDD” от сегодня в прошлое. Пока индексированное в эту дату не выложено – находится порядка 100 говносайтов. А когда при следующей пробивке число сайтов возрастает до 30-50 тысяч, значит, выложили – апдейт, типа. Текстовый апдейт. Заодно бонус: можно точно знать, документы за какие даты выложены, а какие – нет.

Конечно, выдача может меняться, даже если текстового апа не было: например, сайт какой-нибудь забанили-разбанили, фильтр сняли-наложили, ссылочное подкрутили, веса поменяли, алгоритм поменяли, Магадан устроили и т.д.

Подписка на RSS