Только что буквально я страдал по поводу постепенного выкидывания одного сайта на 35 тыс. страниц из базы Яндекса… То было 5, потом 3, потом 1.8 тысяч…
А этот сайт умеет заголовки if-modified-since обрабатывать. И на проиндексированные каждым поисковиком страницы он выдает 304 Not Modified – когда надо.
Короче, я взял – обнулил отметки об индексации. Типа начнем сначала. Позавчера уже было 9300 страниц в базе Яндекса.
Сейчас 22.5 тысячи уже. 🙂
Что же это получается? Яндексовский быстроробот как быстро индексирует, так и быстро забывает? 🙂 Не любит он, видно, необновляемые страницы.
PS Рамблер нормально держит все страницы в базе всю дорогу.
Кстати, именно постепенное выкидывание Яндексом страниц может означать именно то, что есть некая дата, до которой страница живет… Ибо сайт новостной – на нем страницы все время появляются… И многие, видимо, устаревают.
PPS Единственно, что при поиске по этому сайту в Яндексе – сплошные “Abort trap”-ы. Быстроробот еще и неаккуратен. 🙂
Рубрика: SEO и поисковики
Яндекс: if-modified-since виноват или дубликаты?
Некоторое время назад (то ли год, то ли меньше) сделал я сайтик для экспериментов. Сайтик по определению должен быть “белым”, чтобы жить долго.
Поскольку на сайтике предполагалось иметь много страниц, была введена программная поддержка if-modified-since. Т.е., чтобы лимит на индексацию не забивать старыми страницами, чтобы новые страницы исправно добавлялись.
Сначала Рамблер забрал вообще все и резко, и держит в базе до сих пор. Это 30-35 тыс. специально оборудованных страниц.
А Яндекс – сначала индесировал долго (по 4-5 тыс. в месяц набирал, вдвое дольше Рамблера), так несколько месяцев назад начал выкидывать из базы страницы сайта. То слезло до 3000, теперь уже 1800. Но н еможет вроде Яндекс так хорошо нечеткие дубли выделять, я это точно знаю. Тем более сайт построен так, чтобы кроме самого контента (он состоит из новостей, читабельных и прочая! :)) не было видно никакой обвязки. Практически голый хтмл.
И вычищает их Яндекс!
Вот сижу и думаю – а из-за чего? Сначала думал – из-за низкой цитируемости домена… Это я думал, когда число страниц снизилось до 5000… Теперь 3 – 1.8 тыс… Теперь думаю – либо нечеткие дубликаты научились резать, либо if-modified-since виноват… Опять же, может, дату они чекают? Типа, запрос в прошлое дают и смотрят, скока месяцев инфа не менялась?
Обнулил в базе все отметки о if-modified-since – сайт как будто не проиндексирован Яндексом… Вот и посмотрю, будет ли расти число проиндексированных страниц…
думаю – какой доклад подать…
На конференцию будущую – optimization.ru…
Идеи, в общем, три:
1) посчитать что-то по графу ссылок Яндекса, про имитацию ссылочной структуры нормального инета, средние параметры сайтов разных групп, выделению колец. Но тут слушателей можно перегрузить…
2) продолжить тему магазинов – методы эффективного собирания трафа и проч., но приплести реальную статистику за большой срок. И по ней что-нибудь посчитать, типа как зависит число просмотров от “типа” запроса и лэндинг-страницы, и т.п.
3) продолжить тему экспериментов по вычислению всяких закономерностей с текстовой релевантностью Я, Р, G. Благо эксперименталный сайтик уже давно готов и стоит. ждет своего часа. 🙂
***
советы есть?
Перевод рекламы Яндекса на клики
Вроде как Яндекс разослал письма о переводе всей “показушной” 🙂 рекламы на клики по механизму Директа. С 1 ноября прекращают принимать заказы на “показы”. Место в середине выдачи исчезнет, а
…самые “лучшие” блоки Директа смогут показываться на месте Спецразмещения. Причем, как и в целом по Директу, чем более реклама интересна пользователям (и выше CTR), тем ниже ставка, необходимая для показа на самом лучшем месте – в Спецразмещении…
-ну, тут понятно, произведение CTR на ставку за клик пропорционально скорости отдачи бабла системе. И те, кто платит больше, попадут в спецразмещение.
Только я не понимаю, почему бы так агентствам и не сказать – мол, ранжируют по произведению ставки на CTR, как у Гугля. Отделываются какими-то потустороннми фразами… чем ниже, тем выше… 🙂
Интересно также, как будут решать проблему с повышением кликабельности при попадании в Спецразмещение. Вероятно, будут по чуть-чуть замешивать топовые объявления туда.
Также порадовало:
Директ весьма экономен – на сегодня средняя ставка в системе составляет $0.5 за переход
-средняя температура по больнице. 🙂
Кстати, еще интересно – как считали: усреднили все ставки, включая практически непоказываемые объявления, или посчитали по сделанным реально переходам за период? Что-то мне подсказывает – первое. 🙂
***
Жуть что начнется. Это раньше агентства не бились за Директ – им же прОцентов не давали. Щас как все ставки взлетят… А еще вот почему: предлагается “автоматически перевести” свои показушные кампании на Директ. С автоматическим же пересчетом – сколько ты раньше реально платил за юзера, столько и поставят ставку за клик.
Так и так клик был дорогой, но раньше этих кликов было мало и незаметно. А теперь найдутся какие-нибудь заброшенные кампании с низким CTR, да как переведут их – и при цене за клик высокой объявление взлетит вверх… Да и выгорит.
Бывала ли у вас такая пессимизация, …
… в Яндексе, при которой сайт выдается по высокочастотникам нормально, однако общий траф падает раза в два?
пессимизация в Яндексе
Как читается в письме от Яндекса, опубликованном на сайте Н.Попкова,
В силу того, что Яндекс не может корректно отранжировать страницы вашего сайта и сайтов, цитируемых вашим, по многим поисковым запросам, мы вынуждены временно игнорировать ссылки на сайт _адрес_сайта_.
-именно НЕ просто обнуление ИЦов, тИЦов и прочая, а именно неучет ссылок вообще, со ссылочным ранжированием вместе.
Иначе сайты бы просто не стали падать. 🙂 А на форуме ньюбы пишут – обнуление тИЦ, мол! 🙂
как они меряются…
alexmoskalyuk, ныне работающий в Яху:
http://www.livejournal.com/users/alexmoskalyuk/359533.html
В течение семи лет они [google, прим. euhenio] гордо показывали общее количество проиндексированных страниц в своем индексе, чем быстро завоевывали авторитет пользователей, так как искать в индексе с несколькими миллиардами страниц было на порядок интересней, чем в каком-то там WebCralwere, который проиндексировал двадцать две страницы.
Так вот, не далее чем в августе мой тогда еще не работодатель обьявил об увеличении индекса до 20 миллиардов документов в целом (т.е. учитывались и документы, и картинки).
-вот ведь пидманули. 🙂 Никто, видимо, не вчитался, чего именно у них там 20 миллиардов, документов и-или картинок, и
И вот сегодня достойный официальный ответ от Google получен – Google говорит, что эта игра ему надоела, они забирают свой грузовик (т.е. индикатор обьема индекса) и вообще уходят из песочницы. Но чтобы все знали – именно они в этой игре победили, хотя счет тоже никому не скажут.
Как преодолеть фобии клиента…
Как преодолеть фобии клиента, связанные с агентством
http://www.marketing-ua.com/printpage.php?articleId=297
Обсуждаются всякие проблемы, могущие возникнуть при обращении за рекламой в чужое агентство.
может ли тег [noindex] быть причиной бана?
Народ считает, что может, и Андрей Иванов верит.
Вообще-то, тег NOINDEX – практически тег для легального клоакинга. 🙂 Рамблер с Яндексом его сами ввели… Для того, чтобы владелец сайта закрывал то, что, по его мнению, не надо индексировать…
Но я как-то слабо верю, что он может быть причиной бана… Проще его перестать учитывать и об этом объявить… Все равно никто, кроме оптимизаторов, его не использует.
🙂
google blog search
Сегодня Google запустил бета-версию поиска по блогам, который доступен по следующим адресам: http://google.com/blogsearch и http://search.blogger.com.
Данный сервис позволяет производить поиск по блогам, а также по файлам формата RSS и XML. По сравнению с обычным поиском Google Blog Search значительно чаще индексирует информацию, что позволит находить сообщения, которые были написаны несколько часов назад.
Функция расширенного поиска позволяет ограничить диапазон поиска временными рамками, задать сервер и автора, по которым будет производиться поиск. Кроме этого можно задать язык сообщения, которое нужно найти. Также разработчиками заявлена поддержка многоязыкового интерфейса. Пользователи уже сейчас могут пользоваться русскоязычной его версией, а украинский интерфейс хоть и присутствует в списке, но на данный момент еще не реализован.
Из полезных «фишек» стоит отметить подсказку «related blogs», а также возможность получать данные по выбранному запросу в формате Atom или RSS (10 или 100 результатов).
от itua.info