Помучался с Рамблером… :(

Делаю себе серверный чекер позиций на cron-е. Ну, типа всякие программы есть, и самописный чекер, на perl, но все программы имеют недостаток – их надо запускать! 🙁
Т.е., методично, раз в неделю, но все-таки запускать!!! Это очень лениво. Не знаю, кстати, есть ли у Семонитора запуск по шедьюлу, ну тогда его надо включенным держать…
А тут оно типа само будет работать.
***
Ну и с Яндексом разобрался, начинаю для парсинга Рамблера писать выражения. А оно, сволочь, не работает. Я его и так упрощаю, и сяк – а оно не пашет! В конце только один домен оставил – опять не находит! Хотя я знаю, что сайт по запросу есть…
Ну, оказалось, что Рамблер использует параметр &btnG=Найти! для того, чтобы понять, в какой кодировке ему запрос пришел… И если парамера нет – ищет по какой-то неправильной кодировке, в выдаче по которому, ясное дело, сайта и нет. 🙂
Прикол в том, что на “расширенном поиске” рамблера нижняя кнопочка btnG не подставляет, а верхняя – подставляет! Ну и сначала я на нижнюю нажимал…

Помучался с Рамблером… :(: 15 комментариев

  1. У СеМастера по расписанию есть :-Р

    Кстати, у меня используется URL без &btnG, и я бы не сказал, что не находит сайты. Можно пример "ненахождения" на мыло admin()semaster.ru?

  2. Байт, который Web,
    >У СеМастера по расписанию есть :-Р
    -а семастер бесплатный? 🙂 Ну и, кроме всего прочего, зачем привыкать к новому, когда можно напрограммить? 🙂 Пример – не сохранился, шаблон запроса – как через расширенный поиск с нижней кнопки, делалось через php с мастерхоста. Выдавал поиск по неправильной кодировке.
    minaton,
    >А почему ты именно в расширенном поиске нажимал на кнопку?
    -ну, чтобы выдачу по 50 получить, и при этом сымитировать естественный запрос.
    Евгений,
    >Жень, а не проще использовать http://www.rambler.ru/doc/position.shtml
    -ну, проще, но заповедь "не светись" рулит. 🙂

  3. Рамблер еще ладно, вот msn – действительно крепкий орешек :).
    Кстати, у нас свой кроновый проверяльщик работает с мая. Если есть желание – welcome в почту, обменяемся опытом.

  4. семастер бесплатный?

    Если меня попросить – да 🙂

    Рамблер еще ладно, вот msn – действительно крепкий орешек

    Эт чем же? Не заметил. Проблема с мсн в том, что он выдает разное число нерекламных позиций…Хотя их число включает в &count
    Поэтому дальше первой страницы начнутся расхождения, если пытаться как-то вычислять номер позиции..

  5. Кстати, Жень. А попробуй без этой кнопки передавать в заголовках, отсылаемых Рамблеру Accept-Charset: windows-1251

  6. Байт, который Web,
    >А попробуй без этой кнопки передавать в заголовках, отсылаемых Рамблеру Accept-Charset: windows-1251
    -я свою проблему решил, если с кнопкой искать – все нормально 🙂 А Accept-Charset передавать функцией file_get_contents(‘http://..’) очень неудобно! 😀

  7. Ага, так было задумано, но чтобы башню не сносило убрал. 🙂 Сначала я просто регистрацию делал без отсылки письма, а сразу в мемберку перекидывал.

  8. кстати друг рамблер амперсанды еще в &amp переводит в постраничных урлах.

    А самый кстати гиморный поисковик с точки зрения написания кода для парсения это Yahoo.

  9. Да нет ни одного "гиморного" поисковика… Всё парсится элементарно.
    Учите регулярные выражения, господа сомневающиеся…

Комментарии запрещены.