Делаю себе серверный чекер позиций на cron-е. Ну, типа всякие программы есть, и самописный чекер, на perl, но все программы имеют недостаток – их надо запускать! 🙁
Т.е., методично, раз в неделю, но все-таки запускать!!! Это очень лениво. Не знаю, кстати, есть ли у Семонитора запуск по шедьюлу, ну тогда его надо включенным держать…
А тут оно типа само будет работать.
***
Ну и с Яндексом разобрался, начинаю для парсинга Рамблера писать выражения. А оно, сволочь, не работает. Я его и так упрощаю, и сяк – а оно не пашет! В конце только один домен оставил – опять не находит! Хотя я знаю, что сайт по запросу есть…
Ну, оказалось, что Рамблер использует параметр &btnG=Найти! для того, чтобы понять, в какой кодировке ему запрос пришел… И если парамера нет – ищет по какой-то неправильной кодировке, в выдаче по которому, ясное дело, сайта и нет. 🙂
Прикол в том, что на “расширенном поиске” рамблера нижняя кнопочка btnG не подставляет, а верхняя – подставляет! Ну и сначала я на нижнюю нажимал…
Помучался с Рамблером… :(: 15 комментариев
Комментарии запрещены.
У СеМастера по расписанию есть :-Р
Кстати, у меня используется URL без &btnG, и я бы не сказал, что не находит сайты. Можно пример "ненахождения" на мыло admin()semaster.ru?
А почему ты именно в расширенном поиске нажимал на кнопку?
Жень, а не проще использовать http://www.rambler.ru/doc/position.shtml
Во-первых результаты мгновенно выдаются, а во-вторых статистика слов не портится..
Байт, который Web,
>У СеМастера по расписанию есть :-Р
-а семастер бесплатный? 🙂 Ну и, кроме всего прочего, зачем привыкать к новому, когда можно напрограммить? 🙂 Пример – не сохранился, шаблон запроса – как через расширенный поиск с нижней кнопки, делалось через php с мастерхоста. Выдавал поиск по неправильной кодировке.
minaton,
>А почему ты именно в расширенном поиске нажимал на кнопку?
-ну, чтобы выдачу по 50 получить, и при этом сымитировать естественный запрос.
Евгений,
>Жень, а не проще использовать http://www.rambler.ru/doc/position.shtml
-ну, проще, но заповедь "не светись" рулит. 🙂
Рамблер еще ладно, вот msn – действительно крепкий орешек :).
Кстати, у нас свой кроновый проверяльщик работает с мая. Если есть желание – welcome в почту, обменяемся опытом.
Если меня попросить – да 🙂
Эт чем же? Не заметил. Проблема с мсн в том, что он выдает разное число нерекламных позиций…Хотя их число включает в &count
Поэтому дальше первой страницы начнутся расхождения, если пытаться как-то вычислять номер позиции..
Кстати, Жень. А попробуй без этой кнопки передавать в заголовках, отсылаемых Рамблеру Accept-Charset: windows-1251
Байт, который Web,
>А попробуй без этой кнопки передавать в заголовках, отсылаемых Рамблеру Accept-Charset: windows-1251
-я свою проблему решил, если с кнопкой искать – все нормально 🙂 А Accept-Charset передавать функцией file_get_contents(‘http://..’) очень неудобно! 😀
Михаил Корнеев, да я уже сделал, скоро выложу. 🙂
Собственно, выложил: http://promotools.ru/
Жень, что-то форма себя странно ведет себя тут http://promotools.ru/register.php
Сразу пароль спрашивает…
Ага, так было задумано, но чтобы башню не сносило убрал. 🙂 Сначала я просто регистрацию делал без отсылки письма, а сразу в мемберку перекидывал.
кстати друг рамблер амперсанды еще в & переводит в постраничных урлах.
А самый кстати гиморный поисковик с точки зрения написания кода для парсения это Yahoo.
Ага, с амперсандами я тоже сталкивался 🙂
Да нет ни одного "гиморного" поисковика… Всё парсится элементарно.
Учите регулярные выражения, господа сомневающиеся…