?
Что-нибудь коротенькое, простенькое и понятное.
Собственно, интересует не фильтрация спама, а работа с вероятностями, условными вероятностями и т.п. в плане классификации.
Указание региона сайта в Яндекс.Вебмастере для тИЦ=0
на серче заметили раньше, чем яндекс объявил. 🙂
интересно, на сколько повысится число сайтов с регионом. Судя по требованию страницы с "подтверждением" отношения сайта к региону, таки модераторы это смотрят.
комплЕксное продвижение
Все просто не туда ударение ставят. 🙂
комплЕксное продвижение – продвижение, у которого есть действительная и мнимая части.
И мнимая очень велика.
нужно пару советов по развитию апометра
апометр развивается: сейчас есть ссылочные и текстовые апдейты, комдир, мониторинг выдачи, мощность изменений по разным классам запросов.
но будет развиваться еще сильнее, а именно:
1. гео.
будут апдейты геопривязки сайтов. частенько при изменении выдачи без индекса оказывается, что прошел геоапдейт. Какие нужны данные – достаточно просто указать, что мол, геоапдейт (они бывают, как правило, в дни текстовых апдейтов, около 4-5 утра).
Методика – контроль числа сайтов и страниц в поиске по региону. Поэтому кроме чисто времени можно выдавать и количественные данные (* на сколько повысилось-понизилось число сайтов).
Оно вам нано? Да, и какие регионы тогда брать?
2. пересчет весов ссылок
бывает и в обычные текстовые апдейты для уже имеющихся старых ссылок. обычно около 4-6 утра.
3. апдейты факторов по общей базе рунета
типа весов слов. тоже бывает в дни текстовых апдейтов, тоже около 4 утра.
также можно довольно точно считать относительные изменения в общем размере базы – типа подросла ли она и насколько.
Обычные методы (типа запросов domain:root) изза прюнинга дают фиговую точность, а прюнинг врубается в полный рост при числе найденного около 20-30 тыс. доменов.
4. относительная мощность ссылочного и текстового по положению НПС
есть запросы, где много НПС. я тут открыл запрос, который позволяет выпячивать НПС )) Можно считать относительное положение НПС-результатов относительно текстовых. (конечно, ранжирование НПС совсем другое, но все равно). Нано?
пацаки обрели свою КЦ
домен кц.рф – для настоящих пацаков! 🙂 (координационный центр, кстати, чо – ТМ "КЦ" зарегал, что ли?)
Раз пошла такая пьянка – сделал (=стырил с phpclasses.org) перекодировщик текстов в пуникод и обратно.
Удобен тем, что берет на вход любой текст, независимо от пробелов и прочих символов. А у всех остальных тырильщиков этого класса берет на вход только одно целое слово без пробелов – неудобно.
И еще генерит таб-делимитед соотвествие слово-перекодировка.
расклейка выдачи яндекса
Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost.
товарищи яндексоиды: расклеивать страницы по запросу rhost – это неправильно и очень плохо. Если я домены по маске хочу найти – мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.
кажется, сеоньюз читать не умеет.
блин, я нигде не "предполагал, что данные операторы могут быть упразднены".
речь шла только про url, а если они криво задали вопрос (типа: спросили у пресс-службы про все операторы скопом), то и ответ неправильный будет.
кроме того, такие вопросы впрямую им вообще не имеет смысла задавать. впервые о сео услышали, что ли?
интересно, как сеоньюз это у себя откомментирует.
пара цифр с точкой – в Яндексе теперь отдельный терм
И да, забыл об одной штуке рассказать.
Я привык раньше все "левые" символы заменять в запросах пробелами. Чтобы не париться. Все равно типа при индексации эти знаки роли не играют, только могут разбивать предложение.
А тут упс: оказалось, что иногда с пробелом не находится то, что в документе с точечкой. И наоборот.
Присмотревшись, обнаружил, что в XML выделяются тегом подсветки hlword иногда не отдельные цифры, а пары X.X. И в выдаче так же – болдом выделяются пары.
например, ищем какой-нибудь 127.0.0.1 – и видим две выделенные пары: [127.0″> и [0.1″>.
У меня из-за этого как-то некошерно работал поиск с датами, с точечкой между цифрами, а ж ее по умолчанию пробелом пишу.
Захотелось проверить, динамически выделяются разные пары (чисто для показа) или нет. Оказалось, нет: на уровне индексации.
Примеры:
"10 10" << url:www.a-a-a.ru/nasos/gnom10.html – находится
"10.10" << url:www.a-a-a.ru/nasos/gnom10.html – нет (точки в документе нет)
в тройке 10.10.2010 выделяются [10.10″> и [2010″>
"10.10 2010" << url:www.kleo.ru/consult/fengshui/questions_4242.shtml – есть – пробел, где идет естественное разбиение
"10 10.2010" << url:www.kleo.ru/consult/fengshui/questions_4242.shtml – нет – пробел, где идет пара цифр.
1.2.3.4.5.6.7.8 – разбиение на пары [1.2″>, [3.4″>, [5.6″>, [7.8″>
Итог: получается, что на этапе индексации пары цифр с точкой объединяются и идут как целые термы в поиске (одна штука).
И так же действует в запросе – тоже пара цифр с точкой ищется как отдельный терм.
Вроде как понятно: хотели искать даты лучше и прочее. Только почему тогда не тройки цифр, а пары? И почему не тире, а только точка? И почему айпишники не по 4 цифры, а по две? И вообще, не помогает это имхо.
А, вот, практические выводы. Если вы продвигаетесь по запросу 127.0.0.1, ставьте ссылки с точными словами 127.0 и 0.1 🙂
XML: новейшие поломки и отключения операторов
Сегодня, кстати, был ссылочный апдейт, который апометр не увидел из-за того, что Яндекс коварно сломал оператор url и вместе с ним host, rhost в XML.
т.е., из выдачи они работают, а из ХМЛ – нет, выдают только обвязку (типа найдено столько-то результатов), а самих результатов не выдают.
Что смешно – в основном ХМЛ используют для поиска внутри сайта, и в примерах приведен оператор host, а тут бац – и он не работает 🙂
Блядь, то понос, то золотуха. Не трогайте свой ХМЛ!
А теперь инсайд 🙂
Я в ХМЛ позвонил, спросить чо ваще, может отключили сознательно. Мне сказали, что нет, сломалось, но сказали, возможно, что скоро оператор url будет закрыт в XML. Человек даже как бе не хотел его поэтому смотреть.
Так что готовьтесь парсить выдачу. Я, правда, не уверен, что именно он сказал – оператор будет закрыт ваще или закрыт только из ХМЛ. Так что и в выдаче могут закрыть.
турецкие асессоры
вакансии асессоров в Яндексе: http://spb.hh.ru/vacancy/2515886
знание английского, казахского (или татарского) языка (владение турецким языком является плюсом);
-чо, казахское и татарское ранжирования надвигаются? И турецкое еще.
белорусское сделали, вот теперь казахское будут ))
Матрикснет, как там: способен узкие темы обрабатывать.
мне, кстати, кто-то на конференциях жаловался про татарский интернет, что-то там с морфологией какие-то сложняки были.