И да, забыл об одной штуке рассказать.
Я привык раньше все "левые" символы заменять в запросах пробелами. Чтобы не париться. Все равно типа при индексации эти знаки роли не играют, только могут разбивать предложение.
А тут упс: оказалось, что иногда с пробелом не находится то, что в документе с точечкой. И наоборот.
Присмотревшись, обнаружил, что в XML выделяются тегом подсветки hlword иногда не отдельные цифры, а пары X.X. И в выдаче так же – болдом выделяются пары.
например, ищем какой-нибудь 127.0.0.1 – и видим две выделенные пары: [127.0″> и [0.1″>.
У меня из-за этого как-то некошерно работал поиск с датами, с точечкой между цифрами, а ж ее по умолчанию пробелом пишу.
Захотелось проверить, динамически выделяются разные пары (чисто для показа) или нет. Оказалось, нет: на уровне индексации.
Примеры:
"10 10" << url:www.a-a-a.ru/nasos/gnom10.html – находится
"10.10" << url:www.a-a-a.ru/nasos/gnom10.html – нет (точки в документе нет)
в тройке 10.10.2010 выделяются [10.10″> и [2010″>
"10.10 2010" << url:www.kleo.ru/consult/fengshui/questions_4242.shtml – есть – пробел, где идет естественное разбиение
"10 10.2010" << url:www.kleo.ru/consult/fengshui/questions_4242.shtml – нет – пробел, где идет пара цифр.
1.2.3.4.5.6.7.8 – разбиение на пары [1.2″>, [3.4″>, [5.6″>, [7.8″>
Итог: получается, что на этапе индексации пары цифр с точкой объединяются и идут как целые термы в поиске (одна штука).
И так же действует в запросе – тоже пара цифр с точкой ищется как отдельный терм.
Вроде как понятно: хотели искать даты лучше и прочее. Только почему тогда не тройки цифр, а пары? И почему не тире, а только точка? И почему айпишники не по 4 цифры, а по две? И вообще, не помогает это имхо.
А, вот, практические выводы. Если вы продвигаетесь по запросу 127.0.0.1, ставьте ссылки с точными словами 127.0 и 0.1 🙂