почему они все такие – ч. 1

Вот.
Насчет алгоритмов и прочего обучения.
Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки.
Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом.
Но я как-то думаю, что чудесным образом ничего не родится. Вот вам из Гашека:

Однако мне тоже хочется, господа, задать вам одну загадку,— продолжал он.— Стоит четырехэтажный дом, в каждом этаже по восьми окон, на крыше — два слуховых окна и две трубы, в каждом этаже по два квартиранта. А теперь скажите, господа, в каком году умерла у швейцара бабушка?

Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа…
Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам – фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.
…И все это перемножить. ( 🙂 шариковское "и поделить")
…и зохавать в обучение.
…А теперь скажите господа, насколько релевантна страница запросу?
Результат в общем случае – непонятно какой. Естественно, часть параметров более-менее какой-то смысл имеет… Большая часть – никакого. Большая часть – непонятный смысл, типа а вдруг получится.
Ну так и выдача – тоже непонятно какая.
========
Общий мысль вот какой:
Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать – толк будет. И хорошо искать будет.
А если ваши факторы – херня, то вся ваша королевская конница будет решать задачку выше – про бабушку. И искать будет типа так:

— Радий тяжелее олова?
— Я его, извиняюсь, не вешал,— со своей милой улыбкой ответил Швейк.
***
— Не знаете ли вы, какова наибольшая глубина в Тихом океане?
— Этого, извините, не знаю,— послышался ответ,— но думаю, что там наверняка будет глубже, чем под Вышеградской скалой на Влтаве.
***
— Сколько будет, если умножить двенадцать тысяч восемьсот девяносто семь на тринадцать тысяч восемьсот шестьдесят три?
— Семьсот двадцать девять,— не моргнув глазом, ответил Швейк.
— Я думаю, вполне достаточно,— сказал председатель комиссии. — Можете отвести обвиняемого на прежнее место.

Это я все к чему.
К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров – и будешь искать хорошо. Пусть даже новичок.
А то тов. Ашманов говорит – принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет – как у всех. Как у рамблера, который самизнаетегде.
======
Высер еще не закончен, ждите продолжения