Многие поделились ссылкой на доклад А. Сафронова (Яндекс), где он говорит на 28 минуте, что вся пачка методов LSI-pLSI-LDA не работает (что их сигнал полезен по сравнению с BM25, но имеющееся яндексовое качество не улучшает)
А вот ссылка на другую секунду, где он говорит, что запрос расширяется дополнительными словами (слова тупо добавляются в запрос – это кстати про методы учета синонимов важно) и матчат с документом по всей пачке слов
Смысловое соответствие текстов в ранжировании — Александр Сафронов
По виду это будет вполне похоже на “сеошный LSI” (типа – напихал “хороших” слов – стало лучше), но работать должен не только на ВЧ, но и на НЧ тоже (а когда в прошлый раз с LSI по Акварели я смотрел – не работало, Чекушин говорил в комменариях на ФБ, что для ВЧ только должно работать, так кто ж их на эксперимент даст!)
Но есть еще следствия, кроме рабочести на СЧ и НЧ –
- вся эта штука (в докладе расширение словами) – переранжирование, динамический расчет
- “порядок слов в запросе” не так уж и важен на соответствие документов, на него фапать не надо (ну, с введением релевантности типа all это и так видно было)
- Разные стратегии продвижения однословников, двусловников итд – ересь