оператор lang="язык" позволяет искать по страницам с присвоенным языком. Я на этом как раз сделал различия в определялке апдейтов буржуйского и русского индекса.
Когда-то языков было шесть, и я думал, что так оно и останется:
Отбирает для поиска страницы, написанные на определенном языке:
* русском (ru)
* украинском (uk)
* белорусском (be)
* английском (en)
* французском (fr)
* немецком (de)
(цитата из копии старой страницы с языком запросов, к слову сказать: новая страница с "памяткой" по языку запросов – УГ, там нет примеров языков и примеров mime документов, а может, и еще чего-то нет).
Но таки их, языков, уже не шесть, а тридцать один. Или больше. Напротив каждого языка стоит число документов, взятое из парсинга первой тыщи результатов по 40 тыс. запросов:
ru 84613923
en 1436073
uk 101924
nl 85928
tr 42446
de 33869
it 21366
es 17899
fr 15524
be 13733
cs 9794
bg 8228
ro 7021
pl 7019
pt 4394
ca 3721
hu 3299
kk 3028
tt 2157
ka 1498
lt 1045
fi 765
lv 645
az 502
et 294
hy 148
ar 132
he 94
sr 89
ba 53
el 43
Запросы пробивались в основном русские – 20 тыс самых популярных по частотности и 18 тыс. отпарсенных из ашмановского сеорейта, тоже ничего себе популярные и в основном коммерческие.
Но тем не менее – английского языка мало, 1.7%, а в сумме число документов с нерусским языком – 2.1%. Это документы, которые встречались в выдаче при пробивке.
Конечно, если искать оператором lang="", будут другие числа, больше. Это может означать, что нерусские документы в русской выдаче давятся, что, конечно, логично.
Таки языков много. А нам и не сообщили.