Яндексоиды: LSI – нет, но расширение запроса – да

Многие поделились ссылкой на доклад А. Сафронова (Яндекс), где он говорит на 28 минуте, что вся пачка методов LSI-pLSI-LDA не работает (что их сигнал полезен по сравнению с BM25, но имеющееся яндексовое качество не улучшает)

А вот ссылка на другую секунду, где он говорит, что запрос расширяется дополнительными словами (слова тупо добавляются в запрос – это кстати про методы учета синонимов важно) и матчат с документом по всей пачке слов

Смысловое соответствие текстов в ранжировании — Александр Сафронов

По виду это будет вполне похоже на “сеошный LSI” (типа – напихал “хороших” слов – стало лучше), но работать должен не только на ВЧ, но и на НЧ тоже (а когда в прошлый раз с LSI по Акварели я смотрел – не работало, Чекушин говорил в комменариях на ФБ, что для ВЧ только должно работать, так кто ж их на эксперимент даст!)

Но есть еще следствия, кроме рабочести на СЧ и НЧ –

  1. вся эта штука (в докладе расширение словами) – переранжирование, динамический расчет
  2. “порядок слов в запросе”  не так уж и важен на соответствие документов, на него фапать не надо (ну, с введением релевантности типа all это и так видно было)
  3. Разные стратегии продвижения однословников, двусловников итд – ересь

второй seo-эльбрус c 26 июля 2017 по примерно 6 авг

сделал мероприятие про seo-эльбрус c 26 июля 2017 по примерно 6 авг

https://www.facebook.com/events/1874173236153945/

если не получается добавиться, пишите в комменты или личку, я добавлю!
изначальных желающих достаточно, т.е поход состоится
но бесконечных вакансий у нас нет, если вы позже впишетесь, то м.б понадобится достать палатку, горелки, клаву

сегодня с ночи проблемы с определением IP у Яндекса, ахтунг (косяк с доменом xmlsearch.yandex.ru)

Если что, мне всю ночь приходили на почту отлупы от Яндекс.XML – типа мой IP не совпадает с разрешенным. Вот почта от моей мониторилки – там написан реальный ip исходящий реальный и неправильный, который определился яндексом:

Типа ip не входит в список разрешенных.

Ну, я такой написал в Яндекс.

Потом подумал – и написал в фаствпс

делаю исходящие запросы к яндексу с ip ***
и *** (Яндекс.xml и internet.yandex.ru)

запросы яндексом определяются случайным образом как от ip 52.28.144.83 и 2a05:d014:484:fd80::3:4

с чем это может быть связано?

а вот ответ fastvps, хотя им и понадобилось повтыкать, но ответ от Яндекса пришел позже (ёпт, я первым делом написал им), а решили проблему первыми фаствпс:

Судя по всему, часть серверов Яндекса настроены некорректно и выдаёт неправильную информацию. Относится это к серверам, расположенным в Ирландии.
Поменяли на Вашем сервере nameserver’a, указав для использования сервера Google, они резолвят домен Яндекса на российские сервера. Проверьте, пожалуйста, сейчас информация должна быть корректной.

Respectfully, Aleksandr Ivanov

вот FastVPS (осторожно, рефка, я только сейчас ее под это дело и создал), у меня там сервер ровно с тех пор, как там на сервисах был ip 188.40.80.134, а это лет восемь как мне кажется, я историю ip не смотрел

А после того приходит от яндекса – вы такие типа ваще у кого?

Ну, я им тоже прорекламировал, сказал что вот пока вы телитесь они уже проблему решили 🙂

Но вы понимаете, что для вас все это не решили, это вам самим надо решать, ну тут как повезет – смотря в какой Ирландии оказался тот сервер, что вам отвечает

PS

Оказалось, что косяки именно с доменом xmlsearch.yandex.ru, ip от него показывают в Германию, и германский сервер определяет мой IP неправильно

А если пользоваться рекомендованным урлом для отправки XML запроса https://yandex.ru/search/xml? – то все ок, домен yandex.ru

Сбербанк пришел на конкурсы Kaggle

https://www.kaggle.com/c/sberbank-russian-housing-market

Competition Launch: Can you predict realty prices in Russia’s volatile economy?

Yesterday we launched the Sberbank Russian Housing Market competition. In this challenge, Sberbank is turning to the Kaggle community for help in predicting realty prices. Even though Russia’s housing market is stable, property prices fluctuate in the country’s unstable economy.

как найти нормальные списки прокси :)

  1. на VDS создаем прокси на стандартном порту (8080, 3128, ..)
  2. люди сканируют сеть и находят его, еще можно с этим прокси зайти на десяток proxy judge (ищем по имени файла azenv.php)
  3. дожидаемся, когда через тебя начнут массово спамить (+неделя)
  4. гуглим свой ip с портом – находим, куда утекло

https://baybilisim.com/kategori/proxy/
https://orcinustech.com/web-tools/proxy-lists.php
https://crackingspot.com/forums/proxy-dumps.185/
http://www.ip002.net/free.html
http://proxyape.com/
http://free-proxy.pw/
https://serfmoney.ru/category/proxy/
https://freevpn.ninja/free-proxy
http://proxyservers.pro/proxy
https://premproxy.com/ru/proxy/
http://memoryhackers.net/forum-guncel-proxyler.mh
http://guncelproxy.com/category/guncel-proxy
http://www.proxylists.ga/
http://www.forumsohbeti.com/g-ncel-proxy-listeleri/
http://newfreshproxies-24.blogspot.ru/
http://proxylist-update.blogspot.ru/
http://proxyserverlist-24.blogspot.ru/

яндекс отдает движок своей вики

ну, если кто знаток, может пытаться найти дырки, конечно…

https://yandex.ru/support/connect-wiki/index.html

Пишут, что весь комплекс решений тут https://connect.yandex.ru/portal/home – только меня туда не пускают – я не тот пользователь )

node.js бьет бинарные данные, картинки при скачивании-отправке по http из-за кодировки по умолчанию

Ссуки разработчики node.js…

Короче, пишу свой прокси-сервер на node.js (это все равно пригодится, но и просто прокси свое применение имеет, Стас мне давно тему спалил, интересно, живо ли это еще 🙂 )

Прокси на основе методов типа .pipe() мне не подходит – мне надо полные данные через себя пропускать, а так они мимо пройдут. Мне надо скачать данные полностью, обработать и потом отправить.

Написал прокси на сокетах на основе примеров – бьет картинки (скачиваются данные другой длины, чем content-length, причем для маленьких картинок разница меньше, для больших больше)

Переписал на модуле http – все равно бьет, видимость проблемы та же.

Долго ебался, нигде ничего нет про такую проблему…

Причина – что весь ввод-вывод и с сокетами, и с http – имеет указание кодировки, и даже если ты ее не указываешь (опциональный параметр), там внутри есть какая-то кодировка по умолчанию, и она по умолчанию что-то делает, сука!

То есть, все картинки этой кодировкой обрабатываются как-то и портятся. И это отдельный вопрос, что за хуйня – одна кодировка? Тогда должно быть две – кодировка до и после.

Как лечить проблему с кодировкой node.js

Ставим кодировку ‘binary’ – если скачиваем, то до получения данных надо писать что-то вида

var req = http.request(options, function (res) {

res.setEncoding('binary');

А когда отправляешь картинку, надо второй параметр добавлять, вида

response.write(data,'binary');

И оно перестанет лазить в данные, а так било еще и кодировку html, просто я не сразу заметил, сперва на картинках увидел.

И блять нигде никогда на советах примерах всяких stackoverflow.com и документациях этого нет, что эта работа с кодировкой включена по умолчанию и она все данные портит.

Как это вообще? англоязычным ладно, пофиг на кодировки, но картинки? они приводят такие спокойно примеры кода, которые битые данные берут и отправляют…

оно же на Хабре – тут https://habrahabr.ru/post/326428/

список трафикогенерирующих страниц сайта

вот, например, Мегаиндекс – есть “видимость сайта” по набору запросов, у каждого запроса есть частотность и конкретный урл страницы – мы сразу можем иметь список страниц, на которые идет основной seo трафик, пример

https://ru.megaindex.com/visibility/perevozim.ru/urls?ser_id=1 (сейас только 5 строк кажет, платный стал, но по API не обязательно платить пакетно, а только за сделанные запросы)

И еще пишут, что на серпстате можно часть полного списка таких урлов посмотреть бесплатно.

 

SEO чеклисты

Накидали примеров аудитов и SEO-чеклистов, выложу тут на всякий. Надо потом это профильтровать насчет внедрения в сервис автоматической оптимизации.

http://im-checklist.com/seo.html
https://www.seochecklist.ru/
http://blog.aweb.ua/seo-cheklist-po-vnutrennej-optimizacii-sajta/
https://habrahabr.ru/company/iloveip/blog/322206/
https://www.searchengines.ru/samyy_polnyy_checklist.html
http://topbase.ru/files/BIG-checklist-audit.pdf
https://docs.google.com/spreadsheets/d/1YJTyEX1zoTnPdmnyVX4w9neMuMgjKnA6d4_4xMwAdiE/edit#gid=0
– Google: http://static.googleusercontent.com/media/www.google.ru/ru/ru/intl/ru/webmasters/docs/search-engine-optimization-starter-guide-ru.pdf
– Яндекс: http://cache-mskdataline06.cdn.yandex.net/download.cdn.yandex.net/support/ru/webmaster/files/recommendations.pdf
https://yadi.sk/d/CQ5KxM7z3GbQUg
https://rovertask.com/ru/solutions/digital-marketing/

Если есть еще, пишите в камменты, пожалуйста!

Иногда Платоны Яндекса могут пообещать “внести изменения в алгоритм ранжирования”

Натурально, (не моё) на вопрос к Платонам про резкое падение трафика бывают такие обнадеживающие ответы