Сбербанк пришел на конкурсы Kaggle

https://www.kaggle.com/c/sberbank-russian-housing-market

Competition Launch: Can you predict realty prices in Russia’s volatile economy?

Yesterday we launched the Sberbank Russian Housing Market competition. In this challenge, Sberbank is turning to the Kaggle community for help in predicting realty prices. Even though Russia’s housing market is stable, property prices fluctuate in the country’s unstable economy.

как найти нормальные списки прокси :)

  1. на VDS создаем прокси на стандартном порту (8080, 3128, ..)
  2. люди сканируют сеть и находят его, еще можно с этим прокси зайти на десяток proxy judge (ищем по имени файла azenv.php)
  3. дожидаемся, когда через тебя начнут массово спамить (+неделя)
  4. гуглим свой ip с портом – находим, куда утекло

https://baybilisim.com/kategori/proxy/
https://orcinustech.com/web-tools/proxy-lists.php
https://crackingspot.com/forums/proxy-dumps.185/
http://www.ip002.net/free.html
http://proxyape.com/
http://free-proxy.pw/
https://serfmoney.ru/category/proxy/
https://freevpn.ninja/free-proxy
http://proxyservers.pro/proxy
https://premproxy.com/ru/proxy/
http://memoryhackers.net/forum-guncel-proxyler.mh
http://guncelproxy.com/category/guncel-proxy
http://www.proxylists.ga/
http://www.forumsohbeti.com/g-ncel-proxy-listeleri/
http://newfreshproxies-24.blogspot.ru/
http://proxylist-update.blogspot.ru/
http://proxyserverlist-24.blogspot.ru/

яндекс отдает движок своей вики

ну, если кто знаток, может пытаться найти дырки, конечно…

https://yandex.ru/support/connect-wiki/index.html

Пишут, что весь комплекс решений тут https://connect.yandex.ru/portal/home – только меня туда не пускают – я не тот пользователь )

node.js бьет бинарные данные, картинки при скачивании-отправке по http из-за кодировки по умолчанию

Ссуки разработчики node.js…

Короче, пишу свой прокси-сервер на node.js (это все равно пригодится, но и просто прокси свое применение имеет, Стас мне давно тему спалил, интересно, живо ли это еще 🙂 )

Прокси на основе методов типа .pipe() мне не подходит – мне надо полные данные через себя пропускать, а так они мимо пройдут. Мне надо скачать данные полностью, обработать и потом отправить.

Написал прокси на сокетах на основе примеров – бьет картинки (скачиваются данные другой длины, чем content-length, причем для маленьких картинок разница меньше, для больших больше)

Переписал на модуле http – все равно бьет, видимость проблемы та же.

Долго ебался, нигде ничего нет про такую проблему…

Причина – что весь ввод-вывод и с сокетами, и с http – имеет указание кодировки, и даже если ты ее не указываешь (опциональный параметр), там внутри есть какая-то кодировка по умолчанию, и она по умолчанию что-то делает, сука!

То есть, все картинки этой кодировкой обрабатываются как-то и портятся. И это отдельный вопрос, что за хуйня – одна кодировка? Тогда должно быть две – кодировка до и после.

Как лечить проблему с кодировкой node.js

Ставим кодировку ‘binary’ – если скачиваем, то до получения данных надо писать что-то вида

var req = http.request(options, function (res) {

res.setEncoding('binary');

А когда отправляешь картинку, надо второй параметр добавлять, вида

response.write(data,'binary');

И оно перестанет лазить в данные, а так било еще и кодировку html, просто я не сразу заметил, сперва на картинках увидел.

И блять нигде никогда на советах примерах всяких stackoverflow.com и документациях этого нет, что эта работа с кодировкой включена по умолчанию и она все данные портит.

Как это вообще? англоязычным ладно, пофиг на кодировки, но картинки? они приводят такие спокойно примеры кода, которые битые данные берут и отправляют…

оно же на Хабре – тут https://habrahabr.ru/post/326428/

список трафикогенерирующих страниц сайта

вот, например, Мегаиндекс – есть “видимость сайта” по набору запросов, у каждого запроса есть частотность и конкретный урл страницы – мы сразу можем иметь список страниц, на которые идет основной seo трафик, пример

https://ru.megaindex.com/visibility/perevozim.ru/urls?ser_id=1 (сейас только 5 строк кажет, платный стал, но по API не обязательно платить пакетно, а только за сделанные запросы)

И еще пишут, что на серпстате можно часть полного списка таких урлов посмотреть бесплатно.

 

SEO чеклисты

Накидали примеров аудитов и SEO-чеклистов, выложу тут на всякий. Надо потом это профильтровать насчет внедрения в сервис автоматической оптимизации.

http://im-checklist.com/seo.html
https://www.seochecklist.ru/
http://blog.aweb.ua/seo-cheklist-po-vnutrennej-optimizacii-sajta/
https://habrahabr.ru/company/iloveip/blog/322206/
https://www.searchengines.ru/samyy_polnyy_checklist.html
http://topbase.ru/files/BIG-checklist-audit.pdf
https://docs.google.com/spreadsheets/d/1YJTyEX1zoTnPdmnyVX4w9neMuMgjKnA6d4_4xMwAdiE/edit#gid=0
– Google: http://static.googleusercontent.com/media/www.google.ru/ru/ru/intl/ru/webmasters/docs/search-engine-optimization-starter-guide-ru.pdf
– Яндекс: http://cache-mskdataline06.cdn.yandex.net/download.cdn.yandex.net/support/ru/webmaster/files/recommendations.pdf
https://yadi.sk/d/CQ5KxM7z3GbQUg
https://rovertask.com/ru/solutions/digital-marketing/

Если есть еще, пишите в камменты, пожалуйста!