Переехал на новый сервер, поломки

  1. в ispmanager используется как нативная PHP 5.4, а там, как оказалось, для htmlspecialchars() по умолчанию идет кодировка UTF8, а у меня везде испокон веков CP1251.. ыы… как сменить нативную версию? Проверяю сейчас на вордпрессе – он по умолчанию весь на утф, все должно работать..
  2. в ispmanager странное происходит – я часто в явном виде в php указываю исходящий ip, так оказалось, что при указанном CURLOPT_INTERFACE некоторые соединения с https отдают пустой результат (например, мой сайт с https от let’s encrypt забирается нормально, а морду яндекса не отдает). Какая-то хуйня с дефлотным ip против ipv6, возможно… в панели или на сервере… из списка неймсерверов ipv6 убирал, не помогло… Лечится использованием curl_setopt($ch, CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V4);
  3. сервер hetzner 64Gb memory + 4Tb HDD – софтовый рейд может синхронизироваться 9 часов (скорость синхронизации увеличивал, но она была около 160-180 Кб. Пришлось повтыкать в разбиение диска – по умолчанию хецнер 4Тб диск разбивает на 2 по 2, и вторую половину использовать для веба не получается. Приходится переразбить, чтобы в один диск все 3.5Тб влезали – не зря же Centos 7 юзал..
  4. что-то странное с трафиком. Выкачивалка морд рунета (1/8 всех морд в день) сначала стартует бодро, до 40-50 Mbps доходит скорость (60 потоков), но очень быстро, за минуту – начинает получать пустые ответы.. Шейпят канал? При этом в тарифах хецнера мега-условия написаны. Что это?

Кажется, Яндекс выкладывает обучающие данные для формулы ранжирования

Кажется, Яндекс выкладывает обучающие данные для формулы ранжирования: Яндекс открывает датасеты Толоки для исследователей

Toloka Aggregation Relevance 2
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается».

Toloka Aggregation Relevance 5
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный».

сервис палева сетей, PBN, для сеошников, CPA (будущий)

Сделал выкачку всех морд в Рунете с разбором хтмл-кодов.

Нужно это как-то употребить. Рабочая версия лендинга http://helpwith.tilda.ws/codespy

Дадите новые полезные идеи, детали – что можно и хочется делать, с деталями? А я вам супер-мега-доступ в сервис.

Сейчас есть задача – определение “сетей сайтов” в Рунете (например, созданных под продажу ссылок или под сбор трафика или под дорвеи)
Они могут иметь общие параметры – кроме IP и подсети, особенности движка (строки со скриптами и meta link теги), похожесть доменных имен, софт и настройки сервера.
Однако, есть и просто парковки доменов, которые не являются сетями в этом смысле.

Есть данные – по 5.7 млн главных страниц в Рунете все перечисленное + даты создания доменов + заголовки title, Hx + число сайтов на IP + неймсервера

Кому охота поиграться с таким определением?
Если есть – то можно обсудить формат передаваемых данных.
Напишите на [email protected]

Если не хотите сами – посоветуйте методы?
kN соседей, возможно?
Байес?

КДПВ – популярность IP и Зипф со степенью -1

node.js бьет бинарные данные, картинки при скачивании-отправке по http из-за кодировки по умолчанию

Ссуки разработчики node.js…

Короче, пишу свой прокси-сервер на node.js (это все равно пригодится, но и просто прокси свое применение имеет, Стас мне давно тему спалил, интересно, живо ли это еще 🙂 )

Прокси на основе методов типа .pipe() мне не подходит – мне надо полные данные через себя пропускать, а так они мимо пройдут. Мне надо скачать данные полностью, обработать и потом отправить.

Написал прокси на сокетах на основе примеров – бьет картинки (скачиваются данные другой длины, чем content-length, причем для маленьких картинок разница меньше, для больших больше)

Переписал на модуле http – все равно бьет, видимость проблемы та же.

Долго ебался, нигде ничего нет про такую проблему…

Причина – что весь ввод-вывод и с сокетами, и с http – имеет указание кодировки, и даже если ты ее не указываешь (опциональный параметр), там внутри есть какая-то кодировка по умолчанию, и она по умолчанию что-то делает, сука!

То есть, все картинки этой кодировкой обрабатываются как-то и портятся. И это отдельный вопрос, что за хуйня – одна кодировка? Тогда должно быть две – кодировка до и после.

Как лечить проблему с кодировкой node.js

Ставим кодировку ‘binary’ – если скачиваем, то до получения данных надо писать что-то вида

var req = http.request(options, function (res) {

res.setEncoding('binary');

А когда отправляешь картинку, надо второй параметр добавлять, вида

response.write(data,'binary');

И оно перестанет лазить в данные, а так било еще и кодировку html, просто я не сразу заметил, сперва на картинках увидел.

И блять нигде никогда на советах примерах всяких stackoverflow.com и документациях этого нет, что эта работа с кодировкой включена по умолчанию и она все данные портит.

Как это вообще? англоязычным ладно, пофиг на кодировки, но картинки? они приводят такие спокойно примеры кода, которые битые данные берут и отправляют…

оно же на Хабре – тут https://habrahabr.ru/post/326428/

Против спама форм, комментариев рецепт (не капча!)

Про всё, отправку сообщений и заявок, итд. Рецепт простой, я им всегда пользуюсь, понятно, что это со временем должно усложниться.

Короче, все куки, посылаемые в HTTP-заголовках, спам-машины давно поддерживают.

А вот куки, которые устанавливаются на странице яваскриптом, пока еще нет. Понятно, почему – исполнять весь js запариться можно, и результат может зависеть от действий пользователя.

Так что сейчас я тупо на все страницы ставлю js код вида

<script>document.cookie="cookiename=cookievalue;";</script>

А потом значение сессионного куки либо проверяю в скрипте формы, если скрипт сам пишу, либо не пускаю запоститься, если чужой движок, вот для вордпресса например добавка в .htaccess

RewriteEngine on
RewriteCond %{REQUEST_METHOD}  =POST
RewriteCond %{REQUEST_URI} wp-comments-post.php$
RewriteCond %{HTTP_COOKIE} !cookiename=cookievalue
RewriteRule (.*)$ nahooy.html [L]

(это все POST запросы в скрипт комментариев на ВП без нужной куки посылаются нахуй)

Результат – весь спам в форму как отрезало, но немного все же проходит, я думаю, либо руками спамят, либо хьюман-эмулятором, если он еще жив.

И – без капчи.