- в ispmanager используется как нативная PHP 5.4, а там, как оказалось, для htmlspecialchars() по умолчанию идет кодировка UTF8, а у меня везде испокон веков CP1251.. ыы… как сменить нативную версию? Проверяю сейчас на вордпрессе – он по умолчанию весь на утф, все должно работать..
- в ispmanager странное происходит – я часто в явном виде в php указываю исходящий ip, так оказалось, что при указанном CURLOPT_INTERFACE некоторые соединения с https отдают пустой результат (например, мой сайт с https от let’s encrypt забирается нормально, а морду яндекса не отдает). Какая-то хуйня с дефлотным ip против ipv6, возможно… в панели или на сервере… из списка неймсерверов ipv6 убирал, не помогло… Лечится использованием curl_setopt($ch, CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V4);
- сервер hetzner 64Gb memory + 4Tb HDD – софтовый рейд может синхронизироваться 9 часов (скорость синхронизации увеличивал, но она была около 160-180 Кб. Пришлось повтыкать в разбиение диска – по умолчанию хецнер 4Тб диск разбивает на 2 по 2, и вторую половину использовать для веба не получается. Приходится переразбить, чтобы в один диск все 3.5Тб влезали – не зря же Centos 7 юзал..
- что-то странное с трафиком. Выкачивалка морд рунета (1/8 всех морд в день) сначала стартует бодро, до 40-50 Mbps доходит скорость (60 потоков), но очень быстро, за минуту – начинает получать пустые ответы.. Шейпят канал? При этом в тарифах хецнера мега-условия написаны. Что это?
Рубрика: Программизм
Кажется, Яндекс выкладывает обучающие данные для формулы ранжирования
Кажется, Яндекс выкладывает обучающие данные для формулы ранжирования: Яндекс открывает датасеты Толоки для исследователей
Toloka Aggregation Relevance 2
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается».
Toloka Aggregation Relevance 5
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный».
сервис палева сетей, PBN, для сеошников, CPA (будущий)
Сделал выкачку всех морд в Рунете с разбором хтмл-кодов.
Нужно это как-то употребить. Рабочая версия лендинга http://helpwith.tilda.ws/codespy
Дадите новые полезные идеи, детали – что можно и хочется делать, с деталями? А я вам супер-мега-доступ в сервис.
Сейчас есть задача – определение “сетей сайтов” в Рунете (например, созданных под продажу ссылок или под сбор трафика или под дорвеи)
Они могут иметь общие параметры – кроме IP и подсети, особенности движка (строки со скриптами и meta link теги), похожесть доменных имен, софт и настройки сервера.
Однако, есть и просто парковки доменов, которые не являются сетями в этом смысле.
Есть данные – по 5.7 млн главных страниц в Рунете все перечисленное + даты создания доменов + заголовки title, Hx + число сайтов на IP + неймсервера
Кому охота поиграться с таким определением?
Если есть – то можно обсудить формат передаваемых данных.
Напишите на [email protected]
Если не хотите сами – посоветуйте методы?
kN соседей, возможно?
Байес?
КДПВ – популярность IP и Зипф со степенью -1
node.js бьет бинарные данные, картинки при скачивании-отправке по http из-за кодировки по умолчанию
Ссуки разработчики node.js…
Короче, пишу свой прокси-сервер на node.js (это все равно пригодится, но и просто прокси свое применение имеет, Стас мне давно тему спалил, интересно, живо ли это еще 🙂 )
Прокси на основе методов типа .pipe() мне не подходит – мне надо полные данные через себя пропускать, а так они мимо пройдут. Мне надо скачать данные полностью, обработать и потом отправить.
Написал прокси на сокетах на основе примеров – бьет картинки (скачиваются данные другой длины, чем content-length, причем для маленьких картинок разница меньше, для больших больше)
Переписал на модуле http – все равно бьет, видимость проблемы та же.
Долго ебался, нигде ничего нет про такую проблему…
Причина – что весь ввод-вывод и с сокетами, и с http – имеет указание кодировки, и даже если ты ее не указываешь (опциональный параметр), там внутри есть какая-то кодировка по умолчанию, и она по умолчанию что-то делает, сука!
То есть, все картинки этой кодировкой обрабатываются как-то и портятся. И это отдельный вопрос, что за хуйня – одна кодировка? Тогда должно быть две – кодировка до и после.
Как лечить проблему с кодировкой node.js
Ставим кодировку ‘binary’ – если скачиваем, то до получения данных надо писать что-то вида
var req = http.request(options, function (res) { res.setEncoding('binary');
А когда отправляешь картинку, надо второй параметр добавлять, вида
response.write(data,'binary');
И оно перестанет лазить в данные, а так било еще и кодировку html, просто я не сразу заметил, сперва на картинках увидел.
И блять нигде никогда на советах примерах всяких stackoverflow.com и документациях этого нет, что эта работа с кодировкой включена по умолчанию и она все данные портит.
Как это вообще? англоязычным ладно, пофиг на кодировки, но картинки? они приводят такие спокойно примеры кода, которые битые данные берут и отправляют…
оно же на Хабре – тут https://habrahabr.ru/post/326428/
Против спама форм, комментариев рецепт (не капча!)
Про всё, отправку сообщений и заявок, итд. Рецепт простой, я им всегда пользуюсь, понятно, что это со временем должно усложниться.
Короче, все куки, посылаемые в HTTP-заголовках, спам-машины давно поддерживают.
А вот куки, которые устанавливаются на странице яваскриптом, пока еще нет. Понятно, почему – исполнять весь js запариться можно, и результат может зависеть от действий пользователя.
Так что сейчас я тупо на все страницы ставлю js код вида
<script>document.cookie="cookiename=cookievalue;";</script>
А потом значение сессионного куки либо проверяю в скрипте формы, если скрипт сам пишу, либо не пускаю запоститься, если чужой движок, вот для вордпресса например добавка в .htaccess
RewriteEngine on RewriteCond %{REQUEST_METHOD} =POST RewriteCond %{REQUEST_URI} wp-comments-post.php$ RewriteCond %{HTTP_COOKIE} !cookiename=cookievalue RewriteRule (.*)$ nahooy.html [L]
(это все POST запросы в скрипт комментариев на ВП без нужной куки посылаются нахуй)
Результат – весь спам в форму как отрезало, но немного все же проходит, я думаю, либо руками спамят, либо хьюман-эмулятором, если он еще жив.
И – без капчи.