Переехал на новый сервер, поломки

  1. в ispmanager используется как нативная PHP 5.4, а там, как оказалось, для htmlspecialchars() по умолчанию идет кодировка UTF8, а у меня везде испокон веков CP1251.. ыы… как сменить нативную версию? Проверяю сейчас на вордпрессе – он по умолчанию весь на утф, все должно работать..
  2. в ispmanager странное происходит – я часто в явном виде в php указываю исходящий ip, так оказалось, что при указанном CURLOPT_INTERFACE некоторые соединения с https отдают пустой результат (например, мой сайт с https от let’s encrypt забирается нормально, а морду яндекса не отдает). Какая-то хуйня с дефлотным ip против ipv6, возможно… в панели или на сервере… из списка неймсерверов ipv6 убирал, не помогло… Лечится использованием curl_setopt($ch, CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V4);
  3. сервер hetzner 64Gb memory + 4Tb HDD – софтовый рейд может синхронизироваться 9 часов (скорость синхронизации увеличивал, но она была около 160-180 Кб. Пришлось повтыкать в разбиение диска – по умолчанию хецнер 4Тб диск разбивает на 2 по 2, и вторую половину использовать для веба не получается. Приходится переразбить, чтобы в один диск все 3.5Тб влезали – не зря же Centos 7 юзал..
  4. что-то странное с трафиком. Выкачивалка морд рунета (1/8 всех морд в день) сначала стартует бодро, до 40-50 Mbps доходит скорость (60 потоков), но очень быстро, за минуту – начинает получать пустые ответы.. Шейпят канал? При этом в тарифах хецнера мега-условия написаны. Что это?

Кажется, Яндекс выкладывает обучающие данные для формулы ранжирования

Кажется, Яндекс выкладывает обучающие данные для формулы ранжирования: Яндекс открывает датасеты Толоки для исследователей

Toloka Aggregation Relevance 2
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается».

Toloka Aggregation Relevance 5
Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный».

сервис палева сетей, PBN, для сеошников, CPA (будущий)

Сделал выкачку всех морд в Рунете с разбором хтмл-кодов.

Нужно это как-то употребить. Рабочая версия лендинга http://helpwith.tilda.ws/codespy

Дадите новые полезные идеи, детали – что можно и хочется делать, с деталями? А я вам супер-мега-доступ в сервис.

Сейчас есть задача – определение “сетей сайтов” в Рунете (например, созданных под продажу ссылок или под сбор трафика или под дорвеи)
Они могут иметь общие параметры – кроме IP и подсети, особенности движка (строки со скриптами и meta link теги), похожесть доменных имен, софт и настройки сервера.
Однако, есть и просто парковки доменов, которые не являются сетями в этом смысле.

Есть данные – по 5.7 млн главных страниц в Рунете все перечисленное + даты создания доменов + заголовки title, Hx + число сайтов на IP + неймсервера

Кому охота поиграться с таким определением?
Если есть – то можно обсудить формат передаваемых данных.
Напишите на [email protected]

Если не хотите сами – посоветуйте методы?
kN соседей, возможно?
Байес?

КДПВ – популярность IP и Зипф со степенью -1

то чувство, когда перестал быть яндексоидом и…

то чувство, когда перестал быть яндексоидом и стал немного сеошником 🙂 https://www.facebook.com/subdomain.ru/posts/1935543566480273

то чувство, когда тебе подогнали потенциального клиента, а по итогам

то чувство, когда тебе подогнали потенциального клиента, а по итогам моего предложения он на грани закрыть проект-и-или разосраться с партнерами
 
присылайте ко мне проекты своих конкурентов ))

выводить страницы сайтов из Я.некачественных путем изменения разных параметров

я такой в начале мая запустил эксперимент, который должен выводить страницы сайтов из Я.некачественных путем изменения разных параметров (тексты, код, урлы, т.д.)

но для этого нужен сайт с большим % некачественных страниц (и чтобы страниц было много)

Ну, я запустил что-то вида http://pr12.kupit-domennoe-imya.ru/proekt-mgn.ru – думаю, ну наверняка выкинет много, вот тебе и база для старта

Неа.
из без малого 50к страниц – 48..47к в индексе, не выкинуты, это без поддержки If-Modified-Since, выкинут десяток по причине ошибки 500

У вас есть сайты с большой долей некачественных страниц? Можете показать? Например, на почту [email protected]

Если кто юзает рекапчу гугла – АХТУНГ! Роскомнадзор детектед

Я такой не видел блокировок РКН по теме удушения Телеграма, и тут увидел

Если кто юзает рекапчу гугла – АХТУНГ! просто тупо не грузится, галочка не появляется

Спамеры скажут РКН спасибо

Столкнулся с этим на сайте reg.ru , а они сперва отвечали – мы типа все проверили, все ок. Видать, у всех по разному блокировки идут

РКН: обзоры, зеркала, прокладки

Товарищи, а кто знаком с деталями работы РКН? ( Роскомнадзор )

Пусть у нас есть сайт, который должен быть заблокирован РКН. Пусть это будет условный Навальный. Вроде у них была такая проблема.

1. Что происходит, если этот сайт начинает бегать по поддоменам? Пример – fuckrkn
1.1 Если поддомены – это прямо копии, то, как я понимаю, после первого решения суда блокировать можно без суда, как “копии”. Как быстро происходит такая блокировка?
1.2 Если поддомены – не копии, то какие критерии признания их копиями и кто собственно будет их экспертно копиями признавать или не признавать?

2. Что, если существует сайт-обзор со ссылками на заблокированный сайт, но сам не содержащий материалов? его тоже будут блокировать? что нужно – решение суда или будет блокирован как копия? как ссылки на неправильные материалы?
2.1 Что, если на сайте-обзоре есть другие, легальные страницы? Их же нельзя блокировать

3. Что, если существует сайт-зеркало с 301 редиректом на заблокированный сайт? На самом этом домене ничего не содержится, кроме редиректа. Будут ли его блокировать? как копию заблокированного сайта? как ссылки на неправильные материалы?
3.1 Что, если на сайте, кроме редиректов, есть легальные страницы?

4. Что, если ссылки на заблокированный сайт ставятся через прокладку, которая 301 редиректом или ссылкой передает вес и посетителей? Блокировать сайт-прокладку будут или нет?

Меня кто-то начал школодосить. )

Меня кто-то начал школодосить. ) promosite.ru + trofimenko.ru

в основном с трех ip, а именно
45.79.128.188
113.10.216.2
45.55.191.73

идут запросы на страницы promosite.ru, например, с 0 к 11 утра в еррор логе около 45М записей ))
Это началось пару дней назад, но сайт не падал.
а зачем все это? ))
А рефереры – почти все с казино ) точнее, по уникальным (casino|poker|vulkan) содержат около половины
Я вот и думаю, что это за школодос?

А решения достаточно такого –

if (preg_match(“/casino|poker|vulkan/”,$_SERVER[‘HTTP_REFERER’]) | $_SERVER[‘REMOTE_ADDR’]==’45.79.128.188′ | $_SERVER[‘REMOTE_ADDR’]==’113.10.216.2′ | $_SERVER[‘REMOTE_ADDR’]==’45.55.191.73′)
{
header(“Content-disposition: attachment; filename=chernyi-vlastelin.psd;”);
readfile(‘./untitled-1.psd’);
die();
};

файл черный властелин весит 122Мб, а запросов было много (хотите, скачайте сами:) )

Пока что за 6 часов LA уменьшилась с 3 (всего 8 максимум) до 0.5
Жду, пока появятся недовольные увеличением их входящего трафика ))
есть кто?