webalta: мегалол, promo-techart.ru в банлисте

Крутой инсайд. Точнее, оффсайд. Точнее не могу сказать 🙂
Берем ветку форума про вебальту, Алексей Гурешов пишет:

рупоиск уже внесен в banned.lst вылетит скоро.

-Строим догадки, тупо идем на страницу http://www.webalta.ru/banned.lst и скачиваем список забаненных сайтов.
Не очень-то он большой… Рушных доменов я насчитал примерно 110:

100book.ru
12r.ru
1job.ru
495.su
812.ru
alfainternet.su
allmodels.ru
almat-info.ru
anywho.ru
balashov.su
balletgitis.ru
banknotes.ru
bestcam.ru
best-host.ru
bir.ru
boont.ru
bsddoc.ru
casino777.ru
center-okon.ru
cezar-avto.ru
clickz.ru
cmc-t.ru
cms-support.ru
comstar-uts.ru
dagestan.ru
developeri.ru
djangar.ru
dudka.ru
east-kazakhstan.su
epolis.ru
free-xost.ru
goodgirls.ru
goodplace.ru
gostmusic.ru
grozny.ru
hsi-spb.ru
hyperborea.ru
ibconf.ru
icafe2000.ru
imagebank.ru
imgshop.ru
i-nets.ru
infogorod.ru
inkom-realty.ru
insur-info.ru
intellectcenter.ru
intim-uslugi.ru
kbaudit.ru
krintel.ru
kustanai.su
lapt.ru
laptop-club.ru
linkexchange.ru
lostsearch.ru
market-group.ru
mau.ru
mavicanet.ru
mp3cool.ru
mp3magic.ru
mp3zone.ru
msfestival.ru
murmansk.su
my2.ru
nalchik.su
names.ru
naytov-bis.ru
north-kazakhstan.su
novstroy.ru
onlineporno.ru
ops-uralmash.ru
pbnet.ru
pelican.ru
penza.su
portcom.ru
prais.ru
projector-club.ru
promo-techart.ru
providers.ru
realstroyst.ru
rent-online.ru
replicashop.ru
replicawatch.ru
rockefeller.ru
rockfeller.ru
rodina-duma.ru
rodina-nps.ru
rubiznesmen.ru
rusmet.ru
search-s.ru
secureprinting.ru
securesoft.ru
securityprint.ru
sharefiles.ru
shoker.ru
sport-kaliningrad.ru
teleseven.ru
turinformer.ru
vologda.su
webwomen.ru
windrivers.ru
x-team.ru
xxi.ru
xyya.ru
yacame.ru
yellow-press.ru

Что самое забавное, promo-techart.ru тоже среди них. Как я понимаю этот синтаксис, все субдомены его в бане. 🙂 Да и другие приличные домены обнаружены 🙂

Дустом их, дустом! 🙂

PS некоторые аж 2 раза там присутствуют. А вообще выбор доменов интересный.

webalta: мегалол, promo-techart.ru в банлисте: 33 комментария

  1. bloknotik.ru не вижу (по-моему, это те же чуваки, что и рупоиск)

  2. Догадка грамотная. А я что-то протормозил.

  3. Я думаю мы даже не будем этот список убирать 🙂

  4. Я думаю мы даже не будем этот список убирать 🙂

    Ага , вы просто другой будете использовать 🙂

    А вобще конечно мегалол так мегалол

  5. Сколько там .citforum. ! А может они все же таким макаром с зеркалами борются? Ведь у promo-techart.ru ведь есть же зеркало в выдаче.

  6. Лермонт прав, если у сайта дохрена стабильных зеркал зачем тратить машинное время на его поиски в очередной раз. Но зеркала еще дополнительно детектятся еще дополнительно на стадии построения и в этом списоке тех нет (новых)

  7. Зеркала со строгим соотствием мы отлавливаем еще на стадии построения индекса. С нестрогим и частичным совпадением страницы будем отфильтровывать в момент построения выдачи. В принципе это уже написано и оттестировано, но пока еще не включено на публичный www, но сигнатуры уже присуствуют в базе.

    "сигнатуры уже присуствуют в базе" – это и есть banned.lst? Т.е. это нечеткие дубли? А не напряжно при построении выдачи каждый раз парсить текстовый файлик в 1066 строк из которых только 929 уникальных?

  8. Видимо – да, где-то борьба с зеркалами.
    Например: rodina-duma.ru и rodina-nps.ru – в списке, но это (похоже) зеркала rodina.ru. Или вот rockefeller.ru и rockfeller.ru – тоже нормальные сайты, но зеркало Rokf.Ru. Похоже, многие из доменов второго уровня (а их 235 штук) – из таких.
    Хотя есть, конечно, чудные сайты типа yandexer.info. 🙂

  9. banned.lst это то, куда мы вообще не ходим. Нечеткие дубли, синганутры и зеркала на автомате можно определить только закачав документ.

    уникальность там никто пока не проверял, файлик парсится раз в 14 дней, при начале новой итерации, потом сидит в памяти у краулеров.

  10. потом сидит в памяти у краулеров

    блин, почти Матрица …

  11. Угу, 500гигов оперативки расписанные вручную 😉

  12. Если борьба с зеркалами, то какая-то странная. Сегодня по адресу зеркало, а завтра – нет. Как робот об этом узнает, если он туда ходить не будет. Вон, яндесовский зеркальщик даже на роботс кладёт, так ему интересно всё. 🙂
    А если не борьба с зеркалами, то тогда за что же нас так? Дюже любопытно. Может, что-то личное? 🙂

  13. wolf, вас можно было бы 🙂 Но поверьте, что чистое совпадение,
    если хотите напишите пожаловаться в результаты – они все восстановят.

  14. wolf, вас можно было бы 🙂

    Эх, злой Вы и память у Вас хорошая… 🙂
    Но вообще-то, зеркала таким образом фильтровать неправильно. Беклинки для них клеить надо. А так все беклинки запрещенного зеркала не учтутся. Нехорошо-с…

  15. wolf согласен, но беки и зеркала вообще сложная тема тут можно очень сильно напороться.

    когда будут покупать домены с большим ПРом и там просто класть копии контента – вот это и будет жопа.

  16. Хы, скоро Wolf будет писать Сегаловичу, а в ответ получать – извините, Завтра Садовский все вылечит =))

  17. А bir.ru – то за что? Насколько я знаю это доменная зона релкома.

  18. когда будут покупать домены с большим ПРом и там просто класть копии контента – вот это и будет жопа

    Почему жопа? Обычная практика… Эх, мужики, как-то вы не так начинаете…

  19. wolf умный? 🙂 Попробуй сделать сам 🙂

  20. wolf умный? 🙂 Попробуй сделать сам 🙂

    Умный человек не возьмётся делать то, что он не сможет сделать хорошо. 😉

  21. wolf, еще раз: ты несешь чушь про клейку и ссылки.

  22. [offtop]Алексей, сейчас заслуженно услышите про брудершафт.[/offtop]

  23. wolf, еще раз: ты несешь чушь про клейку и ссылки.

    Мы уже перешли на ты? Не помню, когда, право слово.

    Во-вторых, не потрудится ли многоуважаемый сэр объяснить в чём чушь? В том, что я утверждаю, что зеркала, отправленные в блэклист, не будут индексироваться, равно как и не будут учитываться ссылки для них? В то время, как по уму (и как делает Яндекс и Гугль) надо клеить беклинки для разных зеркал, при этом оставляя в выдаче только одно из них. Вот допустим, у вас в блэклисте находится данен promo-techart.ru, в то время, как его зеркало promo.techart.ru индексируется. Так вот вопрос, учтутся ли ссылки на promo-techart.ru как беклинки для promo.techart.ru? При вашем походе к проблеме – очень сильно сомневаюсь.

    Во-вторых, допустим, я не прав, и зеркало помещаются в блэк-лист в некоей пометкой, что оно чьё-то зеркало. И его беклинки учитываются для главного зеркала. Тогда вопрос, если помещенное в блэклист зеркало бот принципиально не посещает, то как он отловит тот момент, когда на этом домене появится уникальный сайт? а ведь это не редкость – многие припарковывают купленные домены к какому-нибудь сайту до лучших времен, а потом делают на них самостоятельные сайты. Обычная практика.

    В-третьих, у меня склаывается смутное подозрение, что разработчики Вебальты рассматривают все сайты как потенциальных спаммеров. Поэтому практикуют столь странные превентивные действия. Хотя, на самом деле основная масса сайтов и не помышляет обманывать алгоритм. Нежели это и есть основная фишка новоиспеченного поисковика, делающегося людьми, знающими толк в поисковом спаме, – презумпция виновности вместо презумпции невиновности? В этом и есть инновация?

  24. Серег, кажется, он обиделся. 🙂 Он, наверное, подумал, что
    >Умный человек не возьмётся делать то, что он не сможет сделать хорошо.
    -относится к его поисковику, а не к предложению тебе сделать свой поисковик 🙂

    А вообще забавно. имхо, wolf прав, так бан вместо нормальной склейки – не работает. Хотя сайтов, реально популярных и имеющих много зеркал, мало и они не рулят.

    Но показательно само отношение 🙂

  25. wolf к человеку который даже не представляется своим именем а ником, я могу обращаться как мне захочется, хоть ей ты какашка 😉 О каких моралях Вы вообще говорите?

    И потом мы с вами общаемся на чьем-то блоге, где я не видел никак правил, кроме как морально этических не ругаться матом и не посылать нахер просто так, поэтому буду ко всем тут обращаться на ты. Дальнейшую дискуссию продолжать смысла не вижу, тк надоели теоретики, которые ничего из себя не представляют, а вони киллограмы.

    Как накручивают с зеркалами и что там можно вытоворять я знаю побольше Вашего поверьте, это мой хлеб сегодня.

  26. Серег, кажется, он обиделся. 🙂

    Действительно, обиделся… Причем на какой-то непонятный ник, вот ведь как… Весьма щепетильный товарищ, однако… Психотерапевты и психоаналитики, наверное, недурно смогли бы на этом кейсе заработать… Ну, да Бог сним, хорошо хоть нахер просто так не послал… 🙂

    Как накручивают с зеркалами и что там можно вытоворять я знаю побольше Вашего поверьте, это мой хлеб сегодня

    Стало быть, я был прав. Рулит презумпция виновности. Каждый документ рассматривается, как потенциальный дорвей, каждый сайт – как произведение потенциального спамера. Что ж, тоже позиция. Только вот что-то как-то топорно превентивные меры осуществляются. Может, конечно, по-другому не придумаешь, чтобы все лазейки одним махом закрыть, но как бы не выплеснуть вместе с водичкой младенца… Посмотрим, какая будет релевантность при подобном подходе.
    И прошу не рассматривать сию реплику, как попытку продолжения дискуссии… 🙂

  27. Ну вот, остановились на самом интересном месте. Я-то думал, что сейчас тут культурно подискутируют о том, как нужно клеить зеркала, Алексей Гурешов расскажет какие еще траблы бывают с зеркалами, тут бы я еще пару вопросов про нечеткие дубли подбросил бы.
    >Только вот что-то как-то топорно превентивные меры осуществляются.
    Ну мы увидели только один из методов и то только благодаря реплике на форуме и догадке euhenio. Сергей, мне кажется что Вы не предполагаете, что banned.lst – это и есть весь арсенал по работе с зеркалами.

  28. Алексей Гурешов
    >мы с вами общаемся на чьем-то блоге, где я не видел никак правил, кроме как морально этических не ругаться матом
    -кстати, ни хуя подобного нет, и даже морально-этических правил тоже нет. Я даже иногла кого-то на хуй посылаю. 🙂 Последний раз, кажется, козака. Хуево смотрели, сэр! 🙂
    А насчет "на ты" – одобряю, я сам всегда так делаю. 🙂
    >Дальнейшую дискуссию продолжать смысла не вижу, тк надоели теоретики, которые ничего из себя не представляют, а вони киллограмы
    -пока что вонь только от практиков, которые из себя что-то представляют 🙂

    lermont.ru,
    >Сергей, мне кажется что Вы не предполагаете, что banned.lst – это и есть весь арсенал по работе с зеркалами.
    -ржу, был бы +1 в репу, если бы она здесь была 🙂

  29. попробуйте поискать файл mirror.log 😉

  30. Уже искали =) Кроме этого еще искали все то, что запрещено в robots.txt:

    User-agent: *
    Disallow: /search
    Disallow: /load
    Disallow: /rank
    Disallow: /links
    Disallow: /similar
    Disallow: /stat

    Особенно интересовали /stat и /rank. Пока ничего не нашли – всюду 404.
    А правда, что /links зарезервировали для обмена кнопочками? =)

  31. офф:

    Хуево смотрели, сэр! 🙂

    Женя, ты великолепен!

  32. Н-да напряженный получился топик. wolf – молодец!
    Я слыхал, что сей поисковик намерен треть рынка занять. Это правда? Или аналитики опять мудят?
    http://ppc.mail333.com/ – Всё о PPC.

Комментарии запрещены.