Крутой инсайд. Точнее, оффсайд. Точнее не могу сказать 🙂
Берем ветку форума про вебальту, Алексей Гурешов пишет:
рупоиск уже внесен в banned.lst вылетит скоро.
-Строим догадки, тупо идем на страницу http://www.webalta.ru/banned.lst и скачиваем список забаненных сайтов.
Не очень-то он большой… Рушных доменов я насчитал примерно 110:
100book.ru
12r.ru
1job.ru
495.su
812.ru
alfainternet.su
allmodels.ru
almat-info.ru
anywho.ru
balashov.su
balletgitis.ru
banknotes.ru
bestcam.ru
best-host.ru
bir.ru
boont.ru
bsddoc.ru
casino777.ru
center-okon.ru
cezar-avto.ru
clickz.ru
cmc-t.ru
cms-support.ru
comstar-uts.ru
dagestan.ru
developeri.ru
djangar.ru
dudka.ru
east-kazakhstan.su
epolis.ru
free-xost.ru
goodgirls.ru
goodplace.ru
gostmusic.ru
grozny.ru
hsi-spb.ru
hyperborea.ru
ibconf.ru
icafe2000.ru
imagebank.ru
imgshop.ru
i-nets.ru
infogorod.ru
inkom-realty.ru
insur-info.ru
intellectcenter.ru
intim-uslugi.ru
kbaudit.ru
krintel.ru
kustanai.su
lapt.ru
laptop-club.ru
linkexchange.ru
lostsearch.ru
market-group.ru
mau.ru
mavicanet.ru
mp3cool.ru
mp3magic.ru
mp3zone.ru
msfestival.ru
murmansk.su
my2.ru
nalchik.su
names.ru
naytov-bis.ru
north-kazakhstan.su
novstroy.ru
onlineporno.ru
ops-uralmash.ru
pbnet.ru
pelican.ru
penza.su
portcom.ru
prais.ru
projector-club.ru
promo-techart.ru
providers.ru
realstroyst.ru
rent-online.ru
replicashop.ru
replicawatch.ru
rockefeller.ru
rockfeller.ru
rodina-duma.ru
rodina-nps.ru
rubiznesmen.ru
rusmet.ru
search-s.ru
secureprinting.ru
securesoft.ru
securityprint.ru
sharefiles.ru
shoker.ru
sport-kaliningrad.ru
teleseven.ru
turinformer.ru
vologda.su
webwomen.ru
windrivers.ru
x-team.ru
xxi.ru
xyya.ru
yacame.ru
yellow-press.ru
Что самое забавное, promo-techart.ru тоже среди них. Как я понимаю этот синтаксис, все субдомены его в бане. 🙂 Да и другие приличные домены обнаружены 🙂
Дустом их, дустом! 🙂
PS некоторые аж 2 раза там присутствуют. А вообще выбор доменов интересный.
bloknotik.ru не вижу (по-моему, это те же чуваки, что и рупоиск)
Догадка грамотная. А я что-то протормозил.
Я думаю мы даже не будем этот список убирать 🙂
Ага , вы просто другой будете использовать 🙂
А вобще конечно мегалол так мегалол
Сколько там .citforum. ! А может они все же таким макаром с зеркалами борются? Ведь у promo-techart.ru ведь есть же зеркало в выдаче.
Лермонт прав, если у сайта дохрена стабильных зеркал зачем тратить машинное время на его поиски в очередной раз. Но зеркала еще дополнительно детектятся еще дополнительно на стадии построения и в этом списоке тех нет (новых)
"сигнатуры уже присуствуют в базе" – это и есть banned.lst? Т.е. это нечеткие дубли? А не напряжно при построении выдачи каждый раз парсить текстовый файлик в 1066 строк из которых только 929 уникальных?
Видимо – да, где-то борьба с зеркалами.
Например: rodina-duma.ru и rodina-nps.ru – в списке, но это (похоже) зеркала rodina.ru. Или вот rockefeller.ru и rockfeller.ru – тоже нормальные сайты, но зеркало Rokf.Ru. Похоже, многие из доменов второго уровня (а их 235 штук) – из таких.
Хотя есть, конечно, чудные сайты типа yandexer.info. 🙂
banned.lst это то, куда мы вообще не ходим. Нечеткие дубли, синганутры и зеркала на автомате можно определить только закачав документ.
уникальность там никто пока не проверял, файлик парсится раз в 14 дней, при начале новой итерации, потом сидит в памяти у краулеров.
блин, почти Матрица …
Угу, 500гигов оперативки расписанные вручную 😉
Если борьба с зеркалами, то какая-то странная. Сегодня по адресу зеркало, а завтра – нет. Как робот об этом узнает, если он туда ходить не будет. Вон, яндесовский зеркальщик даже на роботс кладёт, так ему интересно всё. 🙂
А если не борьба с зеркалами, то тогда за что же нас так? Дюже любопытно. Может, что-то личное? 🙂
wolf, вас можно было бы 🙂 Но поверьте, что чистое совпадение,
если хотите напишите пожаловаться в результаты – они все восстановят.
Эх, злой Вы и память у Вас хорошая… 🙂
Но вообще-то, зеркала таким образом фильтровать неправильно. Беклинки для них клеить надо. А так все беклинки запрещенного зеркала не учтутся. Нехорошо-с…
wolf согласен, но беки и зеркала вообще сложная тема тут можно очень сильно напороться.
когда будут покупать домены с большим ПРом и там просто класть копии контента – вот это и будет жопа.
Хы, скоро Wolf будет писать Сегаловичу, а в ответ получать – извините, Завтра Садовский все вылечит =))
А bir.ru – то за что? Насколько я знаю это доменная зона релкома.
Почему жопа? Обычная практика… Эх, мужики, как-то вы не так начинаете…
wolf умный? 🙂 Попробуй сделать сам 🙂
То, что поисковику жопа – оптимизатору гут! 🙂
Умный человек не возьмётся делать то, что он не сможет сделать хорошо. 😉
wolf, еще раз: ты несешь чушь про клейку и ссылки.
[offtop]Алексей, сейчас заслуженно услышите про брудершафт.[/offtop]
Мы уже перешли на ты? Не помню, когда, право слово.
Во-вторых, не потрудится ли многоуважаемый сэр объяснить в чём чушь? В том, что я утверждаю, что зеркала, отправленные в блэклист, не будут индексироваться, равно как и не будут учитываться ссылки для них? В то время, как по уму (и как делает Яндекс и Гугль) надо клеить беклинки для разных зеркал, при этом оставляя в выдаче только одно из них. Вот допустим, у вас в блэклисте находится данен promo-techart.ru, в то время, как его зеркало promo.techart.ru индексируется. Так вот вопрос, учтутся ли ссылки на promo-techart.ru как беклинки для promo.techart.ru? При вашем походе к проблеме – очень сильно сомневаюсь.
Во-вторых, допустим, я не прав, и зеркало помещаются в блэк-лист в некоей пометкой, что оно чьё-то зеркало. И его беклинки учитываются для главного зеркала. Тогда вопрос, если помещенное в блэклист зеркало бот принципиально не посещает, то как он отловит тот момент, когда на этом домене появится уникальный сайт? а ведь это не редкость – многие припарковывают купленные домены к какому-нибудь сайту до лучших времен, а потом делают на них самостоятельные сайты. Обычная практика.
В-третьих, у меня склаывается смутное подозрение, что разработчики Вебальты рассматривают все сайты как потенциальных спаммеров. Поэтому практикуют столь странные превентивные действия. Хотя, на самом деле основная масса сайтов и не помышляет обманывать алгоритм. Нежели это и есть основная фишка новоиспеченного поисковика, делающегося людьми, знающими толк в поисковом спаме, – презумпция виновности вместо презумпции невиновности? В этом и есть инновация?
Серег, кажется, он обиделся. 🙂 Он, наверное, подумал, что
>Умный человек не возьмётся делать то, что он не сможет сделать хорошо.
-относится к его поисковику, а не к предложению тебе сделать свой поисковик 🙂
А вообще забавно. имхо, wolf прав, так бан вместо нормальной склейки – не работает. Хотя сайтов, реально популярных и имеющих много зеркал, мало и они не рулят.
Но показательно само отношение 🙂
wolf к человеку который даже не представляется своим именем а ником, я могу обращаться как мне захочется, хоть ей ты какашка 😉 О каких моралях Вы вообще говорите?
И потом мы с вами общаемся на чьем-то блоге, где я не видел никак правил, кроме как морально этических не ругаться матом и не посылать нахер просто так, поэтому буду ко всем тут обращаться на ты. Дальнейшую дискуссию продолжать смысла не вижу, тк надоели теоретики, которые ничего из себя не представляют, а вони киллограмы.
Как накручивают с зеркалами и что там можно вытоворять я знаю побольше Вашего поверьте, это мой хлеб сегодня.
Действительно, обиделся… Причем на какой-то непонятный ник, вот ведь как… Весьма щепетильный товарищ, однако… Психотерапевты и психоаналитики, наверное, недурно смогли бы на этом кейсе заработать… Ну, да Бог сним, хорошо хоть нахер просто так не послал… 🙂
Стало быть, я был прав. Рулит презумпция виновности. Каждый документ рассматривается, как потенциальный дорвей, каждый сайт – как произведение потенциального спамера. Что ж, тоже позиция. Только вот что-то как-то топорно превентивные меры осуществляются. Может, конечно, по-другому не придумаешь, чтобы все лазейки одним махом закрыть, но как бы не выплеснуть вместе с водичкой младенца… Посмотрим, какая будет релевантность при подобном подходе.
И прошу не рассматривать сию реплику, как попытку продолжения дискуссии… 🙂
Ну вот, остановились на самом интересном месте. Я-то думал, что сейчас тут культурно подискутируют о том, как нужно клеить зеркала, Алексей Гурешов расскажет какие еще траблы бывают с зеркалами, тут бы я еще пару вопросов про нечеткие дубли подбросил бы.
>Только вот что-то как-то топорно превентивные меры осуществляются.
Ну мы увидели только один из методов и то только благодаря реплике на форуме и догадке euhenio. Сергей, мне кажется что Вы не предполагаете, что banned.lst – это и есть весь арсенал по работе с зеркалами.
Алексей Гурешов
>мы с вами общаемся на чьем-то блоге, где я не видел никак правил, кроме как морально этических не ругаться матом
-кстати, ни хуя подобного нет, и даже морально-этических правил тоже нет. Я даже иногла кого-то на хуй посылаю. 🙂 Последний раз, кажется, козака. Хуево смотрели, сэр! 🙂
А насчет "на ты" – одобряю, я сам всегда так делаю. 🙂
>Дальнейшую дискуссию продолжать смысла не вижу, тк надоели теоретики, которые ничего из себя не представляют, а вони киллограмы
-пока что вонь только от практиков, которые из себя что-то представляют 🙂
lermont.ru,
>Сергей, мне кажется что Вы не предполагаете, что banned.lst – это и есть весь арсенал по работе с зеркалами.
-ржу, был бы +1 в репу, если бы она здесь была 🙂
попробуйте поискать файл mirror.log 😉
Уже искали =) Кроме этого еще искали все то, что запрещено в robots.txt:
Особенно интересовали /stat и /rank. Пока ничего не нашли – всюду 404.
А правда, что /links зарезервировали для обмена кнопочками? =)
офф:
Женя, ты великолепен!