Цитаты c http://wiki.searchengines.ru/WikipediaSEO/PoiskovyeSistemy/Ustrojjstvo/Indeksacija?v=t8q:
***
Индексация
Процесс обработки страниц сайтов, собранных роботом поисковой системы, специальной программой индексатором, в результате которого формируется индекс поисковой системы.
***
Индексатор
Программа, осуществляющая индексацию веб-страниц.
***
Индекс
База данных поисковой системы. Создается в процессе индексации страниц сайтов, собранных роботом поисковой системы.
Как правило, индекс документа представляет собой инвертированный файл […]
***
Только не говорите “хочешь лучше – сделай сам”! 🙂 Мне квазиофициальный тон дается с трудом.
Автор: Евгений Трофименко
Почтовый обменщик
Вижу шовинизм некоторых в отношении автоматических форм отсылки заявок на обмен… Да и еще теоретически 1 повод для стука…
Так и тянет написать почтового робота – обменщика ссылками…
Типа того:
Робот запускается, берет почту, домен определяет по заголовкам.
Если в почте есть письмо без ссылок, на него шлется от того же мыла шаблон с предложением разместить ссылку. В шаблоне прописана просьба сохранять переписку через “reply”.
Если в почте есть письмо только с чужими ссылками, заходится по всем урлам и ищется ссылка на наш домен. Если она есть – хватаем первый , парсим, размещаем и пишем в базу отметку, что обмен такого-то с таким-то проведен. Мыло туда же и копию письма. Если нашей ссылки там нет – то же, но размещаем с отметкой “перепроверить” и мылим ответ с нашими ссылками и просьбой разместить в срок и прислать ссылку. Перепроверяльщик запускается пару раз в этот срок.
Если в почте есть письмо с нашими и чужими ссылками – проверяем наши линки, проверяем, что чужие размещены и мылим шаблон “спасибо”.
***
Единственно, была у меня проблема с перекодировками в php. То ли там base64, то ли еще в каких-то гадких кодировках приходят письма… Когда писал на php imap “подтверждатора регистраций на нюковых сайтах”, сталкивался.
Надо, видно, как-то вытаскивать кодировку из самого письма… где-то она там прописана должна быть… ++
покопирайтить, что ли?
Из блога minaton нашел статью Выбор копирайтера, в которой автор дает советы, как выбирать копирайтера.
Мнения о статье у мнея, конечно, нет, кроме одного – она не вызывает желания ее читать… И в статье используются характерные “гробы” – блоки текста, которые нормальный человек пробегает глазом. А уж Заказчик тем более…
По этому поводу позволю себе непрофессионально покопирайтить, хоть и без разрешения автора. 🙂 Итак, оригинал тут: http://articles.kevindark.com/choose.html
А перевод тут:
***************
Советы: как выбрать хорошего копирайтера
Что следует понимать под словом “Копирайтер”? Ответ-
Копирайтер – это человек, пишущий рекламный текст
Копирайтеры пишут, в частности:
- слоганы, состоящие из одного или нескольких слов
- небольшие рекламные обращения
- титры к рекламным видеороликам, сценарии этих роликов
- …многое другое
Эти парни обычно находятся в тени, их имена не пишут в титрах, они не дают интервью на каждом углу, их не узнают в лицо. Поэтому обычно сложно найти и выбрать хорошего копирайтера.
SEO-копирайтеры – создатели текстов для сайтов, людей и поисковиков
В последнее время в среде копирайтеров выделилась отдельная каста – SEO-копирайтеры, призвание которых – писать тексты для сайтов. Писать так, чтобы у посетителей захватывало дух и они немедля проникались уважением к владельцу данной страницы. Немного утрированно, конечно, но в общих чертах верно.
Собственно, “SEO” означает “search engines optimization – оптимизация для поисковых машин”). SEO-копирайтер должен помнить о том, что в Интернете существуют поисковые системы и планировать текст так, чтобы поисковые системы находили сайт компании по нужным ключевым словам..
Продумайте, что конкретно требуется написать!
Копирайтер не должен моментально улавливать суть вопроса и так же моментально выдавать нужный результат. Копирайтеру нужно ставить очень точную задачу, почти как программисту. Это грубоватое сравнение, как ни странно, часто срабатывает.
Впрочем, копирайтер-профессионал непременно имеет под рукой некий перечень вопросов, ответы на которые помогут четко сформировать задачу.
Итак, определяемся:
- что именно нужно написать
- определяем цель, которой требуется достичь с помощью текста
Это нужно потому, что копирайтеры специализируются на различных областях и среди них мало универсалов.
Круг поиска
Не спешите прислушиваться к рекомендациям знакомых и партнеров. Мол, классный копирайтер, все очень прикольно, круто и вообще – парень, что надо. Все это очень хорошо и, вполне вероятно, они правы, но – Вам ведь нужен отличный результат, не так ли? Так что искать копирайтера нужно самостоятельно:
- через поисковую систему, набрав в строке поиска название нужного Вам рекламного материала (например, “рекламное письмо” или “слоганы”)
- разместить объявление на сайтах для фрилансеров
- просто набрать в поисковике слово “копирайтер” и искать по порядку на каждом сайте, показанном в результатах
- …через рекламные агентства, как полного цикла, так и специализированные
Если Вы ищете SEO-копирайтера, внимательно изучите его собственный сайт. Если текст кажется Вам удачным, а сайт по ключевым словам выходит на первую страницу результатов поиска, копирайтер заслуживает внимания.
Если же контент коряв, а через поисковые системы сайт и днем с огнем не сыскать, определенно стоит задуматься о том, своим ли делом занялся в жизни так называемый “копирайтер”.
Окончательный выбор копирайтера – личное общение
Свяжитесь с каждым вошедшим в финальный список кандидатов копирайтером.
Попросите более подробную информацию об опыте работы
Попросите его предоставить Вам более подробную информацию об опыте работы в данном сегменте (имеется в виду требуемая Вам услуга. Например, написание рекламного письма и сценария). Да-да, не стоит особо рассчитывать на раздел “Портфолио”, “Работы” и так далее. Специфика работы копирайтера предполагает некую секретность результатов его работы.
Предоставьте копирайтеру информацию о своей компании
Предоставьте копирайтеру информацию о своей компании, попросите его вкратце изложить собственное видение решения задачи. Если собеседник отказывается, ссылаясь на “профессиональные секреты”, боязнь выдать идею и тому подобное, смело отказывайтесь от сотрудничества с ним. Опытный копирайтер всегда сумеет объяснить клиенту, что и как он собирается делать, не предоставив при этом ни малейшей возможности украсть идею или получить услуги бесплатно.
Убедитесь, что ваш бюджет достаточен
Следует также иметь в виду бюджет. Все вышесказанное успешно работает в случае наличия достаточного бюджета, выделенного на услуги копирайтера. К сожалению, иногда ситуация складывается иным образом, и Вам, возможно, приходится учитывать некую ограниченность в средствах. Поверьте мне, это не самая серьезная проблема. Многие копирайтеры готовы предоставлять начинающим клиентам существенные скидки, вполне резонно рассчитывая получить в лице этих клиентов крупных заказчиков в будущем. Поэтому, не стесняйтесь признаться понравившемуся копирайтеру в том, что не можете оплатить его услуги по обычной для него ставке. Многие пойдут Вам навстречу.
Возможность сильно сбить цену – одно из главных преимуществ копирайтеров-фрилансеров перед агентствами. В последних Вам уж точно не светит получить огромную скидку. Максимум, 5-10%, которые изначально были заложены как “на поторговаться”.
Использовав объективные способы оценки, доверьтесь своей интуиции. В процессе общения с копирайтером, Вы наверняка сможете понять, подходит ли он Вам и Вашему заказу. Хороший копирайтер сумеет убедить Вас в том, что он Вам нужен. А значит, он сможет убедить Ваших клиентов в том, что им нужны Вы.
Успехов Вам в выборе копирайтера!
*********
Мдя, прочитал… Любой такие советы может написать… 🙂
порно пресса
Из разговора:
Заказчик: … и делаем упор на прессу…
Я слышу: …и делаем порно прессу….
Я: Какую-какую прессу? 🙂
BY.ru – ну не уроды, а?
Зашел сейчас в Яндекс посмотреть про перевал Цирк 2А – и 6-м номером сайтик на by.ru:
Алтай 1998. Домашняя страничка Александра Люлина.
2А- р.Катуньпер.Арсенал 1А- р.Белая Берель- пер.Цирк 2А- пер.Туристов 1Б- пер.Титова 2А- оз.Аккемское- пер.Кузияк н.к.- пос.Тюнгур- Телецкое озеро- г …
http://lulinalex.by.ru/Texts/Tourism/Reports/Alien/Altay/1998.htm
Захожу туда и вижу: сайт удален (на самом деле не удален, а “перемещен в архив”, но это только если вчитаться):
Документ перемещён.
Вы запросили страницу сайта «lulinalex.by.ru», который не обновлялся слишком давно, был посчитан устаревшим и перенёсен в архив. Последняя редакция сайта произошла 360 дней назад: 1-го сентября 2004-го года. (*)Что можно сделать?
* Чтобы увидеть архивную страницу, вам достаточно пройти по этой ссылке. Система распакует для вас сайт «lulinalex.by.ru» и некоторое время вы сможете ходить по всем его страницам.
* Вы можете вернуться на предыдущую страницу и пойти другой дорогой.
* Наконец, актуальную информацию вам могут дать поиск или каталог:
-только не жмите на ссылку распаковки! 🙂
Ну и там ссылки на байрушный каталог от Бегуна.
Но что удивило. “Нормальные” накрутчики кликов с 404 страниц, типа Агавы – все же перебрасывают на 404 страницу! А здесь – ни фига, по тому же URL все расположено.
Ну ладно, думаю. Может, она 404 в коде http дает? Проверяю через сервис http://seolab.ru/add/header.htm – нет, 200 ОК. Тогда почему он в Яндексе есть, да еще от 2002-2003 года? Нечисто, думаю…
Что оказалось. Экспериментируем с if-modified-since (ставим минус один год) – в том же сервисе на seolab.ru проверяем http://lulinalex.by.ru/Texts/Tourism/Reports/Alien/Altay/1998.htm – оно дает:
HTTP/1.1 200 OK
Date: Sat, 27 Aug 2005 06:00:09 GMT
Server: Apache
Accept-Ranges: bytes
X-Powered-By: PHP/4.3.1
Set-Cookie: extract=1125122409; expires=Sat, 27-Aug-2005 18:00:09 GMT; path=/; domain=lulinalex.by.ru
Connection: close
Content-Type: text/html; charset=WINDOWS-1251
Content-Language: ru
Но это с User-Agent: MSIE! А если поставить User-Agent: Yandex, получится:
HTTP/1.1 304 Not Modified
Date: Sat, 27 Aug 2005 06:00:29 GMT
Server: Apache
Connection: Keep-Alive
Keep-Alive: timeout=5, max=80
ETag: “ba8f87-33cfe-29d67540”
Vary: Host
-короче, By.ru делает вид для поисковиков, что сайт типа есть и не менялся, а сам чужой траф гонит на Бегуна.
Ну не козлы, а? 🙁
PS Не исключаю, что и сами авторы сайтов не знают… А кто знает, пойдет отключать “архивацию”?
Флаги rewriterule
Нарыл нормальное объяснение работы флагов в mod_rewrite на http://host146.t3n.sotline.ru/manual/mod/mod_rewrite.html – за неимением, вывалю сюда, чтобы было перед глазами:
***
Additionally you can set special flags for Substitution by appending
[flags]
as the third argument to the RewriteRule directive. Flags is a comma-separated list of the following flags:
‘redirect|R [=code]’ (force redirect)
Prefix Substitution with http://thishost[:thisport]/ (which makes the new URL a URI) to force a external redirection. If no code is given a HTTP response of 302 (MOVED TEMPORARILY) is used. If you want to use other response codes in the range 300-400 just specify them as a number or use one of the following symbolic names: temp (default), permanent, seeother. Use it for rules which should canonicalize the URL and give it back to the client, e.g., translate “/~” into “/u/” or always append a slash to /u/user, etc.
Note: When you use this flag, make sure that the substitution field is a valid URL! If not, you are redirecting to an invalid location! And remember that this flag itself only prefixes the URL with http://thishost[:thisport]/, rewriting continues. Usually you also want to stop and do the redirection immediately. To stop the rewriting you also have to provide the ‘L’ flag.
‘forbidden|F’ (force URL to be forbidden)
This forces the current URL to be forbidden, i.e., it immediately sends back a HTTP response of 403 (FORBIDDEN). Use this flag in conjunction with appropriate RewriteConds to conditionally block some URLs.
‘gone|G’ (force URL to be gone)
This forces the current URL to be gone, i.e., it immediately sends back a HTTP response of 410 (GONE). Use this flag to mark pages which no longer exist as gone.
‘proxy|P’ (force proxy)
This flag forces the substitution part to be internally forced as a proxy request and immediately (i.e., rewriting rule processing stops here) put through the proxy module. You have to make sure that the substitution string is a valid URI (e.g., typically starting with http://hostname) which can be handled by the Apache proxy module. If not you get an error from the proxy module. Use this flag to achieve a more powerful implementation of the ProxyPass directive, to map some remote stuff into the namespace of the local server.
Notice: To use this functionality make sure you have the proxy module compiled into your Apache server program. If you don’t know please check whether mod_proxy.c is part of the “httpd -l” output. If yes, this functionality is available to mod_rewrite. If not, then you first have to rebuild the “httpd” program with mod_proxy enabled.
‘last|L’ (last rule)
Stop the rewriting process here and don’t apply any more rewriting rules. This corresponds to the Perl last command or the break command from the C language. Use this flag to prevent the currently rewritten URL from being rewritten further by following rules. For example, use it to rewrite the root-path URL (‘/’) to a real one, e.g., ‘/e/www/’.
‘next|N’ (next round)
Re-run the rewriting process (starting again with the first rewriting rule). Here the URL to match is again not the original URL but the URL from the last rewriting rule. This corresponds to the Perl next command or the continue command from the C language. Use this flag to restart the rewriting process, i.e., to immediately go to the top of the loop.
But be careful not to create an infinite loop!
‘chain|C’ (chained with next rule)
This flag chains the current rule with the next rule (which itself can be chained with the following rule, etc.). This has the following effect: if a rule matches, then processing continues as usual, i.e., the flag has no effect. If the rule does not match, then all following chained rules are skipped. For instance, use it to remove the “.www” part inside a per-directory rule set when you let an external redirect happen (where the “.www” part should not to occur!).
‘type|T=MIME-type’ (force MIME type)
Force the MIME-type of the target file to be MIME-type. For instance, this can be used to simulate the mod_alias directive ScriptAlias which internally forces all files inside the mapped directory to have a MIME type of “application/x-httpd-cgi”.
‘nosubreq|NS’ (used only if no internal sub-request)
This flag forces the rewriting engine to skip a rewriting rule if the current request is an internal sub-request. For instance, sub-requests occur internally in Apache when mod_include tries to find out information about possible directory default files (index.xxx). On sub-requests it is not always useful and even sometimes causes a failure to if the complete set of rules are applied. Use this flag to exclude some rules.
Use the following rule for your decision: whenever you prefix some URLs with CGI-scripts to force them to be processed by the CGI-script, the chance is high that you will run into problems (or even overhead) on sub-requests. In these cases, use this flag.
‘nocase|NC’ (no case)
This makes the Pattern case-insensitive, i.e., there is no difference between ‘A-Z’ and ‘a-z’ when Pattern is matched against the current URL.
‘qsappend|QSA’ (query string append)
This flag forces the rewriting engine to append a query string part in the substitution string to the existing one instead of replacing it. Use this when you want to add more data to the query string via a rewrite rule.
‘noescape|NE’ (no URI escaping of output)
This flag keeps mod_rewrite from applying the usual URI escaping rules to the result of a rewrite. Ordinarily, special characters (such as ‘%’, ‘$’, ‘;’, and so on) will be escaped into their hexcode equivalents (‘%’, ‘$’, and ‘;’, respectively); this flag prevents this from being done. This allows percent symbols to appear in the output, as in
RewriteRule /foo/(.*) /bar?arg=P1\=$1 [R,NE]
which would turn ‘/foo/zed’ into a safe request for ‘/bar?arg=P1=zed’.
‘passthrough|PT’ (pass through to next handler)
This flag forces the rewriting engine to set the uri field of the internal request_rec structure to the value of the filename field. This flag is just a hack to be able to post-process the output of RewriteRule directives by Alias, ScriptAlias, Redirect, etc. directives from other URI-to-filename translators. A trivial example to show the semantics: If you want to rewrite /abc to /def via the rewriting engine of mod_rewrite and then /def to /ghi with mod_alias:
RewriteRule ^/abc(.*) /def$1 [PT]
Alias /def /ghi
If you omit the PT flag then mod_rewrite will do its job fine, i.e., it rewrites uri=/abc/… to filename=/def/… as a full API-compliant URI-to-filename translator should do. Then mod_alias comes and tries to do a URI-to-filename transition which will not work.
Note: You have to use this flag if you want to intermix directives of different modules which contain URL-to-filename translators. The typical example is the use of mod_alias and mod_rewrite..
For Apache hackers
If the current Apache API had a filename-to-filename hook additionally to the URI-to-filename hook then we wouldn’t need this flag! But without such a hook this flag is the only solution. The Apache Group has discussed this problem and will add such a hook in Apache version 2.0.
‘skip|S=num’ (skip next rule(s))
This flag forces the rewriting engine to skip the next num rules in sequence when the current rule matches. Use this to make pseudo if-then-else constructs: The last rule of the then-clause becomes skip=N where N is the number of rules in the else-clause. (This is not the same as the ‘chain|C’ flag!)
‘env|E=VAR:VAL’ (set environment variable)
This forces an environment variable named VAR to be set to the value VAL, where VAL can contain regexp backreferences $N and %N which will be expanded. You can use this flag more than once to set more than one variable. The variables can be later dereferenced in many situations, but usually from within XSSI (via ) or CGI (e.g. $ENV{‘VAR’}). Additionally you can dereference it in a following RewriteCond pattern via %{ENV:VAR}. Use this to strip but remember information from URLs.
‘cookie|CO=NAME:VAL:domain[:lifetime[:path]]’ (set cocookie)
This sets a cookie on the client’s browser. The cookie’s name is specified by NAME and the value is VAL. The domain field is the domain of the cookie, such as ‘.apache.org’,the optional lifetime is the lifetime of the cookie in minutes, and the optional path is the path of the cookie
a#link больше не работает…
Где-то когда-то анонсировался (возможно, в одном из примеров, приводимых сотрудниками Яндекса) синтаксис запросов a#link=”хост”[текст] как альтернатива anchor#link=”хост”[текст] для поиска ссылающихся страниц с текстом в ссылке.
Таки он больше не работает.
А вот anchor#link=”www.leningradspb.ru*”[шубы] по-прежнему работает…
Блин, эти недокументированные функции… 🙁
Ленинградским шубам капут…
Несколько раз смотрел в Яндексе запрос “шубы” (последняя тема здесь), и всякий раз сайт leningradspb.ru был в первой десятке. Но и не только по “шубам”, а и по кубам, тубам, любам и т.п. Там все описано.
Нет у меня терпения регулярно все проверять, но вот сегодня я не увидел “Ленинграда” по этим запросам. Может, это алгоритм ранжирования новый так повлиял?
При этом ссылку с искомого сайта Яндекс, как и раньше помнит. И по тексту Мальчик со скрыпочкой и с дудочкой – находит по ссылке “Ленинград”. А вот по отдельным словам – уже нет.
Туда ему и дорога. А ведь в натуре магическая ссылка была. 🙂
Яндекс – новый алгоритм.
По сообщению в блоге Cherny (ну и в блоге Яндекса источник) говорят, что:
А у нас новое ранжирование результатов поиска
В начале недели мы усовершенствовали алгоритм ранжирования, что, по нашей оценке, увеличило точность поиска по некоторым видам запросов. Документы, посвященные именно теме запроса, а не более широким или более узким темам, теперь в результатах поиска показываются выше, а по названиям компаний наверху чаще встречаются сайты этих компаний, а не их партнеров или магазинов.Это изменение алгоритмов не последнее, работы по улучшению ранжирования продолжаются непрерывно, новые изменения могут быть внедрены в ближайшее время.
— Александр Авдонкин, программист отдела разработки поисковых сервисов
-Фсем медитировать! 🙂
Точность поиска – в основном имеется в виду сужение результатов за счет выпихивания “не очень релевантных” позиций из выдачи (вниз, вероятно, а не совсем выкидывание). Наверное.
А вот “Документы, посвященные именно теме запроса” – это интересно. Я всегда считал, что “именно теме” могут, скорее, быть посвящены сайты, а не документы… Оговорился человек? Или они тему каждому документу приписывают? (с точки зрения программиста – или накладно по ресурсам, или какое-нибудь говно в результате выйдет – типа списка в N “характерных” для документа кейвордов).
А насчет
по названиям компаний наверху чаще встречаются сайты этих компаний, а не их партнеров
-не обойтись без изменений алгоритмов ссылочного ранжирования… Вот тебе и тема. Хотя, может, они просто вес слов в тайтле увеличили? 😀
…
А программисты отдела разработки самостоятельные пошли. 🙂 Интересно, они у Воложа испрашивают согласия на публикацию в блоге Яндекса? Или у Сегаловича? 🙂
Всякое-разное….
1) приехал, почитал, действительно – не нашел чего-то, что пропустил за месяц. Всякие разные новости про Яхи, Гуглы, их Адвордзы и т.п. Неохота думать. Надо как-то откомпилировать вообще все вместе и и написать.
2) мой отчет по grants.yandex.ru приняли, однако до конца месяца все “отдыхают”, по крайней мере Андрей Себрант, так что поеду к ним в первой неделе сентября. Еще надо выяснить, как и что можно (и нужно! :)) публиковать из посчитанного по хостграфу.
3) Sim тоже приехал и ратует за пиво с шашлыками.