Управление поисковыми роботами?

Можно, и даже нужно. Вопрос - как? Попробуем разобраться...

(c) Компьютерная газета

Основных инструментов всего два:

1. Размещение файла со специальным именем robots.txt в корневом каталоге сервера (только для обладателей доменных имен www.your_name.com ).
2. Применение meta-тэгов в контейнере "HEAD" отдельного документа.
Рассмотрим каждое средство в отдельности.

Файл robot.txt популярно объясняет роботу поисковой машины, что ему индексировать, а чего не стоит. Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т.п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного хоста. Некоторые же роботы вообще не проводят индексирования, если указанный файл отсутствует (например, Lycos).

Итак, если вы поддерживате работу сервера с доменным именем www.your_name.com, то содержимое файла robots.txt должно быть доступно по URL http://www.your_name.com/robots.txt .

Вместо изложения стандарта по написанию файла robot.txt, приведу пример, который позволит сделать все необходимое, по крайней мере, для типичных ситуаций. Файл robots.txt должен содержать одну или несколько записей, разделенных пустыми строками:

Пример 1:

# robots.txt for http://www.your_name.com
User-agent: *
Disallow: /
User-agent: Lycos
Disallow: /cgi-bin/ /tmp/

Каждая запись должна содержать переменные User-agent и Disallow. User-agent задает оригинальное имя программы-робота соответствующей поисковой системы, для которого предназначена информация.

Имеется возможность перечислить несколько имен роботов через пробел. Disallow указывает на перечень закрываемых каталогов. В примере 1 символ "#" предваряет строку комментария. Символ * является маской и означает "для всех роботов". Первая строка Disallow с символом "/" запрещает индексирование всех каталогов (напротив, если бы отсутствовал символ "/", то разрешалось бы индексирование всех без исключения каталогов). Вторая относится к поисковому роботу Lycos и при индексировании им сервера запрещает ему индексировать директории /cgi-bin/ и /tmp/, а остальные разрешает. Таким образом, сервер будет проиндексирован только системой Lycos.

Файл robots.txt поддерживается практически всеми роботами, однако корневой каталог сервера может быть вам не доступен (то есть Вы владелец обычной homepage). В этом случае для аналогичных целей, но уже в пределах только одного документа, можно использовать специальные тэги META. МЕТА-тэги решают не только проблему запрета, но предоставляют и позитивные возможности для управления индексированием. С их помощью автор может самостоятельно задать набор ключевых слов и дать краткое описание своего ресурса.

Для демонстрации этих возможностей прибегнем к примеру контейнера HEAD HTML-кода документа.

Пример 2.

<HEAD>
<META name="robots" content="index, follow">
<META name="keywords" content="поиск, поисковый робот, поисковые роботы " >
<META name="description" content="Страница с информацией о правилах индексации ">
<TITLE>Управление индексированием </TITLE>
</HEAD>

Из примера видно, что все управление из META-тэга сводится к заданию двух переменных, а именно: name и content. При данном значении name, переменная content может принимать значение из набора допустимых. Первая МЕТА (name="robots") дает роботам предписание индексировать и саму страницу (content="index"), и документы, на которые она содержит ссылки (content="follow"). Вместо двух этих значений, приведенных через запятую, можно было бы написать одно content="all" с тем же результатом. Для переменной content в данной ситуации допустимо также использовать еще три значения: noindex — не индексировать сам документ, но идти по ссылкам с него, nofollow — индексировать, но не идти по ссылкам, и none — эквивалентно употреблению двух последних через запятую. Если МЕТА-тэг robots пропущен или не указаны значения content, то по умолчанию поисковый робот поступает, как если бы присутствовал тэг <META name="robots" content="index, follow">. Если в content обнаружено ключевое слово ALL, то робот поступает соответственно, игнорируя возможно указанные другие слова. Работа каждого робота — know-now их производителей.
О мета-тэгах keywords и description скажу кратко. Первый из них содержит слова, которые помогают индексировать страницу и в ответ на которые поисковая машина выдаст этот документ. Второй же содержит текст, который будет выдан в суммарном ответе на запрос пользователя. Эти теги очень важны.
Если Вы имеете зеркала своего сервера, то очень некрасиво, если выдаются две разные ссылки на разные сервера, но с одним содержимым. Чтобы этого избежать, следует использовать МЕТА-тэг URL с указанием абсолютного URL этого документа (в случае зеркал — на соответствующую страницу главного сервера).

Пример 3.

<META NAME="URL" CONTENT=www.your-name.com>

Представители большинства поисковых систем уже склонились к тому, что применение META-тэгов способствует повышению релевантности отклика при обработке запросов. Говоря просто, поисковые машины стали учитывать "мнение" веб-мастера о своем сервере. Более подробную информацию ищите у меня на странице http://pahan.w3.to/ .
Скрыган Андрей


Компьютерная газета. Статья была опубликована в номере 39 за 1999 год в рубрике интернет :: разное

©1997-2024 Компьютерная газета