Все о файле «robots.txt» по-русски — как составить robots.txt

Syndicate

Манимэйкер
8 Сен 2013
154
1.144
21
31
Москва
Файл robots.txt
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Создание robots.txt
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt.

Для Рунета самой часто встречающейся задачей является создание файла robots.txt для Яндекса, так как сейчас Яндекс – самая популярная поисковая система. Важно уметь правильно использовать директиву Host, которую соблюдает этот поисковик.

Мета-тег Robots
МЕТА-тег “Robots” позволяет указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.
В этом простом примере:
Код:
META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"
робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.

Он отличается от Стандарта исключения для роботов тем, что вам не нужно тратить много усилий или получать доступ у Администратора cервера.

Куда писать META-тег “Robots”
Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:
Код:
<html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<meta name=“description” content=“Эта страница ….”>
<title>…</title>
</head>
<body>

Что писать в META-теге “Robots”
META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Несколько примеров:
Код:
<meta name=“robots” content=“index,follow”>
<meta name=“robots” content=“noindex,follow”>
<meta name=“robots” content=“index,nofollow”>
<meta name=“robots” content=“noindex,nofollow”>
Следует учесть, что параметр content тега “robots” нечувствителен к регистру.

Вы не должны включать конфликтующие и повторяющиеся директивы, как например:

PHP:
<meta name=“robots” content=“INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW”>
Правильный синтаксис атрибутов META-тега “Robots”:

content = all | none | directives
all = «ALL»
none = «NONE»
directives = directive ["," directives]
directive = index | follow
index = «INDEX» | «NOINDEX»
follow = «FOLLOW» | «NOFOLLOW»

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Где размещать файл robots.txt
Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots. Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:
PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами

PHP:
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт

PHP:
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов

PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота

PHP:
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным

PHP:
User-agent: Yandex
Disallow:

User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
PHP:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:

PHP:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html
 

Natalka

Оптимизирует
1 Июл 2014
279
140
11
Ukraine
usadbaplus.ru
Файл robots.txt


Создание robots.txt
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt.

Для Рунета самой часто встречающейся задачей является создание файла robots.txt для Яндекса, так как сейчас Яндекс – самая популярная поисковая система. Важно уметь правильно использовать директиву Host, которую соблюдает этот поисковик.

Мета-тег Robots
МЕТА-тег “Robots” позволяет указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.
В этом простом примере:
Код:
META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"
робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.

Он отличается от Стандарта исключения для роботов тем, что вам не нужно тратить много усилий или получать доступ у Администратора cервера.

Куда писать META-тег “Robots”
Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:
Код:
<html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<meta name=“description” content=“Эта страница ….”>
<title>…</title>
</head>
<body>

Что писать в META-теге “Robots”
META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Несколько примеров:
Код:
<meta name=“robots” content=“index,follow”>
<meta name=“robots” content=“noindex,follow”>
<meta name=“robots” content=“index,nofollow”>
<meta name=“robots” content=“noindex,nofollow”>
Следует учесть, что параметр content тега “robots” нечувствителен к регистру.

Вы не должны включать конфликтующие и повторяющиеся директивы, как например:

PHP:
<meta name=“robots” content=“INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW”>
Правильный синтаксис атрибутов META-тега “Robots”:

content = all | none | directives
all = «ALL»
none = «NONE»
directives = directive ["," directives]
directive = index | follow
index = «INDEX» | «NOINDEX»
follow = «FOLLOW» | «NOFOLLOW»

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Где размещать файл robots.txt
Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots. Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:
PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами

PHP:
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт

PHP:
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов

PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота

PHP:
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным

PHP:
User-agent: Yandex
Disallow:

User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
PHP:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:

PHP:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html
Очень хорошая статейка. Наконец на этот счет порядок в голове, а то раньше тупо копировала другие роботсы по чужим инструкциям. Особенно не могла понять когда dissalow запрещает, а когда разрешает. Теперь все стало ясно. Спасибо.
 

Helga

Ищет темы
25 Ноя 2014
77
10
1
Вот, действительно, полезная статья. А то такая противоречивая инфа по роботсу.
 

Kitten-Killer

Ищет темы
1 Сен 2015
137
20
1
39
У меня блог... Раскручиваю по-немногу... Но файл robots.txt как таковой на Блоггере не предусмотрен. Продвижение за счет ключевых слов и мета-тегов.
И именно про этот файл стоит предупреждение, типа если не верен, не лезь!
Опытные спецЫ, подскажите, стоит ли настраивать этот файл или для блога достаточно встроенных ключевых слов и мета-тегов?