Все о файле «robots.txt» по-русски — как составить robots.txt

iLoveYouPublic · 27 Янв 2015

Интересно. В частности сайтами не занимался не когда. Взял на заметку.

Natalka · 27 Янв 2015

Syndicate написал(а):
Файл robots.txt

Создание robots.txt

Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt.

Для Рунета самой часто встречающейся задачей является создание файла robots.txt для Яндекса, так как сейчас Яндекс – самая популярная поисковая система. Важно уметь правильно использовать директиву Host, которую соблюдает этот поисковик.

Мета-тег Robots

МЕТА-тег “Robots” позволяет указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.
В этом простом примере:

Код:

META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"

робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.

Он отличается от Стандарта исключения для роботов тем, что вам не нужно тратить много усилий или получать доступ у Администратора cервера.

Куда писать META-тег “Robots”

Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:

Код:

<html> <head> <meta name=“robots” content=“noindex,nofollow”> <meta name=“description” content=“Эта страница ….”> <title>…</title> </head> <body>

Что писать в META-теге “Robots”

META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Несколько примеров:

Код:

<meta name=“robots” content=“index,follow”> <meta name=“robots” content=“noindex,follow”> <meta name=“robots” content=“index,nofollow”> <meta name=“robots” content=“noindex,nofollow”>

Следует учесть, что параметр content тега “robots” нечувствителен к регистру.

Вы не должны включать конфликтующие и повторяющиеся директивы, как например:

PHP:

<meta name=“robots” content=“INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW”>

Правильный синтаксис атрибутов META-тега “Robots”:

content = all | none | directives
all = «ALL»
none = «NONE»
directives = directive ["," directives]
directive = index | follow
index = «INDEX» | «NOINDEX»
follow = «FOLLOW» | «NOFOLLOW»

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Где размещать файл robots.txt

Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots. Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:

PHP:

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/

В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами

PHP:

User-agent: * Disallow: /

Разрешить всем роботам индексировать весь сайт

PHP:

User-agent: * Disallow:

Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов

PHP:

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/

Запретить индексацию сайта только для одного робота

PHP:

User-agent: BadBot Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным

PHP:

User-agent: Yandex Disallow: User-agent: * Disallow: /

Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

PHP:

User-agent: * Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:

PHP:

User-agent: * Disallow: /private.html Disallow: /foo.html Disallow: /bar.html

Очень хорошая статейка. Наконец на этот счет порядок в голове, а то раньше тупо копировала другие роботсы по чужим инструкциям. Особенно не могла понять когда dissalow запрещает, а когда разрешает. Теперь все стало ясно. Спасибо.

Helga · 11 Фев 2015

Вот, действительно, полезная статья. А то такая противоречивая инфа по роботсу.

formiko · 13 Фев 2015

Беру на вооружение .....

MDNdemon · 20 Фев 2015

Довольно таки подробно... Благодарю.

Оля71 · 5 Мар 2015

Очень здоровская инфа

robobot · 23 Июл 2015

а по .htaccess есть что нибудь?

Kitten-Killer · 1 Сен 2015

У меня блог... Раскручиваю по-немногу... Но файл robots.txt как таковой на Блоггере не предусмотрен. Продвижение за счет ключевых слов и мета-тегов.
И именно про этот файл стоит предупреждение, типа если не верен, не лезь!
Опытные спецЫ, подскажите, стоит ли настраивать этот файл или для блога достаточно встроенных ключевых слов и мета-тегов?

Поиск

Все о файле «robots.txt» по-русски — как составить robots.txt

Syndicate

Манимэйкер

iLoveYouPublic

Занимается продажей воздуха.

Natalka

Оптимизирует

Helga

Ищет темы

formiko

Ищет темы

MDNdemon

Ищет темы

Оля71

Тестит темы

robobot

Ищет темы

Kitten-Killer

Ищет темы