Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.
- Пример;
- Где найти;
- Как создать;
- Инструкция по работе;
- Синтаксис;
- Директивы;
- Как проверить.
Пример правильного файла robots.txt для сайта на 1С-Битрикс
- User-agent: *
- Disallow: /auth*
- Disallow: /basket*
- Disallow: /order*
- Disallow: /personal/
- Disallow: /search/
- Disallow: /test/
- Disallow: /ajax/
- Disallow: *index.php*
- Disallow: /*show_include_exec_time=
- Disallow: /*show_page_exec_time=
- Disallow: /*show_sql_stat=
- Disallow: *bitrix*
- Disallow: /*clear_cache=
- Disallow: /*clear_cache_session=
- Disallow: /*ADD_TO_COMPARE_LIST
- Disallow: /*ORDER_BY
- Disallow: /*print*
- Disallow: /*action*
- Disallow: /*register=
- Disallow: /*password*
- Disallow: /*login=
- Disallow: /*type=
- Disallow: /*sort=
- Disallow: /*order=
- Disallow: /*logout=
- Disallow: /*auth=
- Disallow: /*backurl=
- Disallow: /*back_url=
- Disallow: /*BACKURL=
- Disallow: /*BACK_URL=
- Disallow: /*back_url_admin=
- Disallow: /*?utm_source=
- Disallow: *?arrFilter*
- Host: https://24rek.ru
- Sitemap: https://24rek.ru/sitemap_index.xml
https://serpstat.com/robots.txthttps://netpeak.net/robots.txt
Как создать и редактировать robots.txt
Вручную
Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):
Если его нет, то достаточно создать новый файл.
Через модули/дополнения/плагины
Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:
- Для 1С-Битрикс;
https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814
Также можно скачать другие версии файла или просто ознакомиться с ними.
Как видим из примера все работает нормально.
Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.
Важно! Ресурсы-домены в этом случае выбирать нельзя.
Теперь мы видим:
- Сам файл;
- Кнопку, открывающую его;
- Симулятор для проверки сканирования.
Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.