Robots txt | 100000p

23 февраля 5:55

Автор: Павел Рубрика: Оптимизация сайта. Seo продвижение. Комментариев нет

Robots txt. Зачем нужен robots txt. Как создать файл

Что такое Robots.txt и поисковые роботы

Где находится Robots.txt

Что будет с сайтом без Robots.txt

Как создать Robots.txt

Содержание сайта

Содержание файла Robots.txt

Самый простой файл

Что такое Robots.txt и поисковые роботы.

Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. Поисковые роботы — «пауки», «краулеры» это программы, которые «приходят» на Ваш сайт, загружают и «просматривают» страницы, делают «специальные» копии этих страниц и помещают их в базу поисковой системы. Содержание страницы анализируется, выделяются ключевые слова, заголовки, ссылки и т.д. Можно посмотреть в каком виде эти копии хранятся в базе поисковой системы.

У каждой поисковой системы свои «поисковые роботы». У Яндекса их много: YandexBot, YandexDirect, YandexDirectDyn, YandexMedia, YandexImages, YaDirectFetcher, YandexBlogs, YandexNews, YandexPagechecker, YandexMetrika, YandexMarket, YandexCalendar (подробнее на странице Яндекс «Использование robots.txt» ).

Основные из них:

«YandexBot» — основной индексирующий робот.

«YandexImages» — индексатор Яндекс.Картинок.

«YandexMedia» — робот, индексирующий мультимедийные данные.

Похожие поисковые роботы у Google:

Googlebot (Google Поиск), Googlebot News, Googlebot Images, Googlebot Video, Google Smartphone, Google Mobile AdSense, Google AdSense, Google AdsBot (подробнее на странице Google « поисковые роботы Google» ).

Googlebot — основной поисковый робот от Google. Он обнаруживает и добавлять в индекс Гугл новые или измененные страницы.

Googlebot Images — индексатор Картинок.

Googlebot Video — робот, индексирующий видео файлы.

Где находится Robots.txt.

Файл Robots.txt находится в Корневом каталоге Вашего сайта /имя домена/httpdocs, его можно увидеть зайдя на Ваш Хостинг.

Можно ввести ссылку http://имя домена/robots.txt и увидеть Ваш файл robots.txt в том виде, в котором его видят «поисковые роботы».

Если введя адрес — файл не появился, значит его нет.

Что будет с сайтом без Robots.txt.

Теоретически все будет работать и без файла Robots.txt. Робот начнет загружать файл, если он отсутствует или не является текстовым(не читается), «поисковый робот» проиндексирует весь сайт, все страницы, все картинки, абсолютно все — что найдет. Т.е посчитает, что доступ к файлам не ограничен. «Притащив» копии новых страниц в базу поисковой системы, робот укажет в отчете об отсутствии на сайте файла Robots.txt. Каждый раз, робот будет тратить драгоценные секунды на поиск файла Robots.txt на Вашем сайте. Наличие Robots.txt на сайте это как «свидетельство о рождении», нет документа — Вы неполноценный гражданин, нет Robots.txt на сайте — неполноценный сайт. Также в robots.txt указывается путь к файлу sitemap.xml, а этот файл не менее важен. Далее, когда Вы зарегистрируйте свой сайт в Вэбмастер Яндекс или Вэбмастер Гугл после сканирования сайта будет выдаваться ошибка — «отсутствует Robots.txt». Любая программа для анализа сайта тоже всегда будет «кричать», что нет файла Robots.txt.

Как создать Robots.txt.

Файл создается в простом файловом редакторе — в «Блокноте».

Файлу необходимо дать имя robots и сохранить в формате txt.

Можно убедиться, правильно ли Вы его сохранили

Затем его необходимо закинуть в корневой каталог сайта (на Хостинге). Потом заходите в Вэбмастер Яндекс - Анализ robots.txt, введите содержание текста файла и проанализируйте .

Получите отчет о наличии ошибок в файле. Можно вбить адрес любой страницы и убедиться, что она доступна для индексирования или наоборот.

В Вэбмастер Гугл также есть инструмент проверки файла robots.txt.

После проверки файла в Вэбмастер Яндекс, Вэбмастер Гугл «ошибка об отсутствии файла» пропадет из отчета.

Содержание сайта.

Прежде чем говорить о содержании файла robots.txt, давайте посмотрим из чего состоит Ваш сайт, зайдем в корневую директорию /имя домена/httpdocs

Корневой каталог содержит папки imgs, wp-admin, wp-content, wp-includes и различные PHP файлы.

wp-admin — само название выдает суть папки WordPress- admin...эта папка содержит файлы отвечающие за конфигурацию консоли и административной панели WordPress.

wp-content — папка wp-content содержит все что пользователь загрузил на сайт cache (кэш), languages(языковые файлы), logs(логи) , plugins(загруженные плагины), themes(темы шаблона сайта), upgrade(апгрейд), uploads (все ваши загруженные картинки, мультимедия).

wp-includes — файлы обеспечивающие работу движка WordPress.

Где же хранятся страницы и записи сайта. Оказывается «физически» они не существуют, файл со страницей нельзя найти на Хостинге, открыть, посмотреть и «пощупать». Данные о содержании страницы, о тексте, о шрифте, структуре содержатся в Базе данных MySQL. При запросе к адресу страницы они автоматически формируются «Движком сайта». Зачем так сделано? А представьте если бы файл страницы существовал «физически» и его открыл «первый посетитель», а затем бы открыл второй...что бы было... наверное он получил ,бы ответ, что страница занята и просматривается другим посетителем. Но движок сайта смог бы сгенерировать копию страницы для второго посетителя... наверное да...но если 10 посетителей...100 посетителей одновременно просматривают запись или страницу? Поэтому формировать страницы логичнее, в зависимости от имеющихся запросов. Я клоню к тому, что информация указываемая в robots.txt обычно касается папок корневого каталога, про страницы и записи там нет информации. Поисковый робот найдя новую ссылку (в sitemap.xml или придя по ней с другого сайта) «загрузит страницу» она сформируется на его запрос и он проанализирует ее. Можно конечно указать в robots.txt адрес конкретной страницы и запретить ее индексирование, но так делают редко, легче ее «не публиковать», оставить в черновиках и т.д.

Содержание файла.

Файл начинается с записи User-agent.

User-agent: YandexBot — информация для основного индексирующего робота Яндекс.или

User-agent: Yandex — информация для всех индексирующих роботов Яндекс.или

User-agent: * — информация для всех индексирующих роботов.

Тоже самое User-agent: Googlebot — информация для основного индексирующего робота Гугл.

Затем следуют директивы Disallow: (скрыть — не индексировать) и Allow:(показать — индексировать)

Например:

User-agent: Yandex

Disallow: / - запретить индексирование всего сайта поисковому роботу Яндекс

Другой пример:

User-agent: Yandex

Allow: /wp-content/uploads/

Disallow: / — запретить все кроме «загруженных картинок, мультимедия»

Если в директиве Disallow: нет информации (после : ничего не написано)

User-agent: Yandex

Disallow: — значит это будет расценено как

Allow: / — индексировать все

Затем добавляется директива Host.

Host: имя домена — в ней указывается основной сайт для зеркал Вашего сайта.

Затем добавляется директива Sitemap.

Sitemap: http://имя домена/sitemap.xml — указывается путь к файлу sitemap.xml.

Робот посетив сайт, запомнит путь к файлу и будет его использовать при последующих посещениях.

Рассмотрим примеры файла robots.txt.

User-agent: * — для всех поисковых роботов

Disallow: /wp-includes — не индексировать папку

Disallow: /wp-feed — не индексировать папку

Disallow: /wp-content/plugins — не индексировать папку

Disallow: /wp-content/cache — не индексировать папку

Disallow: /wp-content/themes — не индексировать папку

Host: 100000p.ru — указание основного сайта при наличии зеркал

Sitemap: http://100000p.ru/sitemap.xml — путь к файлу sitemap.xml

— пробел обязательно ставится между директивами User-agent:

User-agent: Googlebot-Image — разрешить роботу гугл индексировать картинки

Allow: /wp-content/uploads/

— пробел обязательно ставится между директивами User-agent:

User-agent: YandexImages — роботу Яндекс

Allow: /wp-content/uploads/ — разрешить индексировать картинки

Можно зайти на любой сайт, к блогеру сайт которого Вам нравится, которого читаете и позаимствовать (скопировать) файл у него http://имя домена/robots.txt.

Это сделать можно, но не желательно, т.к там могут быть указаны пути к папкам которых просто нет у Вас и робот каждый раз будет заходить к Вам на сайт, читать robots.txt и зависать на секунды, не находя нужного пути, нужной папки.

Отсюда делаем вывод: что лучше взять чей то файл за образец и откорректировать его, удалить то что Вам не нужно или подробно прочитать инструкции по созданию файла robots.txt в Яндекс и Гугл и написать свой.