Як правильно заповнити файл robots.txt: критично важливі моменти

Як заповнюється robots.txt

Індексація robots.txt

Robots.txt – це текстовий файл, що знаходиться в кореневому каталозі сайту. Він складається з набору інструкцій для індексування і сканування файлів, сторінок і каталогів сайту для пошукових машин.

Відразу обмовимося, що присутність файлу robots.txt на сервері обов’язково. Навіть якщо ви повністю відкриваєте ресурс для індексації.

Перше, що індексують і сканують пошукові системи на ресурсі, – файл robots.txt. Є умови дійсності файлу:

  • Назва. Виключно robots.txt. Пам’ятайте, що URL-адреси чутливі до регістру.
  • Місцезнаходження. Файл повинен знаходитися в кореневому каталозі верхнього рівня хоста і бути єдиним.
  • Протокол. Підтримуються всі протоколи на основі URI – HTTP і HTTPS. Пошукові боти роблять звичайним GET-запит, на який має надійти відповідь зі статусом 200 OK. Можлива обробка файлу з FTP-серверів: доступ здійснюється з використанням анонімного входу.
  • Формат. Файл повинен бути в текстовому форматі. Його можна створити в будь-якому текстовому редакторі з підтримкою кодування UTF-8. Чи не рекомендуємо використовувати текстові процесори, так як вони можуть зберігати файли в пропрієтарного форматі і додавати додаткові символи, не розпізнаються пошуковими роботами.
  • Розмір. Для Google значення не повинно перевищувати 500 кілобайт, а для Яндекса – 32 КБ. Гугл переходить до файлу, але сканує перші 500 кілобайт, а Яндекс відразу дивиться на розмір і, якщо ліміт перевищено, вважає, що доступ до вмісту сайту закритий. При успішному скануванні та індексування файлу Яндекс виконує інструкції протягом 2 тижнів, а для Google вони є рекомендованими і не є обов’язковими до виконання.

Налаштування robots.txt

Щоб правильно заповнити robots.txt, в першу чергу потрібно дотримуватися правил, заданих пошуковими системами. Особливо це стосується директив.

Директиви

Пошукові роботи Google, Яндекс. Bing, Yahoo і Ask підтримують такі директиви:

User-agent

Обов’язкова директива. Вказує на пошукового робота, якому адресовані правила. Враховується назву бота або *, яка адресує правила до всіх роботам. Найбільш популярні в Росії:

  1. Google: APIs-Google, Mediapartners-Google, AdsBot-Google-Mobile, Googlebot-Image, Googlebot-News, Googlebot-Video, Googlebot – дивитися повну рядок агента користувача.
  2. Яндекс: Yandex, YandexBot, YandexDirect, YandexImages, YandexMetrika, YandexMobileBot, YandexMedia, YandexNews, YandexPagechecker, YandexMarket, YandexCalenda, YandexDirectDyn, YaDirectFetcher, YandexAccessibilityBot, YandexScreenshotBot, YandexVideoParser, YandexSearchShop, YandexOntoDBAPI.
  3. Решта: Baiduspider – китайська пошукова система Baidu, Cliqzbot – анонімна ПС Cliqz, AhrefsBot – сервіс Ahrefs, BingBot – ПС Bing від Microsoft, Slurp – ПС Yahoo, DuckDuckBot – ПС DuckDuckGo, facebot – краулер від Facebook, MSNBot – ПС MSN, Mail.Ru – ПС Mail.ru, Teoma – сервіс ASK.

Рекомендуємо періодично переглядати логи сайту і закрити доступ для агресивних ботів, яких розвелося дуже багато.

Allow і Disallow

Дозволяє і забороняє індексування і сканування окремих файлів, сторінок і каталогів ресурсу. Якщо не вказано заборона, то за замовчуванням сканування дозволено.

Використовуйте заборона для:

  • конфіденційних даних;
  • результатів пошуку по ресурсу;
  • статистики відвідуваності;
  • дублів;
  • логів;
  • сторінки баз даних.

Їх можна використовувати спільно в одному блоці. Пріоритет віддається більш довгому правилом. Якщо префікси однакової довжини, то при конфлікті пріоритет віддається Allow.

Sitemap

Вказує шлях до однойменного файлу.

Clean-param

Вказує параметри сторінки, які не потрібно враховувати. Існує два типи параметрів URL:

  • Параметри відстеження – UTM-мітки;
  • Параметри, що впливають на контент, – наприклад, результати фільтрації.

Не варто очищати параметри, що впливають на контент, оскільки їх можна використовувати як точку входу при SEO-просуванні.

Crawl-delay

Вказує час в секундах, через яке необхідно приступити до завантаження наступної сторінки.

Host

Вказує на домен з протоколом і портами. Вказуйте потрібний протокол – HTTP або HTTPS. Якщо порт не відрізняється від стандартного, то його не потрібно вказувати.

Відзначимо, що Яндекс відмовився від цієї директиви і замінив її 301 перенаправленням. Однак веб-майстри не поспішають видаляти Host з файлу, оскільки роботі пошукових роботів це не заважає.

Синтаксис і приклади

Крім директив, щоб правильно налаштувати robots.txt, потрібно дотримуватися правил синтаксису.

Розберемо на прикладах.

  1. Вказівки чутливі до регістру. Приклад: https://www.miralinks.ru/project#/ і https://www.miralinks.ru/Project#/  – це різні шляхи.
  2. Для кириличних адрес використовуйте Punycode.
    # НЕВІРНО
    Disallow: / кошик# ВІРНО:
    Disallow: /% D0% BA% D0% BE% D1% 80% D0% B7% D0% B8% D0% BD% D0% B0
  3. Для коментування використовуйте #. Як в попередньому пункті.
  4. Хоча б одна Allow або Disallow повинна бути в групі. приклад:# Блокування доступу до всього ресурсу певного боту
    User-agent: Googlebot # сюди вказується токен бота
    Disallow: /

    # Блокування доступу до всього ресурсу всім роботам
    User-agent: * # зірочка означає «будь-бот»
    Disallow: /

  5. Обов’язково вказуйте Sitemap. Хоч ця директива не обов’язкова, ми радимо її вказувати, оскільки адреса може відрізнятися від стандартного і боти можуть її годі й шукати. приклад:User-agent: *
    Allow: /
    Sitemap: https://site-example.ru/sitemap.xml
  6. Для використовуйте знак $ .Приклад:User-agent: *
    Disallow: https://site-example.ru/здесь-будет-очень-длинный-$
    адреса сайту
    Sitemap: https://site-example.ru/sitemap.xml
    Host: https://site-example.ru
  7. Можна заборонити доступ до окремого файлу, сторінці або категорії. приклад:User-agent: *
    Disallow: /page-example.html # не потрібно вказувати весь шлях ресурсу
    Disallow: /images/image-example.png # будь-який файл: картинка, документ, все що завгодно
    Disallow: /*.js$ # заборонити певний тип файлу
    Disallow: / category-example /
    Allow: / category-example / subcategory-example / # минулого рядком заборонили розділ і його наступні підкатегорії і файли, але далі можна дозволити сканувати інший розділ

Не бійтеся зробити помилку – файли robots.txt можна перевірити на валідність за допомогою спеціальних сервісів.

Перевірка robots.txt на валідність

Щоб переконатися в правильності складання файлу robots.txt скористайтеся інструментами перевірки від пошукових систем:

Перевірка в Google Search Console. Потрібно авторизуватися в акаунті з підтвердженими правами на сайт. Далі перейти в «Сканування», а потім в «Інструмент перевірки файлу robots.txt». Перевірити можна тільки сайт, в якому ви авторизувалися.

Перевірка в інструменті Яндекса. Авторизація не потрібна, просто вкажіть адресу сайту або завантажте вихідний код файлу. Перевірити можна будь-який сайт.

В сервісах перевірки можна завантажити кілька сторінок одночасно, побачити всі помилки, виправити їх прямо в інструменті і перенести готовий файл на сайт.

Be the first to comment

Your email address will not be published.


*