Bot Access Control Легко

AI Bot Rules: явные секции для AI-краулеров в robots.txt

Зачем добавлять отдельные секции для GPTBot/ClaudeBot/PerplexityBot сверх общего правила, пример, типичные ошибки и как мы это оцениваем.

Обновлено:

Что это

AI Bot Rules — отдельные секции в robots.txt для конкретных AI-краулеров, поверх общего User-agent: *. Каждая AI-платформа ходит своим User-Agent, и явная секция фиксирует к нему отношение. Это уточнение к общему гайду по robots.txt — здесь фокус именно на AI-ботах.

Зачем это AI-агентам

По умолчанию AI-боты следуют правилу *. Явные секции дают три вещи:

  1. Гарантия доступа — работает, даже если * ограничен.
  2. Точечные права/blog/ открыт, /api/private/ закрыт для конкретного бота.
  3. Сигнал намерения — явное доверие платформам, билет в GEO/AEO-выдачу.

Актуальные AI User-Agents:

User-AgentПлатформа
GPTBot, ChatGPT-User, OAI-SearchBotOpenAI
ClaudeBot, anthropic-aiAnthropic
PerplexityBot, Perplexity-UserPerplexity
Google-ExtendedGoogle AI / Gemini
Applebot-ExtendedApple
YandexAdditionalЯндекс

Минимальный рабочий пример

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Правильно vs неправильно

ПравильноНеправильно
3+ явных AI-секцииТолько User-agent: *
Точные имена ботов (GPTBot)Опечатки (GptBot) — секция не сматчится
Намеренные Allow/DisallowСлучайный Disallow: / в AI-секции

Типичные ошибки

  • Опечатки в именах — бот не распознаёт секцию, применяется *.
  • Только * — нет явного сигнала доверия (и ниже балл, см. ниже).
  • Конфликт общего и AI-блоков.
  • Путать с Content Signals — то про использование, это про доступ.

Как проверить

Проверка зависит от robots.txt и оценивается градиентом:

  • pass — найдено 3+ AI-специфичных секций;
  • warning — 1–2 секции;
  • fail — только * или ничего.
curl -s https://example.com/robots.txt | grep -iE 'gptbot|claudebot|perplexitybot|google-extended'

Источники