AI Bot Rules: явные секции для AI-краулеров в robots.txt
Зачем добавлять отдельные секции для GPTBot/ClaudeBot/PerplexityBot сверх общего правила, пример, типичные ошибки и как мы это оцениваем.
Обновлено:
Что это
AI Bot Rules — отдельные секции в robots.txt для конкретных AI-краулеров,
поверх общего User-agent: *. Каждая AI-платформа ходит своим User-Agent, и явная
секция фиксирует к нему отношение. Это уточнение к общему гайду по
robots.txt — здесь фокус именно на AI-ботах.
Зачем это AI-агентам
По умолчанию AI-боты следуют правилу *. Явные секции дают три вещи:
- Гарантия доступа — работает, даже если
*ограничен. - Точечные права —
/blog/открыт,/api/private/закрыт для конкретного бота. - Сигнал намерения — явное доверие платформам, билет в GEO/AEO-выдачу.
Актуальные AI User-Agents:
| User-Agent | Платформа |
|---|---|
GPTBot, ChatGPT-User, OAI-SearchBot | OpenAI |
ClaudeBot, anthropic-ai | Anthropic |
PerplexityBot, Perplexity-User | Perplexity |
Google-Extended | Google AI / Gemini |
Applebot-Extended | Apple |
YandexAdditional | Яндекс |
Минимальный рабочий пример
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Правильно vs неправильно
| Правильно | Неправильно |
|---|---|
| 3+ явных AI-секции | Только User-agent: * |
Точные имена ботов (GPTBot) | Опечатки (GptBot) — секция не сматчится |
Намеренные Allow/Disallow | Случайный Disallow: / в AI-секции |
Типичные ошибки
- Опечатки в именах — бот не распознаёт секцию, применяется
*. - Только
*— нет явного сигнала доверия (и ниже балл, см. ниже). - Конфликт общего и AI-блоков.
- Путать с Content Signals — то про использование, это про доступ.
Как проверить
Проверка зависит от robots.txt и оценивается градиентом:
- pass — найдено 3+ AI-специфичных секций;
- warning — 1–2 секции;
- fail — только
*или ничего.
curl -s https://example.com/robots.txt | grep -iE 'gptbot|claudebot|perplexitybot|google-extended'