robots.txt para Crawlers de IA: GPTBot, ClaudeBot, PerplexityBot
Actualizado: 13 de mayo de 2026
Los motores de búsqueda IA usan crawlers distintos a sus bots de entrenamiento. OAI-SearchBot (ChatGPT Search) es diferente de GPTBot (entrenamiento). Bloquear GPTBot no permite automáticamente OAI-SearchBot para búsqueda. Permite GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot y Google-Extended en robots.txt para ser indexado por búsqueda IA.
robots.txt para Crawlers de IA
Los motores de búsqueda IA usan crawlers distintos a sus bots de entrenamiento, y muchos sitios los bloquean accidentalmente.
Los Crawlers Que Necesitas Conocer
| Bot | Empresa | Propósito |
|---|---|---|
GPTBot | OpenAI | Entrenamiento (no búsqueda) |
OAI-SearchBot | OpenAI | Indexación en tiempo real para ChatGPT Search |
PerplexityBot | Perplexity | Indexación para búsqueda |
ClaudeBot | Anthropic | Indexación de contenido |
Google-Extended | Entrenamiento y búsqueda en AI Overviews | |
Applebot-Extended | Apple | Apple Intelligence |
Distinción crítica: GPTBot es para datos de entrenamiento de OpenAI. OAI-SearchBot es para indexación en tiempo real de ChatGPT Search. Si bloqueas GPTBot para evitar la recopilación de datos de entrenamiento pero no permites explícitamente OAI-SearchBot, tu sitio será invisible en las respuestas de ChatGPT Search.
El Error Común
Muchos sitios usan este patrón para bloquear el entrenamiento de IA:
User-agent: GPTBot
Disallow: /
Esto bloquea el entrenamiento de OpenAI, pero OAI-SearchBot sigue las mismas reglas generales a menos que se especifique por separado. Resultado: invisible en ChatGPT Search.
Configuración Recomendada
Si quieres ser indexado por búsqueda IA pero no usado para entrenamiento:
# Bloquear bots de entrenamiento
User-agent: GPTBot
Disallow: /
# Permitir bots de indexación de búsqueda explícitamente
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Si quieres máxima visibilidad en búsqueda IA (permitir entrenamiento y búsqueda):
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Bloquear Secciones Específicas
Puedes permitir la indexación de búsqueda IA mientras proteges contenido privado:
User-agent: OAI-SearchBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
Disallow: /usuario/
Disallow: /checkout/
Alternativa con Meta Tag
Para control a nivel de página, usa el meta tag noai:
<meta name="robots" content="noai, noimageai">
Verificación
Después de actualizar robots.txt:
- Revisa tu robots.txt en vivo en
tu-dominio.com/robots.txt - Usa Google Search Console → robots.txt Tester para Google-Extended
- Espera 24-48 horas para que los crawlers actualicen
- Verifica visibilidad en Perplexity buscando frases únicas de tu contenido