robots.txt para Crawlers de IA: GPTBot, ClaudeBot, PerplexityBot

Actualizado: 13 de mayo de 2026

Los motores de búsqueda IA usan crawlers distintos a sus bots de entrenamiento. OAI-SearchBot (ChatGPT Search) es diferente de GPTBot (entrenamiento). Bloquear GPTBot no permite automáticamente OAI-SearchBot para búsqueda. Permite GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot y Google-Extended en robots.txt para ser indexado por búsqueda IA.

robots.txt para Crawlers de IA

Los motores de búsqueda IA usan crawlers distintos a sus bots de entrenamiento, y muchos sitios los bloquean accidentalmente.

Los Crawlers Que Necesitas Conocer

BotEmpresaPropósito
GPTBotOpenAIEntrenamiento (no búsqueda)
OAI-SearchBotOpenAIIndexación en tiempo real para ChatGPT Search
PerplexityBotPerplexityIndexación para búsqueda
ClaudeBotAnthropicIndexación de contenido
Google-ExtendedGoogleEntrenamiento y búsqueda en AI Overviews
Applebot-ExtendedAppleApple Intelligence

Distinción crítica: GPTBot es para datos de entrenamiento de OpenAI. OAI-SearchBot es para indexación en tiempo real de ChatGPT Search. Si bloqueas GPTBot para evitar la recopilación de datos de entrenamiento pero no permites explícitamente OAI-SearchBot, tu sitio será invisible en las respuestas de ChatGPT Search.

El Error Común

Muchos sitios usan este patrón para bloquear el entrenamiento de IA:

User-agent: GPTBot
Disallow: /

Esto bloquea el entrenamiento de OpenAI, pero OAI-SearchBot sigue las mismas reglas generales a menos que se especifique por separado. Resultado: invisible en ChatGPT Search.

Configuración Recomendada

Si quieres ser indexado por búsqueda IA pero no usado para entrenamiento:

# Bloquear bots de entrenamiento
User-agent: GPTBot
Disallow: /

# Permitir bots de indexación de búsqueda explícitamente
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

Si quieres máxima visibilidad en búsqueda IA (permitir entrenamiento y búsqueda):

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

Bloquear Secciones Específicas

Puedes permitir la indexación de búsqueda IA mientras proteges contenido privado:

User-agent: OAI-SearchBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
Disallow: /usuario/
Disallow: /checkout/

Alternativa con Meta Tag

Para control a nivel de página, usa el meta tag noai:

<meta name="robots" content="noai, noimageai">

Verificación

Después de actualizar robots.txt:

  1. Revisa tu robots.txt en vivo en tu-dominio.com/robots.txt
  2. Usa Google Search Console → robots.txt Tester para Google-Extended
  3. Espera 24-48 horas para que los crawlers actualicen
  4. Verifica visibilidad en Perplexity buscando frases únicas de tu contenido