llms.txt y robots.txt para crawlers de IA

Actualizado: 18 de abril de 2026

llms.txt es un archivo en la raíz del sitio que guía a los crawlers de IA sobre el contenido disponible, similar a robots.txt pero orientado a comprensión semántica. robots.txt debe permitir explícitamente GPTBot, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Google-Extended y BingBot.

llms.txt y robots.txt para crawlers de IA

llms.txt es un archivo en la raíz del sitio que guía a los crawlers de IA sobre el contenido disponible, similar a robots.txt pero orientado a comprensión semántica. robots.txt debe permitir explícitamente GPTBot, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Google-Extended y BingBot.

Estos dos archivos son la Capa 1 de GEO — sin acceso correcto de crawlers, todo lo demás (schema, meta tags, estructura de contenido) es irrelevante porque los motores de IA nunca verán tu contenido.

robots.txt — todos los crawlers de IA

Coloca este archivo en la raíz de tu sitio. El problema más común: muchos sitios tienen Disallow: / con un wildcard sin excepciones para bots de IA — quedan completamente invisibles para todos los sistemas generativos.

User-agent: GPTBot          # OpenAI crawling
Allow: /

User-agent: OAI-SearchBot   # OpenAI search
Allow: /

User-agent: ClaudeBot        # Anthropic entrenamiento
Allow: /

User-agent: Claude-User      # Anthropic retrieval
Allow: /

User-agent: Claude-SearchBot # Anthropic búsqueda
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended  # Gemini / AI Overviews
Allow: /

User-agent: BingBot          # Copilot
Allow: /

Sitemap: https://misitio.com/sitemap.xml
Sitemap: https://misitio.com/llms.txt

Verificar tu robots.txt

curl https://misitio.com/robots.txt | grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended"

Resultado esperado: Allow: / para cada bot.

llms.txt — guía semántica para crawlers de IA

Archivo en Markdown en la raíz del sitio (/llms.txt). A diferencia de robots.txt (que indica acceso), llms.txt explica semánticamente qué contiene el sitio y para quién sirve.

# Mi Sitio
> Descripción de una línea de qué es el sitio y a quién sirve.

## Contenido principal
- [Guía completa de GEO](https://misitio.com/guia-geo): Qué es GEO y cómo funciona
- [Implementación técnica](https://misitio.com/tecnico): Meta tags, schema y robots.txt
- [Casos de uso reales](https://misitio.com/casos): Implementaciones con datos reales

## Herramientas
- [Checklist GEO](https://misitio.com/checklist): 22 items ordenados por impacto

## Sobre nosotros
- [Quiénes somos](https://misitio.com/about): Credenciales y experiencia del equipo

## Políticas
- [Términos de uso](https://misitio.com/terminos)
- [Privacidad](https://misitio.com/privacidad)

Principios para un buen llms.txt

  1. Descripción clara en la primera línea — los crawlers la usan para entender el propósito del sitio
  2. URLs absolutas — no relativas
  3. Descripciones de 1 oración por página — qué hace esa página específicamente
  4. Máximo 30-50 páginas — prioriza el contenido más importante
  5. Actualizar cuando añades páginas nuevas — mantenerlo vigente

Sitemap XML optimizado para IA

<lastmod> es el único tag que los crawlers de IA usan activamente. priority y changefreq Google los ignora, pero otros crawlers sí los leen.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://misitio.com/guia-geo</loc>
    <lastmod>2026-04-18</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.9</priority>
  </url>
  <url>
    <loc>https://misitio.com/schema-markup</loc>
    <lastmod>2026-04-18</lastmod>
    <priority>0.8</priority>
  </url>
</urlset>

Segmentar por tipo de contenido — permite a los crawlers de IA enfocarse en lo relevante:

/sitemap-blog.xml
/sitemap-guias.xml
/sitemap-recursos.xml

Los 8 crawlers de IA que debes conocer

User-agentMotorFunción
GPTBotOpenAIRastreo para indexación
OAI-SearchBotOpenAIBúsqueda en tiempo real
ClaudeBotAnthropicRastreo para entrenamiento
Claude-UserAnthropicRetrieval en tiempo real
Claude-SearchBotAnthropicBúsqueda
PerplexityBotPerplexityRastreo e indexación
Google-ExtendedGoogleGemini y AI Overviews
BingBotMicrosoftCopilot

Dato crítico: Claude-User (retrieval en tiempo real) y OAI-SearchBot son diferentes de ClaudeBot y GPTBot (entrenamiento). Necesitas permitir ambos para visibilidad completa.

Checklist de acceso y descubrimiento

  • robots.txt permite los 8 crawlers de IA explícitamente
  • SSR o SSG activo — nunca CSR puro para contenido indexable
  • llms.txt en la raíz con descripción del sitio y páginas principales
  • Sitemap XML con <lastmod> en todos los URLs
  • Sitemap referenciado en robots.txt
  • llms.txt referenciado en robots.txt