llms.txt y robots.txt para crawlers de IA
Actualizado: 18 de abril de 2026
llms.txt es un archivo en la raíz del sitio que guía a los crawlers de IA sobre el contenido disponible, similar a robots.txt pero orientado a comprensión semántica. robots.txt debe permitir explícitamente GPTBot, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Google-Extended y BingBot.
llms.txt y robots.txt para crawlers de IA
llms.txt es un archivo en la raíz del sitio que guía a los crawlers de IA sobre el contenido disponible, similar a robots.txt pero orientado a comprensión semántica. robots.txt debe permitir explícitamente GPTBot, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Google-Extended y BingBot.
Estos dos archivos son la Capa 1 de GEO — sin acceso correcto de crawlers, todo lo demás (schema, meta tags, estructura de contenido) es irrelevante porque los motores de IA nunca verán tu contenido.
robots.txt — todos los crawlers de IA
Coloca este archivo en la raíz de tu sitio. El problema más común: muchos sitios tienen Disallow: / con un wildcard sin excepciones para bots de IA — quedan completamente invisibles para todos los sistemas generativos.
User-agent: GPTBot # OpenAI crawling
Allow: /
User-agent: OAI-SearchBot # OpenAI search
Allow: /
User-agent: ClaudeBot # Anthropic entrenamiento
Allow: /
User-agent: Claude-User # Anthropic retrieval
Allow: /
User-agent: Claude-SearchBot # Anthropic búsqueda
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended # Gemini / AI Overviews
Allow: /
User-agent: BingBot # Copilot
Allow: /
Sitemap: https://misitio.com/sitemap.xml
Sitemap: https://misitio.com/llms.txt
Verificar tu robots.txt
curl https://misitio.com/robots.txt | grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended"
Resultado esperado: Allow: / para cada bot.
llms.txt — guía semántica para crawlers de IA
Archivo en Markdown en la raíz del sitio (/llms.txt). A diferencia de robots.txt (que indica acceso), llms.txt explica semánticamente qué contiene el sitio y para quién sirve.
# Mi Sitio
> Descripción de una línea de qué es el sitio y a quién sirve.
## Contenido principal
- [Guía completa de GEO](https://misitio.com/guia-geo): Qué es GEO y cómo funciona
- [Implementación técnica](https://misitio.com/tecnico): Meta tags, schema y robots.txt
- [Casos de uso reales](https://misitio.com/casos): Implementaciones con datos reales
## Herramientas
- [Checklist GEO](https://misitio.com/checklist): 22 items ordenados por impacto
## Sobre nosotros
- [Quiénes somos](https://misitio.com/about): Credenciales y experiencia del equipo
## Políticas
- [Términos de uso](https://misitio.com/terminos)
- [Privacidad](https://misitio.com/privacidad)
Principios para un buen llms.txt
- Descripción clara en la primera línea — los crawlers la usan para entender el propósito del sitio
- URLs absolutas — no relativas
- Descripciones de 1 oración por página — qué hace esa página específicamente
- Máximo 30-50 páginas — prioriza el contenido más importante
- Actualizar cuando añades páginas nuevas — mantenerlo vigente
Sitemap XML optimizado para IA
<lastmod> es el único tag que los crawlers de IA usan activamente. priority y changefreq Google los ignora, pero otros crawlers sí los leen.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://misitio.com/guia-geo</loc>
<lastmod>2026-04-18</lastmod>
<changefreq>monthly</changefreq>
<priority>0.9</priority>
</url>
<url>
<loc>https://misitio.com/schema-markup</loc>
<lastmod>2026-04-18</lastmod>
<priority>0.8</priority>
</url>
</urlset>
Segmentar por tipo de contenido — permite a los crawlers de IA enfocarse en lo relevante:
/sitemap-blog.xml
/sitemap-guias.xml
/sitemap-recursos.xml
Los 8 crawlers de IA que debes conocer
| User-agent | Motor | Función |
|---|---|---|
| GPTBot | OpenAI | Rastreo para indexación |
| OAI-SearchBot | OpenAI | Búsqueda en tiempo real |
| ClaudeBot | Anthropic | Rastreo para entrenamiento |
| Claude-User | Anthropic | Retrieval en tiempo real |
| Claude-SearchBot | Anthropic | Búsqueda |
| PerplexityBot | Perplexity | Rastreo e indexación |
| Google-Extended | Gemini y AI Overviews | |
| BingBot | Microsoft | Copilot |
Dato crítico: Claude-User (retrieval en tiempo real) y OAI-SearchBot son diferentes de ClaudeBot y GPTBot (entrenamiento). Necesitas permitir ambos para visibilidad completa.
Checklist de acceso y descubrimiento
- robots.txt permite los 8 crawlers de IA explícitamente
- SSR o SSG activo — nunca CSR puro para contenido indexable
- llms.txt en la raíz con descripción del sitio y páginas principales
- Sitemap XML con
<lastmod>en todos los URLs - Sitemap referenciado en robots.txt
- llms.txt referenciado en robots.txt