GPTBot es el crawler de entrenamiento de OpenAI. Visita páginas web públicas, recopila contenido y lo utiliza para entrenar futuras versiones de ChatGPT y otros modelos de OpenAI. Es distinto de OpenAI Operator (que transacciona) y de OAI-SearchBot (que impulsa la navegación en vivo de ChatGPT). Entender qué sistema de OpenAI está visitando tu sitio determina la respuesta correcta.
Bloquear GPTBot con robots.txt es sencillo y está ampliamente documentado. La pregunta más importante es si bloquear el crawler cambia lo que los agentes de OpenAI pueden hacer en tu sitio, y la respuesta, para los agentes que transaccionan como Operator, es no. Para conocer el patrón más amplio en los scrapers de IA, consulta nuestra guía para bloquear bots de IA que hacen scraping de contenido.
¿Qué Es GPTBot?
Respuesta rápida: GPTBot es un crawler web declarado operado por OpenAI. Su propósito es recopilar contenido web de acceso público para entrenar modelos de IA. Se identifica con una cadena de user-agent conocida y opera desde rangos de IP publicados. OpenAI declara que GPTBot respeta las directivas de
robots.txt.
La cadena de user-agent de GPTBot:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot)
OpenAI publica los rangos de IP actuales de GPTBot en la documentación de su bot. El crawler visita páginas, lee el contenido de texto y no ejecuta JavaScript de la misma forma que lo hace un navegador real. Es un crawler HTTP tradicional, no un agente interactivo.
Cómo Bloquear GPTBot con robots.txt
Respuesta rápida: Añade GPTBot a tu
robots.txtcon una directivaDisallow: /para bloquearlo en todo tu sitio. OpenAI declara que respeta estas directivas. Para un control a nivel de ruta, usa reglasDisallowespecíficas para restringir el acceso a secciones sensibles mientras permites GPTBot en el contenido público.
Para bloquear GPTBot en todo tu sitio:
User-agent: GPTBot
Disallow: /
Para bloquear GPTBot solo en rutas específicas:
User-agent: GPTBot
Disallow: /private/
Disallow: /checkout/
Disallow: /account/
Allow: /blog/
Allow: /products/
OpenAI respeta estas directivas para el crawler declarado GPTBot. No hay ningún mecanismo técnico de aplicación; robots.txt es una declaración que los crawlers que cumplen las normas eligen seguir. Pero GPTBot tiene un sólido historial de cumplimiento en comparación con algunos otros crawlers de IA que han sido criticados públicamente por ignorar las directivas de robots.txt. El mismo enfoque de robots.txt funciona para otros crawlers declarados, incluido CCBot.
Bloqueo a Nivel de IP para GPTBot
Respuesta rápida: OpenAI publica los rangos de IP de GPTBot, que puedes denegar en tu firewall o CDN. Esto proporciona una capa de aplicación más allá de
robots.txt. No requiere que el crawler se autoidentifique, lo que lo hace más fiable que la comparación de user-agent por sí sola.
Si necesitas una aplicación estricta en lugar de una declaración, añade los rangos de IP publicados de GPTBot a tu lista de bloqueo a nivel de infraestructura. Este es el enfoque más fiable para el contenido de alto valor porque:
- No depende de que el crawler respete el
robots.txt - Captura versiones de GPTBot mal configuradas o más antiguas que quizá no lean correctamente tu
robots.txt - Proporciona un registro a nivel de servidor que puedes auditar
Los rangos de IP publicados por OpenAI cambian periódicamente, por lo que esta lista de bloqueo requiere mantenimiento. Consulta la documentación del bot de OpenAI para ver la lista actual.
Por Qué Bloquear GPTBot No Es Suficiente
Respuesta rápida: GPTBot es el crawler de entrenamiento de OpenAI. Bloquearlo no afecta a OpenAI Operator (el agente que transacciona), a OAI-SearchBot (el asistente de navegación en vivo) ni a ningún futuro sistema agéntico de OpenAI. Cada uno opera de forma independiente, con user-agents, rangos de IP y perfiles de comportamiento diferentes.
Esta es la distinción que la mayoría de los ingenieros pasa por alto. El propietario de un sitio que bloquea GPTBot suele creer que ha resuelto "el acceso de OpenAI a su contenido". Ha resuelto uno de los varios sistemas de OpenAI. Operator, la navegación en vivo de ChatGPT y los futuros productos agénticos son sistemas independientes a los que el bloqueo de GPTBot no llega.
El problema de fondo es que GPTBot es un crawler cooperativo y declarado. Puedes bloquearlo porque OpenAI te dice qué aspecto tiene. Los agentes más disruptivos (no declarados, basados en navegador, que transaccionan) son los que no se identifican y no respetan el robots.txt en ningún sentido significativo. Bloquear GPTBot aborda la amenaza visible y cooperativa, mientras deja sin resolver las invisibles y poco cooperativas. La misma brecha estructural se aplica a otros sistemas agénticos, incluido OpenAI Operator.
Qué Aporta la Detección en la Capa del Navegador
Respuesta rápida: GPTBot en sí no requiere detección en la capa del navegador, es visible en la capa de red. Pero los agentes que llegan después del trabajo de GPTBot (ChatGPT Operator, shopping agents agénticos) no lo son. La detección en la capa del navegador cierra la brecha entre los crawlers que puedes ver y los agentes que no puedes ver.
cside no es necesario principalmente para detectar GPTBot. Puedes bloquearlo con dos líneas de robots.txt. cside aborda los agentes que operan dentro de sesiones de navegador reales: los que ejecutan JavaScript, interactúan con tu interfaz y crean sesiones que parecen idénticas a las de usuarios humanos legítimos en la capa de red.
Las señales que cside observa (tiempo de interacción, consistencia de la huella digital, patrones de navegación, ritmo de comportamiento) son irrelevantes para un crawler HTTP sencillo como GPTBot. Son esenciales para detectar Operator, compradores agénticos y las sesiones automatizadas no declaradas que robots.txt no puede detener. En las pruebas controladas de cside, las herramientas tradicionales pasaron por alto agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios.

Piensa en cómo se ve esto en la práctica. Una sesión de OpenAI Operator dirigida a un sitio de comercio minorista no se anuncia en ninguna cabecera. Lanza un navegador basado en Chromium, carga la página con ejecución completa de JavaScript, acepta cookies, navega por el árbol de categorías a un ritmo de lectura plausible, añade artículos al carrito y procede al checkout. En la capa de red, cada señal parece la de un cliente con sesión iniciada: la IP pertenece a un pool de residential proxies, la huella digital TLS coincide con una versión actual de navegador y la cookie de sesión es válida.
Lo que cambia es el comportamiento en la subcapa: los eventos del puntero llegan con un espaciado de precisión mecánica, la profundidad de desplazamiento se incrementa en intervalos de píxeles constantes y la distribución del tiempo en página de cada página de producto se agrupa en un valor mucho más estrecho que el que produce cualquier población humana navegando. La instrumentación en la capa del navegador de cside capta esas señales y saca a la luz la sesión como automatizada antes de llegar al checkout. Un WAF, una regla de CDN o un filtro de user-agent no ven nada fuera de lo normal. El mismo enfoque se aplica a los scrapers de contenido de IA no declarados y a otros crawlers que imitan navegadores reales.
¿Deberías Bloquear GPTBot?
Respuesta rápida: Depende de tu relación con los productos de OpenAI. Bloquear GPTBot impide que tu contenido se utilice para entrenar futuros modelos. No impide que ChatGPT haga referencia a tu sitio mediante la navegación en vivo, y no impide que Operator transaccione en tu sitio. Plantéate qué intentas conseguir realmente antes de decidir.
Razones para bloquear GPTBot:
- No quieres que tu contenido propietario esté en los conjuntos de datos de entrenamiento de OpenAI
- Tienes preocupaciones competitivas por que tu contenido aparezca a través de las respuestas de ChatGPT
- Tus términos de servicio restringen explícitamente la recopilación automatizada de datos para el entrenamiento de IA
Razones para no bloquearlo (o para pensarlo con cuidado primero):
- Tu contenido ya se beneficia de las citas de ChatGPT en los resultados de búsqueda y las respuestas de IA
- Quieres que tu marca y tus productos estén bien representados en la base de conocimiento de ChatGPT
- Los futuros sistemas de shopping agéntico entrenados con los datos de tus productos pueden generar tráfico de referencia
Las implicaciones de SEO y GEO de bloquear los crawlers de IA todavía están siendo definidas por el sector. Un sitio que hoy bloquea todos los crawlers de entrenamiento de IA puede encontrarse mañana con que sus productos están ausentes de los sistemas de recomendación impulsados por IA.







