Blog Attacks

Cómo Bloquear GPTBot (y Por Qué Quizá No Quieras Hacerlo)

GPTBot rastrea tu sitio para entrenar los modelos de OpenAI. Aquí te explicamos cómo bloquearlo con robots.txt y rangos de IP, y qué sigue sin cubrir ese bloqueo.

Jun 24, 2026 • 8 min read

Mike Kutlu Client-Side Security Consultant

Cómo Bloquear GPTBot (y Por Qué Quizá No Quieras Hacerlo)

GPTBot es el crawler de entrenamiento de OpenAI. Visita páginas web públicas, recopila contenido y lo utiliza para entrenar futuras versiones de ChatGPT y otros modelos de OpenAI. Es distinto de OpenAI Operator (que transacciona) y de OAI-SearchBot (que impulsa la navegación en vivo de ChatGPT). Entender qué sistema de OpenAI está visitando tu sitio determina la respuesta correcta.

Bloquear GPTBot con robots.txt es sencillo y está ampliamente documentado. La pregunta más importante es si bloquear el crawler cambia lo que los agentes de OpenAI pueden hacer en tu sitio, y la respuesta, para los agentes que transaccionan como Operator, es no. Para conocer el patrón más amplio en los scrapers de IA, consulta nuestra guía para bloquear bots de IA que hacen scraping de contenido.

¿Qué Es GPTBot?

Respuesta rápida: GPTBot es un crawler web declarado operado por OpenAI. Su propósito es recopilar contenido web de acceso público para entrenar modelos de IA. Se identifica con una cadena de user-agent conocida y opera desde rangos de IP publicados. OpenAI declara que GPTBot respeta las directivas de robots.txt.

La cadena de user-agent de GPTBot:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot)

OpenAI publica los rangos de IP actuales de GPTBot en la documentación de su bot. El crawler visita páginas, lee el contenido de texto y no ejecuta JavaScript de la misma forma que lo hace un navegador real. Es un crawler HTTP tradicional, no un agente interactivo.

Cómo Bloquear GPTBot con robots.txt

Respuesta rápida: Añade GPTBot a tu robots.txt con una directiva Disallow: / para bloquearlo en todo tu sitio. OpenAI declara que respeta estas directivas. Para un control a nivel de ruta, usa reglas Disallow específicas para restringir el acceso a secciones sensibles mientras permites GPTBot en el contenido público.

Para bloquear GPTBot en todo tu sitio:

User-agent: GPTBot
Disallow: /

Para bloquear GPTBot solo en rutas específicas:

User-agent: GPTBot
Disallow: /private/
Disallow: /checkout/
Disallow: /account/
Allow: /blog/
Allow: /products/

OpenAI respeta estas directivas para el crawler declarado GPTBot. No hay ningún mecanismo técnico de aplicación; robots.txt es una declaración que los crawlers que cumplen las normas eligen seguir. Pero GPTBot tiene un sólido historial de cumplimiento en comparación con algunos otros crawlers de IA que han sido criticados públicamente por ignorar las directivas de robots.txt. El mismo enfoque de robots.txt funciona para otros crawlers declarados, incluido CCBot.

Bloqueo a Nivel de IP para GPTBot

Respuesta rápida: OpenAI publica los rangos de IP de GPTBot, que puedes denegar en tu firewall o CDN. Esto proporciona una capa de aplicación más allá de robots.txt. No requiere que el crawler se autoidentifique, lo que lo hace más fiable que la comparación de user-agent por sí sola.

Si necesitas una aplicación estricta en lugar de una declaración, añade los rangos de IP publicados de GPTBot a tu lista de bloqueo a nivel de infraestructura. Este es el enfoque más fiable para el contenido de alto valor porque:

No depende de que el crawler respete el robots.txt
Captura versiones de GPTBot mal configuradas o más antiguas que quizá no lean correctamente tu robots.txt
Proporciona un registro a nivel de servidor que puedes auditar

Los rangos de IP publicados por OpenAI cambian periódicamente, por lo que esta lista de bloqueo requiere mantenimiento. Consulta la documentación del bot de OpenAI para ver la lista actual.

Por Qué Bloquear GPTBot No Es Suficiente

Respuesta rápida: GPTBot es el crawler de entrenamiento de OpenAI. Bloquearlo no afecta a OpenAI Operator (el agente que transacciona), a OAI-SearchBot (el asistente de navegación en vivo) ni a ningún futuro sistema agéntico de OpenAI. Cada uno opera de forma independiente, con user-agents, rangos de IP y perfiles de comportamiento diferentes.

Esta es la distinción que la mayoría de los ingenieros pasa por alto. El propietario de un sitio que bloquea GPTBot suele creer que ha resuelto "el acceso de OpenAI a su contenido". Ha resuelto uno de los varios sistemas de OpenAI. Operator, la navegación en vivo de ChatGPT y los futuros productos agénticos son sistemas independientes a los que el bloqueo de GPTBot no llega.

El problema de fondo es que GPTBot es un crawler cooperativo y declarado. Puedes bloquearlo porque OpenAI te dice qué aspecto tiene. Los agentes más disruptivos (no declarados, basados en navegador, que transaccionan) son los que no se identifican y no respetan el robots.txt en ningún sentido significativo. Bloquear GPTBot aborda la amenaza visible y cooperativa, mientras deja sin resolver las invisibles y poco cooperativas. La misma brecha estructural se aplica a otros sistemas agénticos, incluido OpenAI Operator.

Qué Aporta la Detección en la Capa del Navegador

Respuesta rápida: GPTBot en sí no requiere detección en la capa del navegador, es visible en la capa de red. Pero los agentes que llegan después del trabajo de GPTBot (ChatGPT Operator, shopping agents agénticos) no lo son. La detección en la capa del navegador cierra la brecha entre los crawlers que puedes ver y los agentes que no puedes ver.

cside no es necesario principalmente para detectar GPTBot. Puedes bloquearlo con dos líneas de robots.txt. cside aborda los agentes que operan dentro de sesiones de navegador reales: los que ejecutan JavaScript, interactúan con tu interfaz y crean sesiones que parecen idénticas a las de usuarios humanos legítimos en la capa de red.

Las señales que cside observa (tiempo de interacción, consistencia de la huella digital, patrones de navegación, ritmo de comportamiento) son irrelevantes para un crawler HTTP sencillo como GPTBot. Son esenciales para detectar Operator, compradores agénticos y las sesiones automatizadas no declaradas que robots.txt no puede detener. En las pruebas controladas de cside, las herramientas tradicionales pasaron por alto agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios.

Panel de detección de agentes de IA de cside

Piensa en cómo se ve esto en la práctica. Una sesión de OpenAI Operator dirigida a un sitio de comercio minorista no se anuncia en ninguna cabecera. Lanza un navegador basado en Chromium, carga la página con ejecución completa de JavaScript, acepta cookies, navega por el árbol de categorías a un ritmo de lectura plausible, añade artículos al carrito y procede al checkout. En la capa de red, cada señal parece la de un cliente con sesión iniciada: la IP pertenece a un pool de residential proxies, la huella digital TLS coincide con una versión actual de navegador y la cookie de sesión es válida.

Lo que cambia es el comportamiento en la subcapa: los eventos del puntero llegan con un espaciado de precisión mecánica, la profundidad de desplazamiento se incrementa en intervalos de píxeles constantes y la distribución del tiempo en página de cada página de producto se agrupa en un valor mucho más estrecho que el que produce cualquier población humana navegando. La instrumentación en la capa del navegador de cside capta esas señales y saca a la luz la sesión como automatizada antes de llegar al checkout. Un WAF, una regla de CDN o un filtro de user-agent no ven nada fuera de lo normal. El mismo enfoque se aplica a los scrapers de contenido de IA no declarados y a otros crawlers que imitan navegadores reales.

¿Deberías Bloquear GPTBot?

Respuesta rápida: Depende de tu relación con los productos de OpenAI. Bloquear GPTBot impide que tu contenido se utilice para entrenar futuros modelos. No impide que ChatGPT haga referencia a tu sitio mediante la navegación en vivo, y no impide que Operator transaccione en tu sitio. Plantéate qué intentas conseguir realmente antes de decidir.

Razones para bloquear GPTBot:

No quieres que tu contenido propietario esté en los conjuntos de datos de entrenamiento de OpenAI
Tienes preocupaciones competitivas por que tu contenido aparezca a través de las respuestas de ChatGPT
Tus términos de servicio restringen explícitamente la recopilación automatizada de datos para el entrenamiento de IA

Razones para no bloquearlo (o para pensarlo con cuidado primero):

Tu contenido ya se beneficia de las citas de ChatGPT en los resultados de búsqueda y las respuestas de IA
Quieres que tu marca y tus productos estén bien representados en la base de conocimiento de ChatGPT
Los futuros sistemas de shopping agéntico entrenados con los datos de tus productos pueden generar tráfico de referencia

Las implicaciones de SEO y GEO de bloquear los crawlers de IA todavía están siendo definidas por el sector. Un sitio que hoy bloquea todos los crawlers de entrenamiento de IA puede encontrarse mañana con que sus productos están ausentes de los sistemas de recomendación impulsados por IA.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

GPTBot es el crawler web de OpenAI que recopila contenido web de acceso público para entrenar modelos de IA, incluidas futuras versiones de ChatGPT. Se identifica con una cadena de user-agent conocida, opera desde rangos de IP publicados y está diseñado para respetar las directivas de `robots.txt`. Es un crawler HTTP que no ejecuta JavaScript ni interactúa con las interfaces de aplicaciones web.

Añade `User-agent: GPTBot` seguido de `Disallow: /` a tu archivo `robots.txt` para bloquear GPTBot en todo tu sitio. Para un control a nivel de ruta, usa reglas `Disallow` específicas para restringir el acceso a secciones sensibles. OpenAI ha declarado que GPTBot respeta estas directivas.

No. GPTBot y OpenAI Operator son sistemas independientes. Bloquear GPTBot impide que el crawler de entrenamiento visite tu sitio. No tiene ningún efecto sobre Operator, el asistente de navegación en vivo de ChatGPT, ni sobre otros productos agénticos de OpenAI. Esos sistemas operan de forma independiente, con user-agents y perfiles de comportamiento diferentes.

Sí. OpenAI publica los rangos de IP de GPTBot en la documentación de su bot. Puedes añadir estos rangos a la lista de denegación de tu firewall o CDN para conseguir una aplicación que no dependa de que el crawler lea correctamente tu `robots.txt`. Estos rangos de IP cambian periódicamente y requieren mantenimiento.

Bloquear GPTBot impide que tu contenido se utilice en futuros entrenamientos. No elimina el contenido que ya estaba indexado antes de añadir el bloqueo. El límite de conocimiento de ChatGPT y el momento de las visitas previas de GPTBot a tu sitio determinan lo que los modelos de OpenAI ya saben sobre tu contenido.

Monitoriza y Asegura tus Scripts de Terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Reservar una demo

Comenzar gratis

Comienza gratis, o prueba Business con una prueba de 14 días.

Interfaz del panel de cside mostrando monitorización de scripts y análisis de seguridad

Cómo detectar y prevenir el account sharing sin perjudicar a los usuarios legítimos

La mayor objeción a la detección de account sharing son los falsos positivos: ¿qué pasa si marcamos a un suscriptor que simplemente usa varios…

Cómo Bloquear GPTBot (y Por Qué Quizá No Quieras Hacerlo)

GPTBot rastrea tu sitio para entrenar los modelos de OpenAI. Aquí te explicamos cómo bloquearlo con robots.txt y rangos de IP, y qué sigue sin cubrir ese bloqueo.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre herramientas de grabación de sesiones y riesgo de exfiltración de PII

Herramientas de session recording en sitios de juego: el riesgo de exfiltración de PII que los operadores no están viendo

Las herramientas de session recording en sitios de juego pueden exfiltrar PII de jugadores si están mal configuradas o comprometidas. Tres formas.

Detección de account sharing: cómo cerrar la brecha de aplicación que los límites de sesiones concurrentes no cubren

Los límites de sesiones concurrentes marcan el caso obvio.

Una trayectoria de cursor azul brillante y fluida junto a una trayectoria de bot roja y angular sobre un plano oscuro.

Atrapar bots por cómo se mueven: detección de cursor por comportamiento

Cómo el modelo cursor_v2 de cside puntúa el movimiento del ratón para atrapar a los bots sigilosos que ya superan los controles de fingerprint e IP.

Cómo Bloquear Applebot-Extended en Tu Sitio Web

Applebot-Extended es el rastreador de entrenamiento de IA de Apple que alimenta Apple Intelligence. Aprende en qué se diferencia de Applebot y cómo excluirte vía robots.txt.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre monitoreo de scripts de terceros en dominios de casino

Cómo monitorear scripts de terceros en 100 o más dominios de casino

Guía práctica para monitorear scripts de terceros en 100+ dominios de casino: expansión de scripts, alertas entre dominios y escalamiento cside.

Riesgos de seguridad de la IA agéntica para sitios web: privacidad, cumplimiento y detección

Los navegadores de IA agéntica omiten el consentimiento de cookies, ejecutan JavaScript real y crean brechas de cumplimiento del RGPD que la detección de bots a nivel CDN no puede ver.

Ilustración de un sistema neuronal de detección de bots en dos etapas que separa sesiones de navegador humanas y de bots

Cazar bots que no quieren ser cazados: por dentro de un stack neuronal de detección en dos etapas

Cómo un stack neuronal de dos etapas caza stealth browsers, scrapers con proxy residencial y agentes LLM que pasan toda huella, y sus límites reales.

Cómo Bloquear DeepSeekBot en Tu Sitio Web

DeepSeekBot rastrea tu sitio para una empresa china de IA. Aprende a bloquearlo con robots.txt, reglas de IP y los riesgos reales de soberanía de datos que plantea.