Blog

Detección de agentes de IA y bots: cómo distinguir entre humanos, bots buenos y agentes maliciosos

Una taxonomía de clasificación y un modelo de control basado en la intención para separar humanos, bots buenos y agentes maliciosos, y luego decidir qué hacer con cada uno.

Jul 11, 2026 • 7 min read

Simon Wijckmans Founder & CEO

Detección de agentes de IA y bots: cómo distinguir entre humanos, bots buenos y agentes maliciosos

Tienes tres problemas vestidos con el mismo disfraz. Un humano que lee tu página de checkout, un crawler de búsqueda que la indexa y un stealth browser que enumera tarjetas robadas contra ella pueden presentar todos un user-agent de Chrome plausible y una IP residencial limpia. Trátalos como un único grupo y, o bien bloquearás ingresos, o bien dejarás pasar el fraude.

La solución es una taxonomía y una decisión: clasifica cada sesión en una clase conocida, lee lo que está intentando hacer y asígnale exactamente una acción: permitir, monitorizar, retar, servir contenido para agentes o bloquear. Este artículo es el marco de clasificación y decisión. Para la mecánica de las señales subyacentes, la guía para detectar tráfico de agentes de IA cubre las señales de identidad, red, navegador y comportamiento; para elegir un proveedor, consulta cómo elegir una solución de detección de agentes de IA. Cuando necesites saber por qué las defensas más antiguas no captan este tráfico, la detección de bots heredada en la era de los agentes de IA explica la brecha.

Una taxonomía de cinco clases que se asigna a una acción

"Bot bueno frente a bot malo" es demasiado grueso, porque el agente de compra de un consumidor está automatizado y es bienvenido, mientras que un crawler de búsqueda está automatizado y es bienvenido por una razón completamente distinta. Divide el tráfico en cinco clases operativas, cada una vinculada a una acción por defecto:

Clase	Ejemplos	Intención	Acción por defecto
Humano	Visitantes reales, clientes con sesión iniciada	Navegar, comprar, gestionar la cuenta	Permitir, monitorizar el riesgo
Bot bueno	Googlebot, GPTBot, ClaudeBot, PerplexityBot, bots de API de partners	Indexar contenido, integración declarada	Permitir, limitar la tasa, verificar la identidad
Automatización neutral	Monitores de disponibilidad, verificadores de enlaces, lectores de RSS/previsualización	Operativa, de bajo valor, de bajo daño	Monitorizar, limitar la tasa
Agente de IA de consumo	Agentes de compra e investigación que actúan en nombre de una persona real	Completar una tarea por encargo de una persona	Permitir o servir contenido para agentes
Agente malicioso	Scrapers, probadores de tarjetas, bots de abuso de cuentas, stealth browsers	Extraer valor o cometer fraude	Retar o bloquear

La clase no es fija para una sesión. Un agente de consumo que navega por páginas de producto está en la columna de "permitir" hasta el momento en que empieza a enviar formularios de pago a velocidad de máquina, momento en el que su intención, y su clase, han cambiado.

La identidad te dice quién; la intención te dice qué hacer

Las señales de identidad responden a "quién dice ser esto": user-agent, nombre de crawler declarado, huella. Son necesarias y casi gratuitas de falsificar. Un GPTBot que se autodeclara puede verificarse cruzando la IP de la petición con los rangos publicados del crawler, lo que detecta a los suplantadores. Pero las clases peligrosas nunca se declaran a sí mismas.

Las señales de intención responden a "qué está haciendo esta sesión". Viven en el comportamiento y en el runtime, y son mucho más caras de falsificar de forma convincente:

navigator.webdriver activado, o suprimido demasiado limpiamente, en una sesión que por lo demás parece un Chrome corriente.
Fugas de CDP / Runtime: artefactos del Chrome DevTools Protocol (propiedades cdc_, nodos de accesibilidad eliminados) que delatan que Playwright o Puppeteer están controlando la página.
Deriva de la huella: contextos de WebGL, Canvas y Audio que no cuentan una historia coherente sobre un único dispositivo, o que mutan a lo largo de una sesión.
Comportamiento de proxy residencial: una IP "de consumo" cuya zona horaria, idioma e historial de ASN no cuadran, rotando entre peticiones.
Cadencia de acciones: una ráfaga de envíos de tarjetas en unos pocos minutos es intención, no identidad. Ninguna cadena de user-agent te dirá eso; la secuencia de acciones sí.

Clasificas combinando identidad e intención. Una sesión que supera todas las comprobaciones de identidad pero falla en el runtime y la cadencia es exactamente el caso de agente malicioso que la herramienta basada solo en red deja pasar.

Por qué esto importa más en 2026

La clase maliciosa se volvió barata. La investigación de seguridad web de 2026 de cside informa de que las instalaciones de playwright-stealth aumentaron aproximadamente 10 veces a lo largo de 2025, un indicador claro de la rapidez con la que la automatización antidetección pasó de ser un nicho a convertirse en herramienta de ataque generalizada. Informe de investigación de cside 2026

Al mismo tiempo, las clases bienvenidas crecieron. Los crawlers de búsqueda con IA ahora impulsan un descubrimiento real, y los agentes de compra de consumo completan compras reales. Así que los dos extremos de la taxonomía se expandieron a la vez: más automatización que quieres permitir, y más automatización construida específicamente para parecerlo. Por eso un detector binario falla: no tiene una columna para "automatizado y bienvenido". Para la mecánica profunda de cómo se esconde el extremo malicioso, consulta stealth browsers y navegadores antidetección, explicados. Las mismas señales detectan las campañas de credential stuffing que golpean el login cuando un agente pasa de navegar a atacar cuentas.

Asigna una sola acción de control a cada clase

Una vez que una sesión está clasificada, el control debe ser determinista. Cinco acciones cubren la taxonomía:

Permitir: humanos y bots buenos verificados en sus rutas esperadas. Registra y sigue adelante.
Monitorizar: automatización neutral y cualquier sesión cuya clase todavía sea ambigua. Recopila señales, sin añadir fricción todavía.
Retar / limitar la tasa: sesiones que tienden a maliciosas. Ralentízalas, sube el nivel de verificación o limita la tasa de la acción concreta (login, checkout) en lugar de todo el sitio.
Servir contenido para agentes: un agente de consumo conocido en una ruta donde prefieres guiar antes que bloquear. Dale una vista creada a propósito o un paso de "contáctanos" en lugar de filtrar precios en bruto a una sesión con forma de scraper.
Bloquear: intención maliciosa confirmada, como enumeración de tarjetas, credential stuffing y campañas de abuso de cuentas.

Dos reglas mantienen esto honesto. Acota las acciones a la acción, no al visitante: reta el envío del checkout, no respondas 403 a la página de inicio. Y toma la decisión por página: un stealth browser que lee una entrada del blog es un caso de monitorizar; la misma sesión en tu bóveda de tarjetas es un caso de bloquear. Para el manual de actuación en el extremo del bloqueo, consulta cómo bloquear agentes de IA en tu sitio web y, para la variante de fraude con pagos, cómo bloquear agentes de IA que prueban tarjetas.

Dónde tiene que ocurrir la clasificación

Esta taxonomía solo funciona si puedes leer la intención, y la intención vive en el navegador. Los crawlers de IA que nunca ejecutan JavaScript nunca disparan tu analítica, así que son invisibles para GA4 y PostHog. Los agentes de consumo y maliciosos ejecutan navegadores reales y parecen humanos para esas mismas herramientas. Ninguno de los dos extremos es separable en la capa de analítica, y la mayor parte de la clase maliciosa supera por diseño las comprobaciones de la capa de red: IP limpia, user-agent válido, forma de petición plausible.

cside observa el runtime del navegador en tiempo real. Captura el dispositivo y la IP real, expone las señales de automatización y de huella que revelan la intención, marca los agentes de IA y los stealth browsers dentro de la página, y expone esas señales mediante API para que puedas impulsar la decisión de permitir / monitorizar / retar / servir / bloquear en tu propio flujo de trabajo. Esa es la capa donde un humano, un bot bueno y un agente malicioso por fin dejan de parecerse.

Más lecturas en cside

Founder & CEO Simon Wijckmans

Founder and CEO of cside. Previously a product manager on Cloudflare Page Shield (now Cloudflare Client-Side Security). Co-chair of the W3C Anti-Fraud Community Group and a Forbes 30 Under 30 honoree. Building accessible security against client-side attacks — web security is not an enterprise-only problem.

Back to top

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

Cinco clases operativas cubren la mayor parte del tráfico: humanos, bots buenos que quieres (crawlers de búsqueda y de IA, integraciones de partners), automatización neutral que toleras (monitores de disponibilidad, verificadores de enlaces), agentes de IA de consumo que actúan en nombre de una persona real (agentes de compra e investigación) y agentes maliciosos (scrapers, probadores de tarjetas, bots de abuso de cuentas, stealth browsers). Las clases importan porque cada una merece una acción de control distinta: agruparlas en 'bot o no bot' tira por la borda la decisión que realmente necesitas tomar.

La identidad es quién dice ser una sesión: una cadena de user-agent, un nombre de crawler declarado, una huella. La intención es lo que la sesión intenta hacer ahora mismo: leer un artículo, bloquear inventario, enumerar tarjetas, crear cuentas. La identidad es barata de falsificar y se mantiene estable a lo largo de una sesión; la intención se revela mediante el comportamiento y cambia a medida que la sesión pasa de navegar a un intento de transacción. El control debe basarse en la intención, porque es lo que un atacante no puede falsificar gratis.

Porque los bots buenos y los agentes de IA de consumo ya forman parte de tu tráfico. El bloqueo indiscriminado elimina los crawlers de búsqueda y de búsqueda con IA que impulsan el descubrimiento, rompe las integraciones de partners y rechaza a los agentes de compra que completan compras reales para clientes reales. Además destruye tu propia visibilidad: una vez que respondes 403 a todo, dejas de aprender qué estaba llegando realmente a tu sitio. El objetivo es una política que permita las clases útiles y reserve la fricción para las dañinas.

Monitoriza y Asegura tus Scripts de Terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Reservar una demo

Comenzar gratis

Comienza gratis, o prueba Business con una prueba de 14 días.

Interfaz del panel de cside mostrando monitorización de scripts y análisis de seguridad

Cómo detectar y prevenir el account sharing sin perjudicar a los usuarios legítimos

La mayor objeción a la detección de account sharing son los falsos positivos: ¿qué pasa si marcamos a un suscriptor que simplemente usa varios…

Cómo Bloquear GPTBot (y Por Qué Quizá No Quieras Hacerlo)

GPTBot rastrea tu sitio para entrenar los modelos de OpenAI. Aquí te explicamos cómo bloquearlo con robots.txt y rangos de IP, y qué sigue sin cubrir ese bloqueo.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre herramientas de grabación de sesiones y riesgo de exfiltración de PII

Herramientas de session recording en sitios de juego: el riesgo de exfiltración de PII que los operadores no están viendo

Las herramientas de session recording en sitios de juego pueden exfiltrar PII de jugadores si están mal configuradas o comprometidas. Tres formas.

Detección de account sharing: cómo cerrar la brecha de aplicación que los límites de sesiones concurrentes no cubren

Los límites de sesiones concurrentes marcan el caso obvio.

Una trayectoria de cursor azul brillante y fluida junto a una trayectoria de bot roja y angular sobre un plano oscuro.

Atrapar bots por cómo se mueven: detección de cursor por comportamiento

Cómo el modelo cursor_v2 de cside puntúa el movimiento del ratón para atrapar a los bots sigilosos que ya superan los controles de fingerprint e IP.

Cómo Bloquear Applebot-Extended en Tu Sitio Web

Applebot-Extended es el rastreador de entrenamiento de IA de Apple que alimenta Apple Intelligence. Aprende en qué se diferencia de Applebot y cómo excluirte vía robots.txt.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre monitoreo de scripts de terceros en dominios de casino

Cómo monitorear scripts de terceros en 100 o más dominios de casino

Guía práctica para monitorear scripts de terceros en 100+ dominios de casino: expansión de scripts, alertas entre dominios y escalamiento cside.

Riesgos de seguridad de la IA agéntica para sitios web: privacidad, cumplimiento y detección

Los navegadores de IA agéntica omiten el consentimiento de cookies, ejecutan JavaScript real y crean brechas de cumplimiento del RGPD que la detección de bots a nivel CDN no puede ver.

Ilustración de un sistema neuronal de detección de bots en dos etapas que separa sesiones de navegador humanas y de bots

Cazar bots que no quieren ser cazados: por dentro de un stack neuronal de detección en dos etapas

Cómo un stack neuronal de dos etapas caza stealth browsers, scrapers con proxy residencial y agentes LLM que pasan toda huella, y sus límites reales.

Cómo Bloquear DeepSeekBot en Tu Sitio Web

DeepSeekBot rastrea tu sitio para una empresa china de IA. Aprende a bloquearlo con robots.txt, reglas de IP y los riesgos reales de soberanía de datos que plantea.