Skip to main content
Blog
Blog

Detección de agentes de IA y bots: cómo distinguir entre humanos, bots buenos y agentes maliciosos

Una taxonomía de clasificación y un modelo de control basado en la intención para separar humanos, bots buenos y agentes maliciosos, y luego decidir qué hacer con cada uno.

Jul 11, 2026 7 min read
Detección de agentes de IA y bots: cómo distinguir entre humanos, bots buenos y agentes maliciosos

Tienes tres problemas vestidos con el mismo disfraz. Un humano que lee tu página de checkout, un crawler de búsqueda que la indexa y un stealth browser que enumera tarjetas robadas contra ella pueden presentar todos un user-agent de Chrome plausible y una IP residencial limpia. Trátalos como un único grupo y, o bien bloquearás ingresos, o bien dejarás pasar el fraude.

La solución es una taxonomía y una decisión: clasifica cada sesión en una clase conocida, lee lo que está intentando hacer y asígnale exactamente una acción: permitir, monitorizar, retar, servir contenido para agentes o bloquear. Este artículo es el marco de clasificación y decisión. Para la mecánica de las señales subyacentes, la guía para detectar tráfico de agentes de IA cubre las señales de identidad, red, navegador y comportamiento; para elegir un proveedor, consulta cómo elegir una solución de detección de agentes de IA. Cuando necesites saber por qué las defensas más antiguas no captan este tráfico, la detección de bots heredada en la era de los agentes de IA explica la brecha.

Una taxonomía de cinco clases que se asigna a una acción

"Bot bueno frente a bot malo" es demasiado grueso, porque el agente de compra de un consumidor está automatizado y es bienvenido, mientras que un crawler de búsqueda está automatizado y es bienvenido por una razón completamente distinta. Divide el tráfico en cinco clases operativas, cada una vinculada a una acción por defecto:

ClaseEjemplosIntenciónAcción por defecto
HumanoVisitantes reales, clientes con sesión iniciadaNavegar, comprar, gestionar la cuentaPermitir, monitorizar el riesgo
Bot buenoGooglebot, GPTBot, ClaudeBot, PerplexityBot, bots de API de partnersIndexar contenido, integración declaradaPermitir, limitar la tasa, verificar la identidad
Automatización neutralMonitores de disponibilidad, verificadores de enlaces, lectores de RSS/previsualizaciónOperativa, de bajo valor, de bajo dañoMonitorizar, limitar la tasa
Agente de IA de consumoAgentes de compra e investigación que actúan en nombre de una persona realCompletar una tarea por encargo de una personaPermitir o servir contenido para agentes
Agente maliciosoScrapers, probadores de tarjetas, bots de abuso de cuentas, stealth browsersExtraer valor o cometer fraudeRetar o bloquear

La clase no es fija para una sesión. Un agente de consumo que navega por páginas de producto está en la columna de "permitir" hasta el momento en que empieza a enviar formularios de pago a velocidad de máquina, momento en el que su intención, y su clase, han cambiado.

La identidad te dice quién; la intención te dice qué hacer

Las señales de identidad responden a "quién dice ser esto": user-agent, nombre de crawler declarado, huella. Son necesarias y casi gratuitas de falsificar. Un GPTBot que se autodeclara puede verificarse cruzando la IP de la petición con los rangos publicados del crawler, lo que detecta a los suplantadores. Pero las clases peligrosas nunca se declaran a sí mismas.

Las señales de intención responden a "qué está haciendo esta sesión". Viven en el comportamiento y en el runtime, y son mucho más caras de falsificar de forma convincente:

  • navigator.webdriver activado, o suprimido demasiado limpiamente, en una sesión que por lo demás parece un Chrome corriente.
  • Fugas de CDP / Runtime: artefactos del Chrome DevTools Protocol (propiedades cdc_, nodos de accesibilidad eliminados) que delatan que Playwright o Puppeteer están controlando la página.
  • Deriva de la huella: contextos de WebGL, Canvas y Audio que no cuentan una historia coherente sobre un único dispositivo, o que mutan a lo largo de una sesión.
  • Comportamiento de proxy residencial: una IP "de consumo" cuya zona horaria, idioma e historial de ASN no cuadran, rotando entre peticiones.
  • Cadencia de acciones: una ráfaga de envíos de tarjetas en unos pocos minutos es intención, no identidad. Ninguna cadena de user-agent te dirá eso; la secuencia de acciones sí.

Clasificas combinando identidad e intención. Una sesión que supera todas las comprobaciones de identidad pero falla en el runtime y la cadencia es exactamente el caso de agente malicioso que la herramienta basada solo en red deja pasar.

Por qué esto importa más en 2026

La clase maliciosa se volvió barata. La investigación de seguridad web de 2026 de cside informa de que las instalaciones de playwright-stealth aumentaron aproximadamente 10 veces a lo largo de 2025, un indicador claro de la rapidez con la que la automatización antidetección pasó de ser un nicho a convertirse en herramienta de ataque generalizada. Informe de investigación de cside 2026

Al mismo tiempo, las clases bienvenidas crecieron. Los crawlers de búsqueda con IA ahora impulsan un descubrimiento real, y los agentes de compra de consumo completan compras reales. Así que los dos extremos de la taxonomía se expandieron a la vez: más automatización que quieres permitir, y más automatización construida específicamente para parecerlo. Por eso un detector binario falla: no tiene una columna para "automatizado y bienvenido". Para la mecánica profunda de cómo se esconde el extremo malicioso, consulta stealth browsers y navegadores antidetección, explicados. Las mismas señales detectan las campañas de credential stuffing que golpean el login cuando un agente pasa de navegar a atacar cuentas.

Asigna una sola acción de control a cada clase

Una vez que una sesión está clasificada, el control debe ser determinista. Cinco acciones cubren la taxonomía:

  1. Permitir: humanos y bots buenos verificados en sus rutas esperadas. Registra y sigue adelante.
  2. Monitorizar: automatización neutral y cualquier sesión cuya clase todavía sea ambigua. Recopila señales, sin añadir fricción todavía.
  3. Retar / limitar la tasa: sesiones que tienden a maliciosas. Ralentízalas, sube el nivel de verificación o limita la tasa de la acción concreta (login, checkout) en lugar de todo el sitio.
  4. Servir contenido para agentes: un agente de consumo conocido en una ruta donde prefieres guiar antes que bloquear. Dale una vista creada a propósito o un paso de "contáctanos" en lugar de filtrar precios en bruto a una sesión con forma de scraper.
  5. Bloquear: intención maliciosa confirmada, como enumeración de tarjetas, credential stuffing y campañas de abuso de cuentas.

Dos reglas mantienen esto honesto. Acota las acciones a la acción, no al visitante: reta el envío del checkout, no respondas 403 a la página de inicio. Y toma la decisión por página: un stealth browser que lee una entrada del blog es un caso de monitorizar; la misma sesión en tu bóveda de tarjetas es un caso de bloquear. Para el manual de actuación en el extremo del bloqueo, consulta cómo bloquear agentes de IA en tu sitio web y, para la variante de fraude con pagos, cómo bloquear agentes de IA que prueban tarjetas.

Dónde tiene que ocurrir la clasificación

Esta taxonomía solo funciona si puedes leer la intención, y la intención vive en el navegador. Los crawlers de IA que nunca ejecutan JavaScript nunca disparan tu analítica, así que son invisibles para GA4 y PostHog. Los agentes de consumo y maliciosos ejecutan navegadores reales y parecen humanos para esas mismas herramientas. Ninguno de los dos extremos es separable en la capa de analítica, y la mayor parte de la clase maliciosa supera por diseño las comprobaciones de la capa de red: IP limpia, user-agent válido, forma de petición plausible.

cside observa el runtime del navegador en tiempo real. Captura el dispositivo y la IP real, expone las señales de automatización y de huella que revelan la intención, marca los agentes de IA y los stealth browsers dentro de la página, y expone esas señales mediante API para que puedas impulsar la decisión de permitir / monitorizar / retar / servir / bloquear en tu propio flujo de trabajo. Esa es la capa donde un humano, un bot bueno y un agente malicioso por fin dejan de parecerse.

Más lecturas en cside

Simon Wijckmans
Founder & CEO

Founder and CEO of cside. Previously a product manager on Cloudflare Page Shield (now Cloudflare Client-Side Security). Co-chair of the W3C Anti-Fraud Community Group and a Forbes 30 Under 30 honoree. Building accessible security against client-side attacks — web security is not an enterprise-only problem.

FAQ

Frequently Asked Questions

Cinco clases operativas cubren la mayor parte del tráfico: humanos, bots buenos que quieres (crawlers de búsqueda y de IA, integraciones de partners), automatización neutral que toleras (monitores de disponibilidad, verificadores de enlaces), agentes de IA de consumo que actúan en nombre de una persona real (agentes de compra e investigación) y agentes maliciosos (scrapers, probadores de tarjetas, bots de abuso de cuentas, stealth browsers). Las clases importan porque cada una merece una acción de control distinta: agruparlas en 'bot o no bot' tira por la borda la decisión que realmente necesitas tomar.

La identidad es quién dice ser una sesión: una cadena de user-agent, un nombre de crawler declarado, una huella. La intención es lo que la sesión intenta hacer ahora mismo: leer un artículo, bloquear inventario, enumerar tarjetas, crear cuentas. La identidad es barata de falsificar y se mantiene estable a lo largo de una sesión; la intención se revela mediante el comportamiento y cambia a medida que la sesión pasa de navegar a un intento de transacción. El control debe basarse en la intención, porque es lo que un atacante no puede falsificar gratis.

Porque los bots buenos y los agentes de IA de consumo ya forman parte de tu tráfico. El bloqueo indiscriminado elimina los crawlers de búsqueda y de búsqueda con IA que impulsan el descubrimiento, rompe las integraciones de partners y rechaza a los agentes de compra que completan compras reales para clientes reales. Además destruye tu propia visibilidad: una vez que respondes 403 a todo, dejas de aprender qué estaba llegando realmente a tu sitio. El objetivo es una política que permita las clases útiles y reserve la fricción para las dañinas.

Monitoriza y Asegura tus Scripts de Terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comienza gratis, o prueba Business con una prueba de 14 días.

Interfaz del panel de cside mostrando monitorización de scripts y análisis de seguridad
Related Articles
Reservar una demo