Skip to main content
Blog
Blog Attacks

Cómo Detectar y Bloquear Agentes de IA Desconocidos en Tu Sitio Web

Los agentes de IA desconocidos no tienen user-agent e ignoran robots.txt. Aprende qué señales del navegador delatan a los agentes no declarados y cómo actuar.

Jun 27, 2026 10 min read
Cómo Detectar y Bloquear Agentes de IA Desconocidos en Tu Sitio Web

Los crawlers de IA declarados (GPTBot, ClaudeBot, PerplexityBot) son los fáciles. Se identifican. Si quieres, puedes bloquearlos con dos líneas de robots.txt. Son la parte del problema de los agentes de IA que ya está resuelta.

El problema más difícil son los agentes desconocidos: sistemas de IA que visitan tu sitio sin declarar su identidad, ejecutándose dentro de navegadores reales, usando user-agents estándar y comportándose de formas que parecen tráfico humano hasta que examinas con cuidado las señales a nivel de sesión. En las pruebas controladas de cside, las herramientas tradicionales pasaron por alto agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios, lo que demuestra lo amplia que es la brecha de visibilidad para los agentes no declarados. Para conocer el manual completo, consulta nuestra guía para detectar tráfico de agentes de IA en tu sitio web.


Qué Hace que un Agente de IA Sea "Desconocido"

Respuesta rápida: Los agentes de IA desconocidos son sistemas automatizados que no declaran su identidad mediante cadenas de user-agent ni otras señales convencionales. Operan a través de sesiones de navegador reales, usan user-agents estándar de Chrome o Firefox y son funcionalmente invisibles para las herramientas de detección de la capa de red que dependen de la inspección de cabeceras y la coincidencia de IP.

La categoría incluye:

  • Agentes empresariales a medida: Empresas que construyen herramientas de IA internas que navegan por sitios de la competencia, comprueban precios o monitorizan el inventario, a menudo construidas sobre frameworks como LangChain, AutoGPT o Playwright sin ninguna autoidentificación
  • Agentes de investigación y análisis: Sistemas de IA que ejecutan tareas de inteligencia competitiva o recopilación de datos y que evitan deliberadamente la identificación para que no los bloqueen
  • Agentes maliciosos: Herramientas de fraude, sistemas de scraping e infraestructura de ataque automatizada que usan la automatización de navegadores impulsada por IA para evadir la detección
  • Productos de IA de terceros: Herramientas de IA de consumo y empresariales que usan automatización de navegadores reales sin publicar documentación de su crawler ni rangos de IP

El hilo común es la ausencia de autodeclaración. No hay ninguna regla de robots.txt que detenga un sistema que no se identifica a sí mismo.


Por Qué robots.txt y el Bloqueo de IP No Ayudan

Respuesta rápida: robots.txt solo controla los user-agents declarados. Un agente que presenta un user-agent estándar de Chrome no tiene ninguna regla de robots.txt aplicable. El bloqueo de IP basado en rangos publicados atrapa a los crawlers que se autoidentifican; es inútil contra los agentes que usan residential proxies, IP rotativas o infraestructura en la nube compartida con usuarios legítimos.

El problema estructural de la detección basada en cabeceras es que fue diseñada para un mundo en el que los sistemas automatizados se autoidentificaban. Los crawlers de los motores de búsqueda seguían la convención porque era mutuamente beneficioso. Los agentes de IA que operan para inteligencia competitiva, fraude o recopilación de datos no tienen ningún incentivo para autoidentificarse, y muchos tienen razones de peso para no hacerlo.

Las herramientas de la capa de red ven lo mismo para un agente de IA desconocido y para un visitante humano: una solicitud de un navegador Chrome desde una dirección IP plausible con cabeceras HTTP estándar. La diferencia entre ambos es de comportamiento, y el comportamiento solo es visible dentro de la sesión. La misma brecha se aplica incluso a los productos declarados una vez que se vuelven agénticos, como explicamos en nuestra guía para bloquear agentes de IA en tu sitio web.


El Conjunto de Señales de la Capa del Navegador

Respuesta rápida: Los agentes de IA desconocidos se delatan mediante señales de comportamiento dentro de la sesión del navegador: el tiempo de interacción, los patrones de navegación, las características del fingerprint, las anomalías en la ejecución de JavaScript y la secuenciación de las solicitudes de red. Estas señales son consistentes entre los distintos tipos de agentes porque las sesiones de navegador ejecutadas por máquinas producen patrones sistemáticamente diferentes de las ejecutadas por humanos.

Señales clave que delatan a los agentes desconocidos:

Patrones de tiempo Los usuarios humanos tienen un tiempo de interacción variable e impreciso. Hacen pausas entre acciones, tardan cantidades de tiempo irregulares en leer el contenido y mueven el cursor en trayectorias no lineales. Las sesiones de agentes se ejecutan con precisión de máquina o casi-precisión: intervalos consistentes entre acciones, respuestas inmediatas a los eventos de carga de página, ninguna pausa de lectura.

Características del fingerprint Una sesión genuina de Chrome de un humano acumula un estado de fingerprint complejo: cookies de sesiones anteriores, artefactos de extensiones, recursos en caché, variaciones en el renderizado de fuentes según la configuración del sistema operativo del usuario. Las sesiones de agentes suelen presentar fingerprints limpios, en estado por defecto, sin este contexto acumulado. Un fingerprint muy limpio en una sesión nueva es en sí mismo una señal.

Lógica de navegación La navegación humana es no lineal. Los usuarios exploran categorías, retroceden, comparan productos, vuelven a visitar páginas. La navegación de los agentes sigue la lógica de la tarea: trayectorias directas desde el punto de entrada hasta la página objetivo, sin exploración ni retroceso a menos que la tarea lo requiera, interacción únicamente con los elementos necesarios para completar la tarea.

Contexto de ejecución de JavaScript Las sesiones de navegador reales ejecutan JavaScript en un entorno marcado por el hardware del usuario, las fuentes instaladas, la resolución de pantalla y la configuración del navegador. Los frameworks de automatización producen desviaciones medibles respecto a la ejecución de JavaScript de un navegador real: inconsistencias sutiles en el tiempo, el renderizado de canvas, el comportamiento de WebGL y las salidas del audio context que las técnicas de fingerprinting pueden identificar.

Patrones de solicitudes de red La navegación humana genera solicitudes de red marcadas por el historial de navegación, los recursos en caché y la navegación no lineal. Las sesiones de agentes generan patrones de solicitudes marcados por la lógica de la tarea, que son estructuralmente diferentes incluso cuando las solicitudes individuales parecen normales.


Lo que cside Detecta y las Herramientas de Red Pasan por Alto: Un Escenario Concreto

Respuesta rápida: El agente de inteligencia de precios de un competidor visita la página de catálogo de un retailer cada cuatro horas. Presenta un user-agent estándar de Chrome, se origina desde una IP residencial y supera todas las comprobaciones de cabeceras. Las herramientas de red no ven nada inusual. Esto es lo que sucede dentro de la sesión del navegador, y lo que cside observa.

El agente carga la página de categoría y hace una pausa de 1,2 segundos, un retraso deliberado para imitar el tiempo de lectura. A continuación, se desplaza hasta el final en un único barrido lineal a velocidad constante, sin aceleración ni desaceleración. La posición del cursor no se mueve entre los eventos de desplazamiento. El agente navega por 47 páginas de producto en 8 minutos, y cada visita sigue el mismo patrón: cargar, pausar 0,8 segundos, recopilar los valores de los campos de precio y stock, navegar a la siguiente URL de la secuencia. Sin lógica de comparación, sin interacción con filtros, sin retroceso.

cside observa tres señales convergentes: una regularidad en los eventos de desplazamiento fuera de la varianza humana, un fingerprint limpio en estado por defecto sin cookies de sesiones anteriores y un grafo de navegación que muestra un recorrido puramente secuencial sin ramificaciones exploratorias. Estas señales son invisibles en la capa de red. Solo son visibles dentro de la sesión de navegador en ejecución, que es donde opera cside. La sesión se clasifica como un agente de inteligencia de precios y se le aplica rate limiting dentro del mismo ciclo de solicitud.

Panel de detección de agentes de IA de cside

cside saca a la luz agentes con nombre y sin nombre en un panel en tiempo real con detalle a nivel de sesión, incluido el perfil de señales de comportamiento que activó cada clasificación.


Respuesta Graduada: Qué Hacer Cuando Detectas Uno

Respuesta rápida: La detección de un agente desconocido te da una clasificación, no automáticamente una decisión. La respuesta adecuada depende de lo que parezca estar haciendo el agente. Una sesión con señales de bajo riesgo podría monitorizarse. Una con señales de fraude justifica el bloqueo. El scraping automatizado de contenido justifica el rate limiting. El objetivo es una respuesta proporcional, no un bloqueo-o-permiso binario.

Un marco de respuesta práctico:

Conjunto de señalesTipo de agente probableRespuesta recomendada
Fingerprint limpio, navegación lineal, sin interacción con formulariosAgente de indexación/investigaciónMonitorizar, aplicar rate limiting al acceso al catálogo
Fingerprint limpio, recorrido del flujo de checkout, tiempo de máquinaCompras/comercio agénticoAplicar un reto en el checkout, marcar para revisión
Relleno rápido de formularios, múltiples cuentas, patrones de prueba de pagosAutomatización de fraudeBloquear, registrar para investigación
Descarga masiva de contenido, sin interacción con elementos de la interfazScraper de contenidoAplicar rate limiting, añadir muros de autenticación en el contenido valioso
Patrones de creación de cuentas, registro rápidoCreación de cuentas falsasAplicar un reto, exigir verificación por teléfono

La herramienta adecuada para implementar estas respuestas requiere visibilidad a nivel de sesión. La misma lógica impulsa manuales más específicos, como nuestra guía para bloquear OpenAI Operator, donde un producto declarado sigue navegando a través de una sesión real y no declarada.


Cómo Construir una Línea de Base

Respuesta rápida: No puedes identificar un comportamiento inusual de un agente sin una línea de base de cómo es el tráfico normal. Empieza por la monitorización y la clasificación antes de añadir reglas de bloqueo. Una semana de datos de sesión revela el volumen, los patrones y el origen del tráfico de agentes que nunca verías solo a partir de los logs del servidor.

La mayoría de las organizaciones que despliegan por primera vez la monitorización en la capa del navegador se sorprenden de cuánto tráfico de agentes ya está presente en sus sitios. Ahrefs descubrió que el 63 % de los sitios web ya recibían tráfico a través de interfaces de chatbots de IA a principios de 2025. Una fracción considerable de ese tráfico implica sistemas automatizados que no se autodeclaran.

Bloquear sin una línea de base corre el riesgo de cancelar sesiones legítimas. Entender tu tráfico de agentes antes de actuar sobre él conduce a mejores decisiones de política y detecta patrones que sugieren actividad coordinada o creciente antes de que cause daños. Si estás evaluando dónde debería residir esta capacidad, nuestro repaso de las mejores plataformas de gestión de confianza de bots y agentes comparadas cubre la categoría que Forrester renombró como Bot and Agent Trust Management Software en el cuarto trimestre de 2025.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

Los agentes de IA desconocidos son sistemas automatizados que no declaran su identidad mediante cadenas de user-agent ni otras señales convencionales. Operan a través de sesiones de navegador reales con user-agents estándar, lo que los hace invisibles para las herramientas de detección de la capa de red. Se pueden detectar mediante señales de comportamiento dentro de la sesión del navegador: patrones de tiempo, características de fingerprint, lógica de navegación y anomalías en la ejecución de JavaScript.

No. robots.txt solo controla a los agentes que declaran su identidad mediante cadenas de user-agent. Un agente desconocido que presenta un user-agent estándar de Chrome no tiene ninguna regla de robots.txt aplicable. Los agentes desconocidos están diseñados para operar sin autodeclararse, lo que hace que robots.txt sea irrelevante para controlarlos.

Las señales clave incluyen la precisión del tiempo de interacción, la limpieza del fingerprint en sesiones nuevas, la navegación lineal hacia el contenido objetivo, las anomalías en la ejecución de JavaScript y la secuenciación de las solicitudes de red marcada por la lógica de la tarea en lugar de por la navegación humana. Estas señales son sistemáticamente diferentes de los patrones de las sesiones humanas y solo son observables dentro de la sesión del navegador.

Un marco de respuesta graduada basado en la confianza de la señal reduce los falsos positivos. Las señales de baja confianza justifican la monitorización. Las señales de confianza media justifican retos como CAPTCHA o la verificación de cuenta. Solo las señales de alta confianza con indicadores de fraude justifican bloqueos directos. Es esencial empezar por la monitorización y la clasificación antes de añadir reglas de bloqueo.

Ahrefs descubrió que el 63 % de los sitios web ya recibían tráfico a través de interfaces de chatbots de IA a principios de 2025. Una fracción significativa de ese tráfico procede de sesiones automatizadas que no se autoidentifican. La única forma de conocer la exposición específica de tu sitio es la monitorización en la capa del navegador que clasifica las sesiones por señales de comportamiento en lugar de depender de la autodeclaración.

Monitoriza y Asegura tus Scripts de Terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comienza gratis, o prueba Business con una prueba de 14 días.

Interfaz del panel de cside mostrando monitorización de scripts y análisis de seguridad
Related Articles
Reservar una demo