Blog Attacks

Cómo Bloquear DeepSeekBot en Tu Sitio Web

DeepSeekBot rastrea tu sitio para una empresa china de IA. Aprende a bloquearlo con robots.txt, reglas de IP y los riesgos reales de soberanía de datos que plantea.

Jun 22, 2026 • 7 min read

Mike Kutlu Client-Side Security Consultant

Cómo Bloquear DeepSeekBot en Tu Sitio Web

DeepSeekBot es el rastreador web operado por DeepSeek, la empresa china de IA que ganó gran atención a principios de 2025 con modelos que igualaban o superaban el rendimiento de GPT-4 a una fracción del coste de entrenamiento. El rastreador recopila contenido web para entrenar y mejorar los modelos de IA de DeepSeek.

Para muchos propietarios de sitios, bloquear DeepSeekBot es tanto una decisión de soberanía de datos como técnica. El mismo enfoque de robots.txt que funciona para GPTBot y ClaudeBot se aplica aquí, con algunas consideraciones adicionales.

¿Qué Es DeepSeekBot?

Respuesta rápida: DeepSeekBot es un rastreador web operado por DeepSeek, una empresa china de investigación en IA. Recopila contenido web disponible públicamente para entrenar los modelos de lenguaje de DeepSeek. Se identifica con una cadena de agente de usuario declarada y es un rastreador HTTP que no ejecuta JavaScript ni interactúa con las interfaces de las aplicaciones web.

El rastreador de DeepSeek utiliza identificadores de agente de usuario de la familia DeepSeek. Como otros rastreadores de entrenamiento de IA declarados, realiza solicitudes HTTP GET, lee contenido de texto y está diseñado para respetar las directivas de robots.txt.

DeepSeek opera bajo la ley y las normativas de datos chinas, lo que crea un perfil de riesgo distinto al de los rastreadores operados por empresas con sede en EE. UU. El contenido recopilado por DeepSeekBot puede estar sujeto a requisitos de acceso a datos que se aplican a las empresas tecnológicas chinas bajo la jurisdicción china. Este es un contexto relevante para las organizaciones con obligaciones regulatorias, propiedad intelectual sensible o políticas de gobernanza de datos que tienen en cuenta el origen de los datos.

Cómo Bloquear DeepSeekBot con robots.txt

Respuesta rápida: Añade DeepSeekBot a tu robots.txt con una directiva Disallow: /. Si el rastreador de DeepSeek respeta robots.txt (lo cual está diseñado para hacer), esto bloquea toda recopilación de tu sitio. Usa reglas a nivel de ruta para un control más granular.

Para bloquear DeepSeekBot de todo tu sitio:

User-agent: DeepSeekBot
Disallow: /

Si quieres permitir la indexación de algún contenido mientras proteges áreas sensibles:

User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/

A diferencia de GPTBot y ClaudeBot, que tienen historiales de cumplimiento bien documentados, el historial de cumplimiento de robots.txt de DeepSeekBot está menos documentado en los informes públicos. Si la fiabilidad de la aplicación es importante, considera complementar robots.txt con un bloqueo a nivel de IP. La misma laguna se aplica a otros rastreadores de entrenamiento menos documentados, como Bytespider de ByteDance y CCBot de Common Crawl.

Consideraciones de Soberanía de Datos

Respuesta rápida: DeepSeek está constituida en China y opera bajo la ley china. El contenido recopilado por su rastreador puede estar sujeto a requisitos de acceso a datos que se aplican a las empresas tecnológicas chinas. Para las organizaciones en sectores regulados o con políticas explícitas de gobernanza de datos, esta distinción tiene un peso de cumplimiento mayor del que tendría para un rastreador con sede en EE. UU.

Esto no es una afirmación de que DeepSeek use indebidamente los datos de forma activa. Es una declaración sobre la jurisdicción y el marco legal bajo el cual existen los datos recopilados. Las organizaciones que mantienen políticas que restringen la transferencia de datos a determinadas jurisdicciones, o que tienen preocupaciones de propiedad intelectual sobre el origen de los datos de entrenamiento de IA, tienen razones técnicas y legales legítimas para bloquear DeepSeekBot específicamente en lugar de hacerlo como parte de una política general sobre rastreadores de IA.

Los equipos de seguridad en servicios financieros, sanidad, contratistas gubernamentales y empresas tecnológicas con propiedad intelectual propia han estado entre los primeros en añadir DeepSeekBot a sus listas de bloqueo de rastreadores precisamente por esta razón.

Bloqueo a Nivel de IP para DeepSeekBot

Respuesta rápida: DeepSeek publica los rangos de IP de su rastreador en su documentación. Añadir estos rangos a tu firewall o CDN proporciona una aplicación que no depende del cumplimiento de robots.txt. Dada la menor certeza de cumplimiento en comparación con los rastreadores con sede en EE. UU., el bloqueo de IP es el enfoque más fiable para las organizaciones con requisitos estrictos.

Para implementar el bloqueo a nivel de IP:

Localiza los rangos de IP publicados actualmente por DeepSeek en su documentación oficial
Añade estos rangos a la lista de denegación de tu firewall, CDN o proxy inverso
Establece un ciclo de revisión para las actualizaciones, ya que los rangos de IP se amplían a medida que crece la infraestructura de rastreo

Como ocurre con todas las listas de IP de rastreadores, esto requiere un mantenimiento continuo. Un ciclo de revisión trimestral es suficiente para la mayoría de las organizaciones.

DeepSeekBot vs. Agentes Impulsados por DeepSeek

Respuesta rápida: Bloquear DeepSeekBot aborda la canalización de datos de entrenamiento de DeepSeek. Si DeepSeek crea o habilita productos de IA agéntica que navegan por la web en nombre de los usuarios, esas sesiones no serían DeepSeekBot y no se verían afectadas por tus reglas de robots.txt.

El enfoque público de los productos de DeepSeek ha estado en las capacidades de los modelos de lenguaje más que en herramientas de navegación agéntica, pero este es un espacio en evolución. La laguna estructural se aplica aquí igual que con OpenAI y Anthropic: el rastreador declarado y cualquier futuro agente interactivo son sistemas separados.

Las organizaciones que quieran una protección integral contra todo acceso automatizado relacionado con DeepSeek a sus sitios deberían vigilar los anuncios de productos de DeepSeek en busca de productos agénticos, en particular cualquier capacidad de uso del navegador o uso del ordenador que crearía sesiones de navegador no declaradas. La detección en la capa del navegador cubre esos escenarios; robots.txt no.

Detección en la Capa del Navegador: Más Allá del Rastreador Declarado

Respuesta rápida: Bloquear DeepSeekBot aborda el rastreador de entrenamiento declarado de DeepSeek. No aborda los agentes o aplicaciones impulsados por DeepSeek que navegan por tu sitio en sesiones de navegador reales en nombre de los usuarios. Esas sesiones requieren detección de comportamiento en la capa del navegador, no reglas de robots.txt.

La hoja de ruta pública de productos de DeepSeek se ha centrado en la capacidad de los modelos de lenguaje más que en herramientas de navegación agéntica, pero la categoría está en evolución. Cualquier herramienta impulsada por DeepSeek que use automatización de navegador real se presentaría como una sesión de navegador estándar sin conexión con el agente de usuario declarado de DeepSeekBot. Tu bloqueo de robots.txt sería irrelevante para ese tráfico. El mismo punto ciego afecta a la protección de contenido de forma más amplia, razón por la cual bloquear scrapers de contenido de IA depende cada vez más del comportamiento que de la autodeclaración.

Para entender cómo se ve esa laguna en la práctica: imagina un agente de investigación impulsado por DeepSeek encargado de recopilar inteligencia competitiva sobre un proveedor de SaaS. Abre una sesión de Chromium sin interfaz gráfica, navega por las páginas de precios y documentación del sitio en secuencia y extrae datos estructurados. La sesión presenta una huella digital legítima de Chrome procedente de un centro de datos en una jurisdicción no china, por lo que ni el origen de la IP ni el agente de usuario activan ningún filtro. El agente completa una auditoría completa de seis páginas en menos de 40 segundos, con cero tiempo de permanencia en las imágenes y sin comportamiento de desplazamiento hacia atrás. Esas anomalías de interacción solo son visibles en la capa del navegador. En las pruebas controladas de cside, las herramientas tradicionales pasaron por alto agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios, precisamente porque las herramientas de la capa de red ven una solicitud limpia y se detienen ahí.

Panel de detección de agentes de IA de cside

De forma más amplia, la preocupación por la soberanía de datos que hace que valga la pena bloquear DeepSeekBot se aplica por igual a cualquier sesión impulsada por IA que acceda a tu sitio desde infraestructura en jurisdicciones con marcos de gobernanza de datos diferentes. La monitorización en la capa del navegador de cside revela agentes nombrados y no nombrados por señal de comportamiento en lugar de por autodeclaración, incluidas las sesiones que no presentan ninguna información identificativa.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

DeepSeekBot es el rastreador web operado por DeepSeek, una empresa china de IA que desarrolla grandes modelos de lenguaje. Recopila contenido web disponible públicamente para entrenar los sistemas de IA de DeepSeek. Utiliza una cadena de agente de usuario declarada y está diseñado para respetar las directivas de robots.txt. DeepSeek opera bajo la ley y las normativas de datos chinas.

Añade User-agent: DeepSeekBot seguido de Disallow: / a tu archivo robots.txt para bloquearlo de todo tu sitio. Para un control a nivel de ruta, usa reglas Disallow específicas. Dado el historial de cumplimiento menos documentado de DeepSeekBot en comparación con GPTBot o ClaudeBot, vale la pena considerar complementar robots.txt con un bloqueo a nivel de IP.

DeepSeek es una empresa china que opera bajo la jurisdicción y la ley de datos chinas. Las organizaciones con políticas que restringen la transferencia de datos a determinadas jurisdicciones, o con requisitos regulatorios que rigen dónde se puede acceder a sus datos, tienen razones de cumplimiento específicas para bloquear DeepSeekBot al margen de una política general sobre rastreadores de IA.

Bloquear DeepSeekBot evita que tu contenido se recopile en futuros rastreos de entrenamiento. El contenido ya recopilado antes de añadir tu bloqueo permanece en los pesos de los modelos existentes. Bloquear el rastreador no afecta a ningún producto o agente impulsado por DeepSeek que navegue por la web mediante sesiones de navegador en lugar del rastreador declarado.

DeepSeekBot está diseñado para respetar las directivas de robots.txt, pero su historial de cumplimiento está menos documentado en informes independientes en comparación con GPTBot (OpenAI) o ClaudeBot (Anthropic). Las organizaciones con requisitos estrictos deberían considerar el bloqueo a nivel de IP como complemento de aplicación de robots.txt. Una revisión trimestral de los rangos de IP publicados por DeepSeek mantiene esa capa de aplicación al día.

Monitoriza y Asegura tus Scripts de Terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Reservar una demo

Comenzar gratis

Comienza gratis, o prueba Business con una prueba de 14 días.

Interfaz del panel de cside mostrando monitorización de scripts y análisis de seguridad

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre pixeles no autorizados en sitios de juego y responsabilidad bajo el GDPR

GDPR y juego en línea: por qué los píxeles no autorizados crean un problema de doble responsabilidad

Píxeles no autorizados en sitios de juego crean responsabilidad GDPR y bloqueos de cuentas publicitarias a la vez, aunque el operador no los instale.

Cómo Bloquear Bytespider (el Rastreador de IA de TikTok)

Bytespider rastrea tu sitio para los sistemas de IA de Bytedance. Aprende a bloquearlo con robots.txt y rangos de IP, y las claves de soberanía de datos.

Portada oscura del blog con tres métodos de ataque de scripts maliciosos: redireccionamientos desde el browser, contenedores GTM en la sombra con etiquetas maliciosas y payloads móviles geoespecíficos

Cómo los scripts maliciosos secuestran el recorrido de los jugadores de casino

Scripts inyectados redirigen a jugadores de casino antes del lobby. Las herramientas de red no los detectan. Así debe funcionar la detección.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre seguridad de scripts para operadores de juego en APAC

Seguridad de scripts del lado del cliente para operadores de juego en línea en APAC

Cómo los operadores de juego en línea de APAC en Japón, Singapur, Filipinas y Australia pueden monitorizar scripts de terceros en sesiones reales.

Cómo Bloquear Amazon Buy for Me en Tu Sitio Web

Amazon Buy for Me compra en tu sitio para usuarios de Prime. Aprende cómo recopila datos de precios y productos y cómo la detección en el navegador te da control.

Prevención de account takeover: el playbook completo de 2026

El playbook operativo de ATO para 2026: un modelo integral para login, recuperación, sesión y defensa post-auth frente a la apropiación impulsada por agentes IA y bots.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre scripts de afiliados comprometidos que roban ingresos de casinos

Cómo los scripts de afiliados comprometidos roban los ingresos de los casinos en línea

Scripts de afiliados comprometidos redirigen jugadores y roban comisiones en páginas de casino, de forma silenciosa y a escala.

Portada oscura del blog con tres vectores de ataque de extensiones del browser: redirecciones a clones de phishing, robo de tokens de sesión y reescritura de campos de pago en el DOM

Cómo las extensiones del browser atacan a los jugadores de casino en línea: qué pueden hacer los operadores

Las extensiones del browser pueden robar tokens de sesión y secuestrar pagos en casinos. Así atacan, por qué los servidores no lo ven y cómo detectarlas.

Cómo Bloquear la Creación de Cuentas Falsas con IA

Los agentes de IA crean cuentas falsas con un comportamiento humano que vence al CAPTCHA. Aprende las señales del navegador que delatan los registros automatizados.

Cómo Bloquear CCBot (el Rastreador de IA de Common Crawl)

CCBot alimenta los conjuntos de datos de Common Crawl usados para entrenar GPT-3, BLOOM, LLaMA y muchos otros modelos de IA. Aprende cómo bloquearlo y qué consigue realmente bloquearlo.