Blog Attacks

Como Bloquear o DeepSeekBot no Seu Website

O DeepSeekBot rastreia o seu site para uma empresa chinesa de IA. Saiba como bloqueá-lo com robots.txt, regras de IP e os reais riscos de soberania de dados que ele levanta.

Jun 22, 2026 • 10 min read

Mike Kutlu Client-Side Security Consultant

Como Bloquear o DeepSeekBot no Seu Website

Resumo: bloquear o DeepSeekBot por motivos de soberania de dados

O risco de soberania de dados: A postura por defeito é que qualquer rastreador declarado que respeite o robots.txt é seguro permitir. O historial de conformidade da DeepSeek está menos documentado do que o do GPTBot ou do ClaudeBot em reportagens independentes, o que altera o cálculo de risco para dados regulados.
Aplicação em duas camadas: O DeepSeekBot usa um agente de utilizador declarado da família DeepSeek e a DeepSeek publica gamas de IP; um Disallow: / no robots.txt combinado com uma revisão trimestral das gamas de IP na firewall dá-lhe uma aplicação que não depende do autocontrolo do rastreador.
A decisão: Se opera numa indústria regulada, detém propriedade intelectual sensível ou tem uma política explícita sobre a transferência de dados para jurisdição chinesa, bloqueie o DeepSeekBot em ambas as camadas antes do seu próximo rastreio. Se não tiver tal política, o robots.txt sozinho é uma resposta proporcional.

Sem tempo? Veja a deteção de agentes de IA da cside. Cobre tudo o que se segue numa única implementação.

O DeepSeekBot é o rastreador web operado pela DeepSeek, a empresa chinesa de IA que ganhou ampla atenção no início de 2025 com modelos que igualaram ou superaram o desempenho do GPT-4 a uma fração do custo de treino. O rastreador recolhe conteúdo web para treinar e melhorar os modelos de IA da DeepSeek.

Para muitos proprietários de sites, bloquear o DeepSeekBot é tanto uma decisão de soberania de dados como uma decisão técnica. A mesma abordagem de robots.txt que funciona para o GPTBot e o ClaudeBot aplica-se aqui, com algumas considerações adicionais.

O que é o DeepSeekBot?

Resposta rápida: O DeepSeekBot é um rastreador web operado pela DeepSeek, uma empresa chinesa de investigação em IA. Recolhe conteúdo web disponível publicamente para treinar os modelos de linguagem da DeepSeek. Identifica-se com uma string de agente de utilizador declarada e é um rastreador HTTP que não executa JavaScript nem interage com interfaces de aplicações web.

O rastreador da DeepSeek usa identificadores de agente de utilizador da família DeepSeek. Tal como outros rastreadores de treino de IA declarados, faz requisições HTTP GET, lê conteúdo de texto e é concebido para respeitar as diretivas do robots.txt.

A DeepSeek opera ao abrigo da lei e dos regulamentos de dados chineses, o que cria um perfil de risco diferente do dos rastreadores operados por empresas sediadas nos EUA. O conteúdo recolhido pelo DeepSeekBot pode estar sujeito a requisitos de acesso a dados que se aplicam às empresas tecnológicas chinesas sob a jurisdição chinesa. Este é um contexto relevante para organizações com obrigações regulatórias, propriedade intelectual sensível ou políticas de governação de dados que tenham em conta a origem dos dados.

Como bloquear o DeepSeekBot com o robots.txt

Resposta rápida: Adicione o DeepSeekBot ao seu robots.txt com uma diretiva Disallow: /. Se o rastreador da DeepSeek respeitar o robots.txt (como é concebido para fazer), isto bloqueia toda a recolha do seu site. Use regras ao nível dos caminhos para um controlo mais granular.

Para bloquear o DeepSeekBot de todo o seu site:

User-agent: DeepSeekBot
Disallow: /

Se quiser permitir a indexação de algum conteúdo enquanto protege áreas sensíveis:

User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/

Ao contrário do GPTBot e do ClaudeBot, que têm historiais de conformidade bem documentados, o historial de conformidade do DeepSeekBot com o robots.txt está menos exaustivamente documentado em relatórios públicos. Se a fiabilidade da aplicação for importante, considere complementar o robots.txt com bloqueio ao nível do IP. A mesma lacuna aplica-se a outros rastreadores de treino menos documentados, como o Bytespider da ByteDance e o CCBot da Common Crawl.

Considerações sobre soberania de dados

Resposta rápida: A DeepSeek está incorporada na China e opera ao abrigo da lei chinesa. O conteúdo recolhido pelo seu rastreador pode estar sujeito a requisitos de acesso a dados que se aplicam às empresas tecnológicas chinesas. Para organizações em setores regulados ou com políticas explícitas de governação de dados, esta distinção tem um peso de conformidade que não teria para um rastreador sediado nos EUA.

Isto não é uma afirmação de que a DeepSeek faz uso indevido ativo dos dados. É uma declaração sobre a jurisdição e o quadro jurídico ao abrigo do qual os dados recolhidos existem. As organizações que mantêm políticas que restringem a transferência de dados para determinadas jurisdições, ou que têm preocupações de propriedade intelectual quanto à origem dos dados de treino de IA, têm motivos técnicos e legais legítimos para bloquear o DeepSeekBot especificamente, em vez de o fazerem como parte de uma política abrangente de rastreadores de IA.

As equipas de segurança em serviços financeiros, saúde, contratantes governamentais e empresas de tecnologia com propriedade intelectual proprietária estiveram entre as primeiras a adicionar o DeepSeekBot às suas listas de bloqueio de rastreadores precisamente por esta razão.

Bloqueio ao nível do IP para o DeepSeekBot

Resposta rápida: A DeepSeek publica as gamas de IP do seu rastreador na sua documentação. Adicionar estas gamas à sua firewall ou CDN proporciona uma aplicação que não depende da conformidade com o robots.txt. Dada a menor certeza de conformidade em comparação com os rastreadores sediados nos EUA, o bloqueio de IP é a abordagem mais fiável para organizações com requisitos rigorosos.

Para implementar o bloqueio ao nível do IP:

Localize as gamas de IP atuais publicadas pela DeepSeek na sua documentação oficial
Adicione estas gamas à lista de negação da sua firewall, CDN ou proxy reverso
Defina um ciclo de revisão para atualizações, pois as gamas de IP expandem-se com o crescimento da infraestrutura de rastreio

Tal como acontece com todas as listas de IP de rastreadores, isto requer manutenção contínua. Um ciclo de revisão trimestral é suficiente para a maioria das organizações.

Diagrama de execução em camadas para o DeepSeekBot que mostra robots.txt como sinal de intenção do crawler, bloqueio de intervalos de IP como execução de rede e deteção na camada do navegador como o controlo para sessões não declaradas de agentes alimentados pela DeepSeek que não se identificam como o crawler

Camada de execução	Trava o crawler declarado DeepSeekBot	Trava um agente alimentado pela DeepSeek numa sessão de navegador real
Regra `robots.txt`	Sim (se respeitada)	Não
Lista de bloqueio por intervalos de IP (firewall / CDN)	Sim	Não
Deteção de comportamento na camada do navegador da cside	Sim	Sim

Um agente que abre uma sessão Chromium sem interface apresenta um agente de utilizador Chrome legítimo e um IP de centro de dados, pelo que nem o robots.txt nem uma lista de bloqueio de IP se aplicam, apenas a deteção de comportamento na camada do navegador o vê.

DeepSeekBot vs. agentes alimentados pela DeepSeek

Resposta rápida: Bloquear o DeepSeekBot aborda o pipeline de dados de treino da DeepSeek. Se a DeepSeek criar ou disponibilizar produtos de IA agêntica que naveguem na web em nome dos utilizadores, essas sessões não seriam o DeepSeekBot e não seriam afetadas pelas suas regras do robots.txt.

O foco público da DeepSeek tem sido nas capacidades dos modelos de linguagem em vez de ferramentas de navegação agêntica, mas este é um espaço em evolução. A lacuna estrutural aplica-se aqui tal como se aplica à OpenAI e à Anthropic: o rastreador declarado e quaisquer agentes interativos futuros são sistemas separados.

Diagrama de fluxo de um agente alimentado pela DeepSeek a executar uma sessão Chromium sem interface com um agente de utilizador Chrome legítimo, navegando por seis páginas em menos de 40 segundos com anomalias de comportamento que as ferramentas da camada de rede não detetam mas que a deteção na camada do navegador assinala

A sessão de um agente de investigação alimentado pela DeepSeek deixa uma impressão digital na camada do navegador que as ferramentas de rede não detetam. Executa-se como Chromium sem interface gráfica, apresentando um agente de utilizador Chrome legítimo, a partir de um IP de centro de dados numa jurisdição não chinesa, pelo que nenhum filtro de IP ou de agente de utilizador é acionado. Audita 6 páginas (Início, Preços, Detalhe de preços, Docs, Docs API, Changelog) em menos de 40 segundos, com tempo de permanência nulo nas imagens, sem retrocesso de scroll e navegação estritamente sequencial. As ferramentas da camada de rede veem um pedido limpo e ficam por aí; nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA em sessões de navegador reais em 81 de 100 cenários.

As organizações que pretendem proteção abrangente contra todo o acesso automatizado relacionado com a DeepSeek aos seus sites devem monitorizar os anúncios de produtos da DeepSeek em busca de produtos agênticos, em particular quaisquer capacidades de browser-use ou computer-use que criariam sessões de navegador não declaradas. A deteção na camada do navegador cobre esses cenários; o robots.txt não.

Deteção na camada do navegador: para além do rastreador declarado

Resposta rápida: Bloquear o DeepSeekBot aborda o rastreador de treino declarado da DeepSeek. Não aborda os agentes ou aplicações alimentados pela DeepSeek que navegam no seu site em sessões de navegador reais em nome dos utilizadores. Essas sessões requerem deteção comportamental na camada do navegador, não regras do robots.txt.

O roteiro público de produtos da DeepSeek tem-se concentrado na capacidade dos modelos de linguagem em vez de ferramentas de navegação agêntica, mas a categoria está em evolução. Qualquer ferramenta alimentada pela DeepSeek que use automação real de navegador apresentar-se-ia como uma sessão de navegador padrão, sem ligação ao agente de utilizador declarado do DeepSeekBot. O seu bloqueio no robots.txt seria irrelevante para esse tráfego. O mesmo ponto cego afeta a proteção de conteúdo de forma mais ampla, razão pela qual bloquear scrapers de conteúdo de IA depende cada vez mais do comportamento e não da autodeclaração.

Para perceber como essa lacuna se apresenta na prática: imagine um agente de investigação alimentado pela DeepSeek com a tarefa de compilar inteligência competitiva sobre um fornecedor de SaaS. Abre uma sessão de Chromium sem interface gráfica, navega pelas páginas de preços e documentação do site em sequência e extrai dados estruturados. A sessão apresenta uma impressão digital legítima do Chrome proveniente de um centro de dados numa jurisdição não chinesa, pelo que nem a origem do IP nem o agente de utilizador acionam qualquer filtro. O agente conclui uma auditoria completa de seis páginas em menos de 40 segundos, com zero tempo de permanência em imagens e sem comportamento de retrocesso de scroll. Essas anomalias de interação só são visíveis na camada do navegador. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, precisamente porque as ferramentas da camada de rede veem uma requisição limpa e param por aí.

Painel de deteção de agentes de IA da cside

De forma mais ampla, a preocupação com a soberania de dados que torna o DeepSeekBot digno de bloqueio aplica-se igualmente a qualquer sessão alimentada por IA que aceda ao seu site a partir de infraestrutura em jurisdições com quadros de governação de dados diferentes. A monitorização na camada do navegador da cside expõe agentes nomeados e não nomeados por sinal comportamental em vez de autodeclaração, incluindo sessões que não apresentam qualquer informação identificativa.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

O DeepSeekBot é o rastreador web operado pela DeepSeek, uma empresa chinesa de IA que desenvolve grandes modelos de linguagem. Recolhe conteúdo web disponível publicamente para treinar os sistemas de IA da DeepSeek. Usa uma string de agente de utilizador declarada e é concebido para respeitar as diretivas do robots.txt. A DeepSeek opera ao abrigo da lei e dos regulamentos de dados chineses.

Adicione User-agent: DeepSeekBot seguido de Disallow: / ao seu ficheiro robots.txt para o bloquear de todo o seu site. Para controlo ao nível dos caminhos, use regras Disallow específicas. Dado o historial de conformidade menos documentado do DeepSeekBot em comparação com o GPTBot ou o ClaudeBot, vale a pena considerar complementar o robots.txt com bloqueio ao nível do IP.

A DeepSeek é uma empresa chinesa que opera sob a jurisdição e a lei de dados chinesas. As organizações com políticas que restringem a transferência de dados para determinadas jurisdições, ou com requisitos regulatórios que regem onde os seus dados podem ser acedidos, têm motivos específicos de conformidade para bloquear o DeepSeekBot independentemente de uma política geral de rastreadores de IA.

Bloquear o DeepSeekBot impede que o seu conteúdo seja recolhido em futuros rastreios de treino. O conteúdo já recolhido antes de o seu bloqueio ser adicionado permanece nos pesos dos modelos existentes. Bloquear o rastreador não afeta quaisquer produtos ou agentes alimentados pela DeepSeek que naveguem na web através de sessões de navegador em vez do rastreador declarado.

O DeepSeekBot é concebido para respeitar as diretivas do robots.txt, mas o seu historial de conformidade está menos exaustivamente documentado em relatórios independentes em comparação com o GPTBot (OpenAI) ou o ClaudeBot (Anthropic). As organizações com requisitos rigorosos devem considerar o bloqueio ao nível do IP como complemento de aplicação ao robots.txt. Uma revisão trimestral das gamas de IP publicadas pela DeepSeek mantém essa camada de aplicação atualizada.

Monitore e proteja seus scripts de terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Agende uma demonstração

Comece gratuitamente

Comece grátis ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança

Proteção contra bots em 2026: porque a deteção na camada do navegador apanha o que os WAF não veem

Os agentes de IA correm em navegadores Chromium reais e contornam os WAF. A deteção na camada do navegador lê a entropia do canvas e a cadência da sessão para os apanhar.

Prevenção de fraude de chargeback: como as provas de dispositivo ganham disputas em 2026

Prevenir a fraude de chargeback depende de provas de dispositivo captadas no checkout, o que a Visa CE 3.0 aceita numa disputa de cartão não presente.

Soluções contra apropriação de contas: compreender a categoria antes de construir uma lista restrita

As soluções contra apropriação de contas têm quatro camadas: WAF, MFA, inteligência de dispositivo no navegador e análise comportamental. Nenhum fornecedor as cobre todas.

Melhor software de deteção de partilha de contas 2026: uma comparação honesta

A impressão digital de dispositivo conta quantos aparelhos distintos usam um login, apanhando o abuso de licenças que o IP e a MFA não veem.

Deteção de contas falsas: porque a verificação de email não chega em 2026

A verificação de email e o CAPTCHA confirmam um ponto de acesso, não uma pessoa. O fingerprinting de dispositivo é o que apanha registos falsos.

Melhor software de deteção de VPN 2026: fingerprinting TLS TLS handshake fingerprint vs listas de bloqueio de IP

As melhores ferramentas de deteção de VPN usam fingerprinting TLS TLS handshake fingerprint para apanhar proxies residenciais e VPNs que as listas de IP ignoram.

Checklist de conformidade PCI DSS 2026: requisitos 6.4.3 e 11.6.1 explicados

Os requisitos 6.4.3 e 11.6.1 tornaram-se obrigatórios em março de 2025. Eis o que integra uma checklist moderna de conformidade PCI DSS e como automatizá-la.

Software de prevenção de fraude por teste de cartões: como travar a validação automática de cartões no checkout

Veja como a deteção no browser trava o teste automático de cartões no checkout com comportamento da sessão, sinais de IA e fingerprinting de dispositivo.

O que é formjacking? Como funciona e como detetá-lo

O formjacking injeta JavaScript malicioso em páginas de pagamento para roubar dados de cartão à medida que são introduzidos, invisível a WAFs e CSPs. Eis como detetá-lo.

O que é credential stuffing? Definição, exemplos e deteção

O credential stuffing testa pares de utilizador e palavra-passe roubados de fugas contra outros sites. Veja como funciona e como os sinais de dispositivo o detetam.