Skip to main content
Blog
Blog Attacks

Como Bloquear o DeepSeekBot no Seu Website

O DeepSeekBot rastreia o seu site para uma empresa chinesa de IA. Saiba como bloqueá-lo com robots.txt, regras de IP e os reais riscos de soberania de dados que ele levanta.

Jun 22, 2026 7 min read
Como Bloquear o DeepSeekBot no Seu Website

O DeepSeekBot é o rastreador web operado pela DeepSeek, a empresa chinesa de IA que ganhou ampla atenção no início de 2025 com modelos que igualaram ou superaram o desempenho do GPT-4 a uma fração do custo de treino. O rastreador recolhe conteúdo web para treinar e melhorar os modelos de IA da DeepSeek.

Para muitos proprietários de sites, bloquear o DeepSeekBot é tanto uma decisão de soberania de dados como uma decisão técnica. A mesma abordagem de robots.txt que funciona para o GPTBot e o ClaudeBot aplica-se aqui, com algumas considerações adicionais.


O que É o DeepSeekBot?

Resposta rápida: O DeepSeekBot é um rastreador web operado pela DeepSeek, uma empresa chinesa de investigação em IA. Recolhe conteúdo web disponível publicamente para treinar os modelos de linguagem da DeepSeek. Identifica-se com uma string de agente de utilizador declarada e é um rastreador HTTP que não executa JavaScript nem interage com interfaces de aplicações web.

O rastreador da DeepSeek usa identificadores de agente de utilizador da família DeepSeek. Tal como outros rastreadores de treino de IA declarados, faz requisições HTTP GET, lê conteúdo de texto e é concebido para respeitar as diretivas do robots.txt.

A DeepSeek opera ao abrigo da lei e dos regulamentos de dados chineses, o que cria um perfil de risco diferente do dos rastreadores operados por empresas sediadas nos EUA. O conteúdo recolhido pelo DeepSeekBot pode estar sujeito a requisitos de acesso a dados que se aplicam às empresas tecnológicas chinesas sob a jurisdição chinesa. Este é um contexto relevante para organizações com obrigações regulatórias, propriedade intelectual sensível ou políticas de governação de dados que tenham em conta a origem dos dados.


Como Bloquear o DeepSeekBot com o robots.txt

Resposta rápida: Adicione o DeepSeekBot ao seu robots.txt com uma diretiva Disallow: /. Se o rastreador da DeepSeek respeitar o robots.txt (como é concebido para fazer), isto bloqueia toda a recolha do seu site. Use regras ao nível dos caminhos para um controlo mais granular.

Para bloquear o DeepSeekBot de todo o seu site:

User-agent: DeepSeekBot
Disallow: /

Se quiser permitir a indexação de algum conteúdo enquanto protege áreas sensíveis:

User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/

Ao contrário do GPTBot e do ClaudeBot, que têm historiais de conformidade bem documentados, o historial de conformidade do DeepSeekBot com o robots.txt está menos exaustivamente documentado em relatórios públicos. Se a fiabilidade da aplicação for importante, considere complementar o robots.txt com bloqueio ao nível do IP. A mesma lacuna aplica-se a outros rastreadores de treino menos documentados, como o Bytespider da ByteDance e o CCBot da Common Crawl.


Considerações sobre Soberania de Dados

Resposta rápida: A DeepSeek está incorporada na China e opera ao abrigo da lei chinesa. O conteúdo recolhido pelo seu rastreador pode estar sujeito a requisitos de acesso a dados que se aplicam às empresas tecnológicas chinesas. Para organizações em setores regulados ou com políticas explícitas de governação de dados, esta distinção tem um peso de conformidade que não teria para um rastreador sediado nos EUA.

Isto não é uma afirmação de que a DeepSeek faz uso indevido ativo dos dados. É uma declaração sobre a jurisdição e o quadro jurídico ao abrigo do qual os dados recolhidos existem. As organizações que mantêm políticas que restringem a transferência de dados para determinadas jurisdições, ou que têm preocupações de propriedade intelectual quanto à origem dos dados de treino de IA, têm motivos técnicos e legais legítimos para bloquear o DeepSeekBot especificamente, em vez de o fazerem como parte de uma política abrangente de rastreadores de IA.

As equipas de segurança em serviços financeiros, saúde, contratantes governamentais e empresas de tecnologia com propriedade intelectual proprietária estiveram entre as primeiras a adicionar o DeepSeekBot às suas listas de bloqueio de rastreadores precisamente por esta razão.


Bloqueio ao Nível do IP para o DeepSeekBot

Resposta rápida: A DeepSeek publica as gamas de IP do seu rastreador na sua documentação. Adicionar estas gamas à sua firewall ou CDN proporciona uma aplicação que não depende da conformidade com o robots.txt. Dada a menor certeza de conformidade em comparação com os rastreadores sediados nos EUA, o bloqueio de IP é a abordagem mais fiável para organizações com requisitos rigorosos.

Para implementar o bloqueio ao nível do IP:

  1. Localize as gamas de IP atuais publicadas pela DeepSeek na sua documentação oficial
  2. Adicione estas gamas à lista de negação da sua firewall, CDN ou proxy reverso
  3. Defina um ciclo de revisão para atualizações, pois as gamas de IP expandem-se com o crescimento da infraestrutura de rastreio

Tal como acontece com todas as listas de IP de rastreadores, isto requer manutenção contínua. Um ciclo de revisão trimestral é suficiente para a maioria das organizações.


DeepSeekBot vs. Agentes Alimentados pela DeepSeek

Resposta rápida: Bloquear o DeepSeekBot aborda o pipeline de dados de treino da DeepSeek. Se a DeepSeek criar ou disponibilizar produtos de IA agêntica que naveguem na web em nome dos utilizadores, essas sessões não seriam o DeepSeekBot e não seriam afetadas pelas suas regras do robots.txt.

O foco público da DeepSeek tem sido nas capacidades dos modelos de linguagem em vez de ferramentas de navegação agêntica, mas este é um espaço em evolução. A lacuna estrutural aplica-se aqui tal como se aplica à OpenAI e à Anthropic: o rastreador declarado e quaisquer agentes interativos futuros são sistemas separados.

As organizações que pretendem proteção abrangente contra todo o acesso automatizado relacionado com a DeepSeek aos seus sites devem monitorizar os anúncios de produtos da DeepSeek em busca de produtos agênticos, em particular quaisquer capacidades de browser-use ou computer-use que criariam sessões de navegador não declaradas. A deteção na camada do navegador cobre esses cenários; o robots.txt não.


Deteção na Camada do Navegador: Para Além do Rastreador Declarado

Resposta rápida: Bloquear o DeepSeekBot aborda o rastreador de treino declarado da DeepSeek. Não aborda os agentes ou aplicações alimentados pela DeepSeek que navegam no seu site em sessões de navegador reais em nome dos utilizadores. Essas sessões requerem deteção comportamental na camada do navegador, não regras do robots.txt.

O roteiro público de produtos da DeepSeek tem-se concentrado na capacidade dos modelos de linguagem em vez de ferramentas de navegação agêntica, mas a categoria está em evolução. Qualquer ferramenta alimentada pela DeepSeek que use automação real de navegador apresentar-se-ia como uma sessão de navegador padrão, sem ligação ao agente de utilizador declarado do DeepSeekBot. O seu bloqueio no robots.txt seria irrelevante para esse tráfego. O mesmo ponto cego afeta a proteção de conteúdo de forma mais ampla, razão pela qual bloquear scrapers de conteúdo de IA depende cada vez mais do comportamento e não da autodeclaração.

Para perceber como essa lacuna se apresenta na prática: imagine um agente de investigação alimentado pela DeepSeek com a tarefa de compilar inteligência competitiva sobre um fornecedor de SaaS. Abre uma sessão de Chromium headless, navega pelas páginas de preços e documentação do site em sequência e extrai dados estruturados. A sessão apresenta uma impressão digital legítima do Chrome proveniente de um centro de dados numa jurisdição não chinesa, pelo que nem a origem do IP nem o agente de utilizador acionam qualquer filtro. O agente conclui uma auditoria completa de seis páginas em menos de 40 segundos, com zero tempo de permanência em imagens e sem comportamento de retrocesso de scroll. Essas anomalias de interação só são visíveis na camada do navegador. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, precisamente porque as ferramentas da camada de rede veem uma requisição limpa e param por aí.

Painel de deteção de agentes de IA da cside

De forma mais ampla, a preocupação com a soberania de dados que torna o DeepSeekBot digno de bloqueio aplica-se igualmente a qualquer sessão alimentada por IA que aceda ao seu site a partir de infraestrutura em jurisdições com quadros de governação de dados diferentes. A monitorização na camada do navegador da cside expõe agentes nomeados e não nomeados por sinal comportamental em vez de autodeclaração, incluindo sessões que não apresentam qualquer informação identificativa.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

O DeepSeekBot é o rastreador web operado pela DeepSeek, uma empresa chinesa de IA que desenvolve grandes modelos de linguagem. Recolhe conteúdo web disponível publicamente para treinar os sistemas de IA da DeepSeek. Usa uma string de agente de utilizador declarada e é concebido para respeitar as diretivas do robots.txt. A DeepSeek opera ao abrigo da lei e dos regulamentos de dados chineses.

Adicione User-agent: DeepSeekBot seguido de Disallow: / ao seu ficheiro robots.txt para o bloquear de todo o seu site. Para controlo ao nível dos caminhos, use regras Disallow específicas. Dado o historial de conformidade menos documentado do DeepSeekBot em comparação com o GPTBot ou o ClaudeBot, vale a pena considerar complementar o robots.txt com bloqueio ao nível do IP.

A DeepSeek é uma empresa chinesa que opera sob a jurisdição e a lei de dados chinesas. As organizações com políticas que restringem a transferência de dados para determinadas jurisdições, ou com requisitos regulatórios que regem onde os seus dados podem ser acedidos, têm motivos específicos de conformidade para bloquear o DeepSeekBot independentemente de uma política geral de rastreadores de IA.

Bloquear o DeepSeekBot impede que o seu conteúdo seja recolhido em futuros rastreios de treino. O conteúdo já recolhido antes de o seu bloqueio ser adicionado permanece nos pesos dos modelos existentes. Bloquear o rastreador não afeta quaisquer produtos ou agentes alimentados pela DeepSeek que naveguem na web através de sessões de navegador em vez do rastreador declarado.

O DeepSeekBot é concebido para respeitar as diretivas do robots.txt, mas o seu historial de conformidade está menos exaustivamente documentado em relatórios independentes em comparação com o GPTBot (OpenAI) ou o ClaudeBot (Anthropic). As organizações com requisitos rigorosos devem considerar o bloqueio ao nível do IP como complemento de aplicação ao robots.txt. Uma revisão trimestral das gamas de IP publicadas pela DeepSeek mantém essa camada de aplicação atualizada.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança
Related Articles
Agende uma demonstração