O DeepSeekBot é o rastreador web operado pela DeepSeek, a empresa chinesa de IA que ganhou ampla atenção no início de 2025 com modelos que igualaram ou superaram o desempenho do GPT-4 a uma fração do custo de treino. O rastreador recolhe conteúdo web para treinar e melhorar os modelos de IA da DeepSeek.
Para muitos proprietários de sites, bloquear o DeepSeekBot é tanto uma decisão de soberania de dados como uma decisão técnica. A mesma abordagem de robots.txt que funciona para o GPTBot e o ClaudeBot aplica-se aqui, com algumas considerações adicionais.
O que É o DeepSeekBot?
Resposta rápida: O DeepSeekBot é um rastreador web operado pela DeepSeek, uma empresa chinesa de investigação em IA. Recolhe conteúdo web disponível publicamente para treinar os modelos de linguagem da DeepSeek. Identifica-se com uma string de agente de utilizador declarada e é um rastreador HTTP que não executa JavaScript nem interage com interfaces de aplicações web.
O rastreador da DeepSeek usa identificadores de agente de utilizador da família DeepSeek. Tal como outros rastreadores de treino de IA declarados, faz requisições HTTP GET, lê conteúdo de texto e é concebido para respeitar as diretivas do robots.txt.
A DeepSeek opera ao abrigo da lei e dos regulamentos de dados chineses, o que cria um perfil de risco diferente do dos rastreadores operados por empresas sediadas nos EUA. O conteúdo recolhido pelo DeepSeekBot pode estar sujeito a requisitos de acesso a dados que se aplicam às empresas tecnológicas chinesas sob a jurisdição chinesa. Este é um contexto relevante para organizações com obrigações regulatórias, propriedade intelectual sensível ou políticas de governação de dados que tenham em conta a origem dos dados.
Como Bloquear o DeepSeekBot com o robots.txt
Resposta rápida: Adicione o
DeepSeekBotao seurobots.txtcom uma diretivaDisallow: /. Se o rastreador da DeepSeek respeitar orobots.txt(como é concebido para fazer), isto bloqueia toda a recolha do seu site. Use regras ao nível dos caminhos para um controlo mais granular.
Para bloquear o DeepSeekBot de todo o seu site:
User-agent: DeepSeekBot
Disallow: /
Se quiser permitir a indexação de algum conteúdo enquanto protege áreas sensíveis:
User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/
Ao contrário do GPTBot e do ClaudeBot, que têm historiais de conformidade bem documentados, o historial de conformidade do DeepSeekBot com o robots.txt está menos exaustivamente documentado em relatórios públicos. Se a fiabilidade da aplicação for importante, considere complementar o robots.txt com bloqueio ao nível do IP. A mesma lacuna aplica-se a outros rastreadores de treino menos documentados, como o Bytespider da ByteDance e o CCBot da Common Crawl.
Considerações sobre Soberania de Dados
Resposta rápida: A DeepSeek está incorporada na China e opera ao abrigo da lei chinesa. O conteúdo recolhido pelo seu rastreador pode estar sujeito a requisitos de acesso a dados que se aplicam às empresas tecnológicas chinesas. Para organizações em setores regulados ou com políticas explícitas de governação de dados, esta distinção tem um peso de conformidade que não teria para um rastreador sediado nos EUA.
Isto não é uma afirmação de que a DeepSeek faz uso indevido ativo dos dados. É uma declaração sobre a jurisdição e o quadro jurídico ao abrigo do qual os dados recolhidos existem. As organizações que mantêm políticas que restringem a transferência de dados para determinadas jurisdições, ou que têm preocupações de propriedade intelectual quanto à origem dos dados de treino de IA, têm motivos técnicos e legais legítimos para bloquear o DeepSeekBot especificamente, em vez de o fazerem como parte de uma política abrangente de rastreadores de IA.
As equipas de segurança em serviços financeiros, saúde, contratantes governamentais e empresas de tecnologia com propriedade intelectual proprietária estiveram entre as primeiras a adicionar o DeepSeekBot às suas listas de bloqueio de rastreadores precisamente por esta razão.
Bloqueio ao Nível do IP para o DeepSeekBot
Resposta rápida: A DeepSeek publica as gamas de IP do seu rastreador na sua documentação. Adicionar estas gamas à sua firewall ou CDN proporciona uma aplicação que não depende da conformidade com o
robots.txt. Dada a menor certeza de conformidade em comparação com os rastreadores sediados nos EUA, o bloqueio de IP é a abordagem mais fiável para organizações com requisitos rigorosos.
Para implementar o bloqueio ao nível do IP:
- Localize as gamas de IP atuais publicadas pela DeepSeek na sua documentação oficial
- Adicione estas gamas à lista de negação da sua firewall, CDN ou proxy reverso
- Defina um ciclo de revisão para atualizações, pois as gamas de IP expandem-se com o crescimento da infraestrutura de rastreio
Tal como acontece com todas as listas de IP de rastreadores, isto requer manutenção contínua. Um ciclo de revisão trimestral é suficiente para a maioria das organizações.
DeepSeekBot vs. Agentes Alimentados pela DeepSeek
Resposta rápida: Bloquear o DeepSeekBot aborda o pipeline de dados de treino da DeepSeek. Se a DeepSeek criar ou disponibilizar produtos de IA agêntica que naveguem na web em nome dos utilizadores, essas sessões não seriam o DeepSeekBot e não seriam afetadas pelas suas regras do
robots.txt.
O foco público da DeepSeek tem sido nas capacidades dos modelos de linguagem em vez de ferramentas de navegação agêntica, mas este é um espaço em evolução. A lacuna estrutural aplica-se aqui tal como se aplica à OpenAI e à Anthropic: o rastreador declarado e quaisquer agentes interativos futuros são sistemas separados.
As organizações que pretendem proteção abrangente contra todo o acesso automatizado relacionado com a DeepSeek aos seus sites devem monitorizar os anúncios de produtos da DeepSeek em busca de produtos agênticos, em particular quaisquer capacidades de browser-use ou computer-use que criariam sessões de navegador não declaradas. A deteção na camada do navegador cobre esses cenários; o robots.txt não.
Deteção na Camada do Navegador: Para Além do Rastreador Declarado
Resposta rápida: Bloquear o DeepSeekBot aborda o rastreador de treino declarado da DeepSeek. Não aborda os agentes ou aplicações alimentados pela DeepSeek que navegam no seu site em sessões de navegador reais em nome dos utilizadores. Essas sessões requerem deteção comportamental na camada do navegador, não regras do
robots.txt.
O roteiro público de produtos da DeepSeek tem-se concentrado na capacidade dos modelos de linguagem em vez de ferramentas de navegação agêntica, mas a categoria está em evolução. Qualquer ferramenta alimentada pela DeepSeek que use automação real de navegador apresentar-se-ia como uma sessão de navegador padrão, sem ligação ao agente de utilizador declarado do DeepSeekBot. O seu bloqueio no robots.txt seria irrelevante para esse tráfego. O mesmo ponto cego afeta a proteção de conteúdo de forma mais ampla, razão pela qual bloquear scrapers de conteúdo de IA depende cada vez mais do comportamento e não da autodeclaração.
Para perceber como essa lacuna se apresenta na prática: imagine um agente de investigação alimentado pela DeepSeek com a tarefa de compilar inteligência competitiva sobre um fornecedor de SaaS. Abre uma sessão de Chromium headless, navega pelas páginas de preços e documentação do site em sequência e extrai dados estruturados. A sessão apresenta uma impressão digital legítima do Chrome proveniente de um centro de dados numa jurisdição não chinesa, pelo que nem a origem do IP nem o agente de utilizador acionam qualquer filtro. O agente conclui uma auditoria completa de seis páginas em menos de 40 segundos, com zero tempo de permanência em imagens e sem comportamento de retrocesso de scroll. Essas anomalias de interação só são visíveis na camada do navegador. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, precisamente porque as ferramentas da camada de rede veem uma requisição limpa e param por aí.

De forma mais ampla, a preocupação com a soberania de dados que torna o DeepSeekBot digno de bloqueio aplica-se igualmente a qualquer sessão alimentada por IA que aceda ao seu site a partir de infraestrutura em jurisdições com quadros de governação de dados diferentes. A monitorização na camada do navegador da cside expõe agentes nomeados e não nomeados por sinal comportamental em vez de autodeclaração, incluindo sessões que não apresentam qualquer informação identificativa.







