Blog Attacks

Como Bloquear o ClaudeBot no Seu Site

O ClaudeBot rastreia o seu site para treinar os modelos Claude da Anthropic. Eis como bloqueá-lo com robots.txt e intervalos de IP, e o que o bloqueio ainda não cobre.

Jun 16, 2026 • 8 min read

Mike Kutlu Client-Side Security Consultant

Resumo: bloquear ClaudeBot sem impedir agentes Claude de navegar no teu site

Crawler versus agente: As equipas bloqueiam o ClaudeBot à espera de que o Claude desapareça do seu site, e no dia seguinte o Claude Computer Use entra a caminhar. O ClaudeBot é o crawler de treino da Anthropic; os agentes movidos a Claude que navegam a web usam infraestrutura e user-agents diferentes.
O bloqueio por robots.txt: O ClaudeBot identifica-se como Claude-Web/1.0, está documentado nas páginas de crawler da Anthropic e respeita o robots.txt de forma fiável; um Disallow: / mais os intervalos de IP publicados da Anthropic no firewall cobrem numa só camada de aplicação tanto a leitura do robots.txt como o comportamento não conforme.
A decisão: Se queres sair dos dados de treino do Claude, esta alteração de um ficheiro resolve. Se também queres manter o Claude Computer Use fora do teu checkout, esse é um problema de deteção separado que precisa de sinais ao nível do navegador.

Sem tempo? Veja a deteção de agentes de IA da cside. Cobre tudo o que se segue numa única implementação.

O ClaudeBot é o rastreador web operado pela Anthropic para recolher dados de treino para o Claude. É um rastreador declarado, baseado em HTTP: identifica-se, opera a partir de intervalos de IP publicados e foi concebido para respeitar as diretivas do robots.txt. Bloqueá-lo é tecnicamente simples.

O contexto mais importante: bloquear o ClaudeBot atua sobre o pipeline de dados de treino da Anthropic. Não tem qualquer efeito sobre agentes, ferramentas ou produtos alimentados pelo Claude que navegam na web em nome dos utilizadores. Esses são sistemas separados que requerem deteção na camada do navegador. Para o padrão mais amplo entre os scrapers de IA, consulte o nosso guia para bloquear bots de scraping de conteúdo com agentes de IA.

O que É o ClaudeBot?

Resposta rápida: O ClaudeBot é o rastreador de treino da Anthropic. Ele recolhe conteúdo web publicamente disponível para treinar e melhorar os modelos Claude. Usa uma string de agente de utilizador declarada e está listado na documentação pública da Anthropic juntamente com os seus intervalos de IP. É um rastreador HTTP, não um agente de navegador interativo.

O principal identificador de agente de utilizador do ClaudeBot é Claude-Web/1.0, com uma referência à página de documentação do rastreador da Anthropic. A Anthropic mantém documentação que descreve o propósito do rastreador, o seu comportamento e como bloqueá-lo.

Tal como o GPTBot, o ClaudeBot não executa JavaScript nem interage com interfaces de aplicações web. Ele faz requisições HTTP GET a URLs publicamente acessíveis, lê a resposta e segue em frente. Não inicia sessão, não preenche formulários nem navega por elementos interativos.

Como Bloquear o ClaudeBot com o robots.txt

Resposta rápida: Adicione ClaudeBot ao seu robots.txt para bloquear o rastreador por completo. A documentação da Anthropic indica que o ClaudeBot respeita estas diretivas. Use regras ao nível dos caminhos se quiser restringir apenas secções sensíveis enquanto permite o rastreador no conteúdo público.

Para bloquear o ClaudeBot em todo o seu site:

User-agent: ClaudeBot
Disallow: /

Para permitir o rastreador no conteúdo público mas restringir caminhos sensíveis:

User-agent: ClaudeBot
Disallow: /account/
Disallow: /checkout/
Disallow: /admin/
Allow: /blog/
Allow: /products/

A Anthropic tem uma boa reputação de conformidade no que toca aos seus rastreadores respeitarem as regras do robots.txt. Esta é a abordagem mais simples e mais amplamente eficaz para controlar o acesso do ClaudeBot sem alterações ao nível da infraestrutura. A mesma abordagem com o robots.txt funciona para outros rastreadores declarados, incluindo o CCBot e o Bytespider.

Bloqueio ao Nível de IP para o ClaudeBot

Resposta rápida: A Anthropic publica os intervalos de IP do ClaudeBot na sua documentação do rastreador. Negar estes intervalos na sua firewall ou CDN fornece uma aplicação que não depende de o rastreador ler o robots.txt. Verifique a documentação periodicamente, pois os intervalos de IP podem expandir-se quando a Anthropic escala a infraestrutura de rastreio.

O bloqueio ao nível de IP é a opção de aplicação mais robusta:

Apanha qualquer versão do rastreador que possa não lidar corretamente com o robots.txt
Cria um registo ao nível do servidor das requisições bloqueadas que pode auditar
Não depende da autoidentificação através da string de agente de utilizador

O compromisso: os intervalos de IP publicados pela Anthropic requerem manutenção. Se os bloquear ao nível da firewall, defina um lembrete para verificar atualizações de intervalos trimestralmente ou quando a Anthropic publicar entradas no changelog da sua documentação do rastreador.

ClaudeBot vs. Agentes Alimentados pelo Claude: A Lacuna que Importa

Resposta rápida: O ClaudeBot é o rastreador da Anthropic. O Claude, o assistente, é um produto diferente. Quando o Claude ajuda um utilizador a navegar na web, pesquisar um tópico ou concluir uma tarefa, ele usa infraestrutura diferente da do ClaudeBot. Bloquear o ClaudeBot não impede que agentes alimentados pelo Claude visitem o seu site.

Esta é a mesma lacuna estrutural que se aplica ao GPTBot e ao OpenAI Operator. O rastreador de treino e o agente interativo são sistemas separados.

Quando um utilizador pede ao Claude para pesquisar um produto, comparar preços ou concluir uma tarefa baseada na web, o Claude usa uma sessão de navegador ou uma ferramenta de pesquisa web que não é o ClaudeBot. Essa sessão pode não ter quaisquer cabeçalhos identificadores que a liguem à Anthropic. Da perspetiva do seu servidor, parece uma requisição de navegador padrão.

O modelo mental correto: o robots.txt e o bloqueio de IP gerem a sua relação com o pipeline de recolha de dados da Anthropic. Eles não gerem a sua relação com o Claude enquanto produto a ser usado por utilizadores reais para interagir com o seu site.

O que Acontece Depois de Bloquear o ClaudeBot

Resposta rápida: Bloquear o ClaudeBot impede que o seu conteúdo entre no pipeline de dados de treino da Anthropic. Não impede que o Claude faça referência ao seu site nas respostas com base em conteúdo previamente indexado. Não impede que sistemas agênticos alimentados pelo Claude naveguem no seu site em nome dos utilizadores.

Depois de um bloqueio do ClaudeBot:

As futuras execuções de treino não incluirão o seu novo conteúdo
O conteúdo previamente recolhido permanece nos pesos dos modelos Claude existentes
Os utilizadores do Claude que lhe pedem para navegar no seu site não são afetados
Qualquer agente alimentado pelo Claude (utilização do computador no Claude.ai, agentes da API do Claude) que visite o seu site não é afetado

O alcance de um bloqueio com robots.txt é mais estreito do que a maioria dos proprietários de sites espera. É uma declaração sobre um rastreador específico, não uma política que se aplica a todo o portefólio de produtos de uma empresa de IA.

Deteção na Camada do Navegador para Além do ClaudeBot

Resposta rápida: Bloquear o ClaudeBot é simples. O problema mais difícil é detetar agentes alimentados pelo Claude a navegar no seu site em sessões de navegador reais, em nome dos utilizadores, sessões que parecem idênticas ao tráfego humano na camada de rede. Isso requer observação na camada do navegador.

Considere o que um agente de utilização de computador alimentado pelo Claude realmente faz quando um utilizador lhe pede para pesquisar um produto SaaS. Ele abre uma sessão Chromium real, carrega a página de preços e percorre a tabela de funcionalidades. Na camada de rede, a requisição parece idêntica a uma visita humana: um agente de utilizador padrão do Chrome, um IP residencial, uma impressão digital TLS dentro do intervalo. Sem cabeçalho do ClaudeBot. Sem intervalo de IP da Anthropic. O agente navega por quatro páginas em 11 segundos sem uma única variância de movimento do rato, nunca volta atrás e nunca faz pausa num campo de formulário a menos que a tarefa exija introdução de dados. Esses sinais de tempo e padrões de interação só são detetáveis dentro da sessão do navegador. A instrumentação da cside captura-os na camada de execução de JavaScript antes que qualquer ferramenta ao nível de rede os consiga ver. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários: as ferramentas de rede simplesmente não estão a observar a camada certa.

Painel de deteção de agentes de IA da cside

A cside opera dentro da sessão do navegador e expõe os sinais comportamentais que distinguem a navegação executada por agentes do comportamento humano. O tempo de interação, os padrões de navegação, a consistência da impressão digital e as características de execução de JavaScript são todos observáveis dentro de uma sessão de navegador, mas invisíveis para as ferramentas da camada de rede. O próprio ClaudeBot não está nessa categoria: é facilmente bloqueado. Os agentes que operam através de sessões de navegador são exatamente o que esses testes identificaram como a ameaça invisível.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

O ClaudeBot é o rastreador web da Anthropic, usado para recolher dados de treino para os modelos Claude. Ele faz requisições HTTP GET a URLs publicamente acessíveis, identifica-se com uma string de agente de utilizador declarada e opera a partir de intervalos de IP publicados. É um rastreador HTTP que não executa JavaScript nem interage com aplicações web dinâmicas.

Adicione `User-agent: ClaudeBot` seguido de `Disallow: /` ao seu ficheiro `robots.txt`. A documentação da Anthropic indica que o ClaudeBot respeita estas diretivas. Para controlo ao nível dos caminhos, use regras `Disallow` específicas para restringir o acesso a secções sensíveis enquanto permite o rastreador no conteúdo público.

Não. O ClaudeBot é o rastreador de treino da Anthropic. O Claude, o assistente, é um produto separado. Quando os utilizadores do Claude lhe pedem para navegar na web ou concluir tarefas baseadas na web, essas sessões usam infraestrutura diferente. Bloquear o ClaudeBot não impede que agentes alimentados pelo Claude visitem o seu site.

Sim. A Anthropic publica os intervalos de IP do ClaudeBot na sua documentação do rastreador. Negar estes intervalos na sua firewall ou CDN fornece uma aplicação que não depende de o rastreador ler o `robots.txt`. Os intervalos de IP requerem atualizações periódicas à medida que a Anthropic escala a sua infraestrutura de rastreio.

Depende de querer ou não o seu conteúdo nos dados de treino da Anthropic. Bloqueá-lo impede que novo conteúdo entre em futuras execuções de treino, mas não remove o conteúdo previamente recolhido dos modelos Claude existentes. Pondere o compromisso entre a proteção de dados e o potencial benefício de estar bem representado na base de conhecimento do Claude.

Monitore e proteja seus scripts de terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Agende uma demonstração

Comece gratuitamente

Comece grátis ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança

Proteção contra bots em 2026: porque a deteção na camada do navegador apanha o que os WAF não veem

Os agentes de IA correm em navegadores Chromium reais e contornam os WAF. A deteção na camada do navegador lê a entropia do canvas e a cadência da sessão para os apanhar.

Prevenção de fraude de chargeback: como as provas de dispositivo ganham disputas em 2026

Prevenir a fraude de chargeback depende de provas de dispositivo captadas no checkout, o que a Visa CE 3.0 aceita numa disputa de cartão não presente.

Soluções contra apropriação de contas: compreender a categoria antes de construir uma lista restrita

As soluções contra apropriação de contas têm quatro camadas: WAF, MFA, inteligência de dispositivo no navegador e análise comportamental. Nenhum fornecedor as cobre todas.

Melhor software de deteção de partilha de contas 2026: uma comparação honesta

A impressão digital de dispositivo conta quantos aparelhos distintos usam um login, apanhando o abuso de licenças que o IP e a MFA não veem.

Deteção de contas falsas: porque a verificação de email não chega em 2026

A verificação de email e o CAPTCHA confirmam um ponto de acesso, não uma pessoa. O fingerprinting de dispositivo é o que apanha registos falsos.

Melhor software de deteção de VPN 2026: fingerprinting TLS TLS handshake fingerprint vs listas de bloqueio de IP

As melhores ferramentas de deteção de VPN usam fingerprinting TLS TLS handshake fingerprint para apanhar proxies residenciais e VPNs que as listas de IP ignoram.

Checklist de conformidade PCI DSS 2026: requisitos 6.4.3 e 11.6.1 explicados

Os requisitos 6.4.3 e 11.6.1 tornaram-se obrigatórios em março de 2025. Eis o que integra uma checklist moderna de conformidade PCI DSS e como automatizá-la.

Software de prevenção de fraude por teste de cartões: como travar a validação automática de cartões no checkout

Veja como a deteção no browser trava o teste automático de cartões no checkout com comportamento da sessão, sinais de IA e fingerprinting de dispositivo.

O que é formjacking? Como funciona e como detetá-lo

O formjacking injeta JavaScript malicioso em páginas de pagamento para roubar dados de cartão à medida que são introduzidos, invisível a WAFs e CSPs. Eis como detetá-lo.

O que é credential stuffing? Definição, exemplos e deteção

O credential stuffing testa pares de utilizador e palavra-passe roubados de fugas contra outros sites. Veja como funciona e como os sinais de dispositivo o detetam.