Resumo
- O robots.txt é uma diretiva voluntária, não um controle de segurança. Agentes e rastreadores de IA não são obrigados a cumprir sua solicitação.
- O robots.txt também deixa uma brecha para falsificação de user-agent, quando agentes de IA maliciosos declaram falsamente ser um agente confiável como "GPTBot".
- Agentes de IA que usam navegadores headless (às vezes hospedados localmente) estão se tornando cada vez mais comuns e conseguem escapar das ferramentas legadas de detecção de bots (como o Cloudflare).
- Ferramentas especializadas (como o cside AI Agent Detection) são necessárias para identificar com precisão o que os agentes estão fazendo no seu site e para prevenir atividades fraudulentas.
- Rastreadores e scrapers de IA não são a única ameaça. Você deve bloquear agentes que executam abuso de promoções, testes de cartão de crédito, pirataria de conteúdo e fraude de chargeback.
4 Métodos para Bloquear Agentes de IA no Seu Site (comparação)
<thead>
<tr>
<th>Método</th>
<th>Como Funciona</th>
<th>Eficaz contra:</th>
<th>Profundidade de Segurança/Antifraude:</th>
<th>Custo</th>
<th>Dificuldade de Implementação</th>
</tr>
</thead>
<tbody>
<tr>
<td><strong>robots.txt</strong></td>
<td>
Um arquivo de texto que você cria e faz upload no seu site. Ele informa aos rastreadores quais partes do seu site eles não devem acessar.
</td>
<td>
• Rastreadores de IA de grandes plataformas (Google, ChatGPT)<br>
• Scrapers de IA que treinam modelos de LLM
</td>
<td>
<strong>Fraco</strong><br>
• A maioria dos agentes de IA não respeita o robots.txt<br>
• Falsificação de user-agent é fácil<br>
• Sem visibilidade sobre o comportamento<br>
• Ineficaz contra agentes maliciosos ou hospedados localmente
</td>
<td>Gratuito</td>
<td>Fácil. Pode ser implementado por equipes não técnicas.</td>
</tr>
<tr>
<td><strong>Controles no servidor</strong></td>
<td>
Defina regras no nível do servidor para bloquear agentes com base em IP ou diretivas de user-agent.
</td>
<td>
• Rastreadores de IA de grandes plataformas (Google, ChatGPT)<br>
• Scrapers de IA que treinam modelos de LLM
</td>
<td>
<strong>Fraco</strong><br>
• O bloqueio por IP pode ser contornado com proxies residenciais<br>
• Cabeçalhos HTTP podem ser falsificados<br>
• Requer configuração manual que pode ser facilmente mal configurada
</td>
<td>Baixo a moderado (requer tempo de pessoal)</td>
<td>Médio. Requer suporte de desenvolvedor ou DevOps.</td>
</tr>
<tr>
<td><strong>Detecção tradicional de bots (como Cloudflare)</strong></td>
<td>
Ferramenta de fornecedor com dashboards. Atribui pontuações de bot usando sinais da camada de rede, bancos de dados de reputação e monitoramento limitado do lado do cliente.
</td>
<td>
• Rastreadores de IA de busca<br>
• Scrapers de IA que treinam modelos de LLM<br>
• Bots e scrapers básicos<br>
• Ataques DDoS
</td>
<td>
<strong>Médio</strong><br>
• Dificuldade com agentes de navegador hospedados localmente<br>
• Visibilidade limitada no nível de interação<br>
• Lógica binária de permitir/negar<br>
• Capacidades de governança fracas
</td>
<td>Baixo a moderado (depende do plano de preços)</td>
<td>Fácil.</td>
</tr>
<tr>
<td><strong>Detecção especializada de agentes de IA (como cside)</strong></td>
<td>
Ferramenta de fornecedor com dashboards. Analisa execução comportamental, monitoramento profundo do lado do cliente e sinais exclusivos para identificar agentes de IA com mais precisão.
</td>
<td>
• Rastreadores de IA de grandes plataformas (Google, ChatGPT)<br>
• Scrapers de IA que treinam modelos de LLM<br>
• Bots e scrapers básicos<br>
• Agentes de consumidores rodando em extensões de navegador<br>
• Agentes de IA fraudulentos (ambientes hospedados localmente, navegadores headless)
</td>
<td>
<strong>Forte</strong><br>
• Desenvolvido especificamente para se defender contra agentes de IA<br>
• Combina sinais de rede, aplicação e nível de interação<br>
* Detecção mais precisa contra agentes baseados em navegador headless
</td>
<td>Baixo a moderado (depende do plano de preços)</td>
<td>Fácil. Instale um trecho de código no seu site.</td>
</tr>
</tbody>
</table>
1. Robots.txt
Como funciona: Você cria um arquivo "robots.txt" e faz upload no seu site. Esse arquivo de texto contém uma lista de nomes de agentes de IA que são permitidos ou bloqueados. Quando esses agentes visitam seu site e leem que estão "bloqueados", eles se abstêm de acessá-lo. *
* Apenas os agentes que optarem por respeitar seu robots.txt serão efetivamente bloqueados. Esse arquivo pode ser ignorado por agentes maliciosos ou mal configurados.
Exemplo Simplificado
# Permitir o rastreador da OpenAI (ChatGPT / GPTBot) User-agent: GPTBot Allow: /Bloquear o rastreador da DeepSeek
User-agent: DeepSeekBot Disallow: /
Bloco de código: Exemplo de diretiva robots.txt que permite o GPTBot e bloqueia o DeepSeekBot
A maioria dos arquivos robots.txt conterá dezenas de diretivas de user-agent.
Vantagens
- Gratuito
- Muitas ferramentas e modelos para começar rapidamente
- Pode ser configurado em um dia
- Pode ser implementado por uma pessoa sem conhecimento técnico
Limitações
- Os agentes não são obrigados a respeitar seu arquivo robots.txt. É mais como uma solicitação educada. Rastreadores dos principais provedores de IA (Meta, Anthropic, OpenAI) tendem a respeitar essas diretivas, mas essas empresas representam apenas a ponta do iceberg do total de agentes de IA.
- Agentes de IA maliciosos vão ignorar seu arquivo robots.txt.
- Manutenção manual para centenas de ferramentas populares de agentes de IA, cada uma com múltiplas identidades agênticas (rastreador, pesquisa, executor de ações).
- Nem todos os agentes de IA têm uma "identidade" pública. Plataformas como Selenium e Playwright permitem que usuários criem agentes que acessam seu site sem uma identidade clara.
- Você tem visibilidade zero sobre o comportamento. Esse mecanismo serve apenas como uma lista de "bloquear ou não". Você não vê quanto tráfego é agêntico nem o que os agentes estão fazendo.
Você deve usar o robots.txt: Sim. É um ótimo ponto de partida para pequenas empresas e vai protegê-lo dos principais rastreadores conhecidos publicamente, como o da Meta, que de outra forma consumiriam recursos do servidor. No entanto, esse mecanismo não vai protegê-lo contra fraudes de agentes de IA.
2. Controles no Servidor
Como funciona: Você configura regras no seu servidor web (.htaccess), CDN ou firewall que efetivamente bloqueiam agentes de IA por meio de:
- Bloqueio de endereços IP específicos ou intervalos de IPs de agentes conhecidos
- Limitação de taxa para padrões de requisição excessivos
- Inspeção de cabeçalhos HTTP
- Verificação de identidades de user-agent (semelhante ao robots.txt)
Ao contrário do robots.txt, os controles no servidor têm poder de aplicação real. Essas regras vão bloquear agentes ou retornar um código de erro para que eles não consigam acessar seu site.
Vantagens
- Aplicação real contra tráfego de agentes
- Mitiga agentes de scraping simples
- Interrompe abuso de requisições em alto volume
- Funciona bem para bloquear rastreadores identificados publicamente (Meta, DeepSeek, Google)
Limitações
- Requer configuração técnica e manutenção, geralmente por um desenvolvedor web
- Agentes de IA maliciosos podem contornar esses controles
- O bloqueio por IP pode ser contornado por proxies residenciais ou IPs rotativos
- Cabeçalhos HTTP podem ser facilmente falsificados
- Sem visibilidade sobre o comportamento. Esse mecanismo vai bloquear agentes, mas não fornece insights sobre o que eles estão fazendo.
Conclusão: Se você tem pessoal técnico disponível, os controles no servidor são uma forma robusta de aplicar bloqueios contra requisições de rastreadores agênticos. Esse método ainda fica aquém em termos de defesa contra fraudes de agentes de IA ou ataques assistidos por IA a sites, pois agentes maliciosos podem criar identidades falsas e passar pelos controles de verificação.
3. Ferramentas Tradicionais de Detecção de Bots (ex.: Cloudflare)
Muitos produtos legados de detecção de bots atualizaram sua marca para 'detecção de agentes de IA', mas não evoluíram seu produto de forma suficiente e falham em detectar navegadores hospedados localmente ou ambientes agênticos criados para evitar detecções.
Como funciona: Ferramentas de fornecedores como a detecção de bots do Cloudflare atribuem a cada visitante uma "pontuação de bot" com base em análise comportamental, fingerprints, bancos de dados de reputação de ameaças conhecidas e outros sinais.
Essas ferramentas operam principalmente na camada de CDN ou de rede do seu site, com alguma injeção de JavaScript nas páginas para coletar sinais do navegador (monitoramento do lado do cliente).
Vantagens
- Relativamente fácil de instalar
- Comparado a listas de permitir/bloquear, analisa sinais mais avançados do que apenas a identidade
- Proteção comprovada contra ataques como DDoS e bots básicos de scraping
- Mais automatizado do que controles manuais no servidor
Limitações
- Pode ser contornado por agentes de IA fraudulentos que imitam o comportamento humano
- Dificuldade em detectar agentes de navegador hospedados localmente, cada vez mais adotados por consumidores e atacantes
- Dependem de sinais no nível de aplicação, com sinais muito básicos no nível de interação
- Sem capacidade de orientar agentes de IA do consumidor na jornada de compra
- Visibilidade fraca sobre sinais do lado do cliente
As ferramentas legadas de detecção de bots não estão preparadas para agentes de IA: Essas soluções foram criadas para uma era em que os bots viviam em infraestrutura de nuvem, não conseguiam raciocinar e seguiam padrões previsíveis. Os agentes de IA modernos rodam dentro de navegadores reais e se misturam ao tráfego normal. O bloqueio indiscriminado vai parar abusos óbvios, mas uma estratégia moderna de governança agêntica exige compreender a intenção e definir regras dinâmicas.
Nossos testes internos no cside conseguiram contornar a detecção tradicional de bots em 80 de 100 tentativas com esforço mínimo.
4. Ferramentas Especializadas de Detecção de Agentes de IA (ex.: cside)
Como funciona: Um trecho de código é instalado no seu site, dando a você controle sobre:
- Detecção: Observe dezenas de sinais para identificar agentes de IA, suas ações e o risco de fraude.
- Bloqueio: Pontuações de risco são criadas a partir de uma variedade de sinais — padrões de interação, fingerprints, contexto de execução JavaScript, bancos de dados de reputação, honeypots e mais. Você pode revisar o risco do agente e definir regras dinâmicas para bloqueá-lo completamente ou permitir acesso limitado.
- Governança: Um SDK é usado por desenvolvedores para adicionar guardrails às sessões de agentes. Por exemplo, determinadas etapas podem solicitar validação humana, ou agentes confiáveis específicos podem ter permissão para realizar compras enquanto outros ficam restritos ao modo somente leitura.
Vantagens
- Fácil de implantar com dashboards para equipes de fraude e SDKs para desenvolvedores
- Desenvolvido especificamente para agentes de IA. O cside é mais eficaz na detecção de agentes de IA em navegadores hospedados localmente (ex.: Playwright, Selenium)
- Mais eficaz na detecção de agentes que operam a partir de extensões de navegador (Manus AI, Comet)
- Criado para prevenir ataques e fraudes baseados em agentes, e não apenas "bloquear rastreadores"
- Capacidades de governança para melhorar experiências de comércio agêntico
- Visibilidade sobre o tráfego agêntico. Um dashboard com quais agentes estão no seu site, quais ações estão realizando, onde ficam travados e qual risco representam.
Stacks modernas de segurança web precisam de uma ferramenta especializada em detecção de agentes de IA: Bloquear "bots" e rastreadores não é mais suficiente. Agentes de IA exigem classificação comportamental e regras dinâmicas. Ferramentas como o cside AI Agent Detection oferecem às empresas essa visibilidade para que fraudes possam ser bloqueadas sem impactar agentes de consumidores legítimos.
Por Que Você Deve Bloquear (Alguns) Agentes de IA do Seu Site

Nem todos os agentes de IA são prejudiciais. Alguns auxiliam consumidores. Alguns funcionam como ferramentas de pesquisa. Mas muitos agentes são fraudulentos. Um relatório de pesquisa da Ahrefs constatou que 63% dos sites recebem tráfego agêntico. Isso foi no início de 2025. Atualmente, esse percentual provavelmente é ainda maior.
Por que bloquear rastreadores e scrapers:
A discussão em torno do tráfego agêntico atualmente se concentra em rastreadores visíveis do ChatGPT, Gemini ou outras plataformas de LLM que buscam conteúdo para respostas ou para treinar modelos. A motivação para bloquear rastreadores e scrapers é válida, especialmente para empresas com conteúdo exclusivo, como editoras ou serviços de streaming de mídia que enfrentam:
- Scraping de conteúdo premium para pirataria
- Coleta de conteúdo para treinar modelos de LLM sem permissão
Por que agentes de IA fraudulentos:
Rastreadores de plataformas de LLM não são a única ameaça. Na verdade, eles estão no lado "mais seguro" do espectro de automação de bots. A ameaça mais preocupante é como o abuso automatizado por parte de atacantes será amplificado pelos agentes de IA. Os agentes facilitam a evasão de detecção e a imitação do comportamento humano.
Um relatório sobre crimes financeiros do Departamento do Tesouro dos EUA destaca como os agentes de IA reduzem a barreira para técnicas de ataque sofisticadas que antes eram limitadas por recursos, tornando a fraude automatizada acessível a atacantes com baixo nível de habilidade.
Ameaças agênticas para equipes de segurança:
- Tentativas automatizadas de tomada de conta
- Descoberta de vulnerabilidades assistida por IA
- Abuso de fluxos de usuários autenticados
- Manipulação de checkout por scripts
Ameaças agênticas para equipes de fraude:
- Teste de credenciais roubadas em escala
- Abuso de códigos promocionais e cupons
- Automação de fluxos de fraude em devoluções
- Perfis falsos criados com documentos de identidade e fotos gerados por LLMs
Ameaças agênticas para equipes de eCommerce:
- Acúmulo de estoque por compradores automatizados
- Scraping de preços
- Fraude em links de afiliados
Como bloquear agentes de IA no seu site (passo a passo)
Passo 1: Identifique os agentes de IA no seu site (quem são eles)
Com uma ferramenta de detecção:
- Para obter um dashboard imediato de agentes de IA fraudulentos e tráfego de rastreadores, você pode usar o cside Agent Detection.
- Se o seu site está conectado ao Cloudflare, você pode verificar o dashboard de Bot Analytics para um detalhamento do tráfego de rastreadores de IA.
- Para visibilidade específica de SEO sobre o tráfego de rastreadores de IA, você pode usar o analisador de logs do Screaming Frog. Essa ferramenta analisa seus logs brutos do servidor e gera um relatório de tráfego visual.
Por conta própria:
Se um rastreador de IA se identifica publicamente, ele exibirá sinais identificáveis na camada de requisição. Verifique as strings de user-agent presentes nas requisições HTTP. Para acessar essa informação, você precisará ir aos logs do seu servidor e procurar campos que se correlacionem com identidades de agentes de IA:
- GPTBot
- ChatGPT-User
- ClaudeBot
Passo 2: Entenda quais ações os agentes de IA realizam no seu site (o que estão fazendo)
Com uma ferramenta de detecção especializada: Plataformas de governança de agentes de IA como o cside AI Agent Detection ou o HUMAN Agentic Trust monitoram a execução do navegador, fluxos de navegação e padrões comportamentais. Isso muda a análise de "isso é um bot?" para "o que esse bot está tentando realizar?". Uma camada de detecção moderna vai identificar:
- Se um agente está acionando fluxos de login ou checkout
- Tentativas repetidas contra endpoints sensíveis
- Envios automatizados de formulários
Por conta própria: Descobrir manualmente o que os agentes de IA estão fazendo requer análise de logs do servidor, temporização de requisições e padrões de execução JavaScript.
Passo 3: Entenda a intenção por trás dos agentes de IA (eles representam um risco)
Entender a intenção de um agente de IA exige distinguir entre automação útil e automação prejudicial. As ferramentas tradicionais de detecção de bots não foram criadas para lidar com agentes que imitam o comportamento humano e rodam dentro do ambiente de navegador autêntico de um usuário.
Com uma Ferramenta de Detecção Especializada: Soluções como o cside AI Agent Detection ou a plataforma Agent Trust da DataDome foram criadas para a internet agêntica. Elas ajudam a distinguir entre agentes de IA do consumidor que auxiliam em pesquisas e compras versus agentes de IA fraudulentos que abusam de códigos promocionais, raspam informações ou criam perfis falsos.
Em vez de tomar decisões binárias sobre identidade, essas plataformas usam regras avançadas de pontuação de risco criadas por engenheiros de segurança. Elas analisam sinais como:
- Requisições excessivas ou anormais
- Uso de VPNs ou proxies
- Ambientes de execução de navegador suspeitos
- Fingerprinting para detectar reutilização de dispositivos em fluxos de risco (como resgate de códigos promocionais)
- Interações e análise comportamental
Passo 4: Governe os agentes de IA com base no comportamento (bloquear, confiar ou orientar)
Depois de entender o que os agentes de IA estão fazendo no seu site, você pode decidir como permitir que eles interajam com ele. A reação imediata é bloquear tudo, exceto rastreadores que ajudam com SEO ou busca de IA. Essa abordagem é boa para segurança, mas exclui agentes de IA legítimos que podem estar pesquisando produtos, comprando ingressos, preenchendo formulários ou enviando consultas.
É por isso que a detecção tradicional de bots fica aquém na era agêntica. Ela oferece lógica básica de permitir/negar. A era agêntica exige mais nuance. "Bots" agênticos serão criados por consumidores diariamente, onipresentes na navegação pela internet. Uma estratégia madura de governança agêntica determina "o que essa sessão agêntica deve ter permissão de fazer"?
Por exemplo:
- Agentes de pesquisa podem precisar apenas de acesso somente leitura ao seu site
- Agentes baseados em tarefas podem ter permissão para enviar formulários ou solicitar informações
- Esses mesmos agentes baseados em tarefas podem ter suas permissões de ação revogadas em páginas sensíveis, como portais de gerenciamento de perfil
Plataformas como o cside AI Agent Detection suportam esse tipo de governança baseada em comportamento. Os dashboards facilitam para as equipes de fraude obterem dados para interromper o abuso de agentes de IA precocemente. Os desenvolvedores recebem um SDK e bibliotecas para personalizar a experiência para agentes baseados em navegador, viabilizando ainda mais o comércio agêntico.
Por que o robots.txt não é suficiente para bloquear agentes de IA
O robots.txt é uma diretiva voluntária, não um controle de segurança. Ele solicita que rastreadores especificados não acessem seu site, mas não os impede tecnicamente de fazê-lo. O robots.txt pode ser um mecanismo útil para bloquear os principais rastreadores (Meta, ChatGPT, GoogleBot) que prometem respeitar essa diretiva, mas não faz muito para impedir fraudes de agentes de IA.
Assistentes de IA e rastreadores de busca nem sempre cumprem o robots.txt

Um relatório de pesquisa acadêmica de 2025 da Universidade Duke mostra que apenas ~60% dos assistentes de IA e rastreadores de busca de IA vão verificar ou cumprir as solicitações de 'disallow' no robots.txt. Essa média provavelmente é puxada para cima pelos bots do ChatGPT e do GoogleBot, que respeitam a diretiva em mais de 99% das vezes.
Alguns bots populares, como o Perplexity, respeitam a diretiva 'disallow' apenas ~20% das vezes.
Agentes de IA que usam Navegadores Headless (como agentes personalizados criados por consumidores) respeitam o robots.txt menos de todos, cumprindo as diretivas 'disallow' em apenas ~10% das vezes.
Falsificação de user-agent para contornar o robots.txt
O robots.txt é baseado em "strings de user-agent" autodeclaradas. É como ser perguntado qual é o seu nome. Você pode declarar qualquer nome que quiser. Se você está tentando entrar em um evento e sabe que o nome "Brad Pitt" está na lista, pode dizer que esse é o seu nome. No mundo real, você pode ser solicitado a apresentar alguma prova. Em contraste, o robots.txt não tem como confirmar se as identidades são realmente válidas.
Portanto, agentes fraudulentos podem se declarar como "Claudebot" ou "GPTBot". Se essas identidades são permitidas no seu site, o robots.txt vai deixá-las passar sem problemas.
A detecção tradicional de bots (como o Cloudflare) não detecta agentes de IA
Os sistemas tradicionais de detecção de bots foram projetados para uma era em que a automação rodava em servidores de nuvem ou redes de proxy óbvias. Esses sistemas dependem fortemente de sinais da camada de rede e bancos de dados de reputação, com visibilidade limitada sobre a execução de JavaScript e as interações com o site.
A ascensão da automação baseada em navegador hospedada localmente
Uma classe crescente de automação agora roda dentro de ambientes de navegador reais:
- Agentes de consumidores que rodam em extensões de navegador como Manus ou a extensão de navegador do Claude
- Automações criadas por desenvolvedores que usam ferramentas de navegador headless como Playwright ou Selenium, rodando em máquinas ou até dispositivos móveis
- Atores fraudulentos usando ferramentas de navegador headless de código aberto para realizar ataques
Essa categoria de agentes surgiu em parte para facilitar que consumidores e desenvolvedores legítimos criem bots de IA que interagem com a web. Ela também surgiu como um esforço intencional para evitar a detecção por ferramentas legadas de governança de bots.
Esses agentes baseados em navegador headless não se identificam claramente. Na verdade, eles intencionalmente tentam parecer um usuário humano real — o que torna a detecção de fraudes mais difícil (e contamina as análises no processo).
Detectar agentes baseados em navegador headless requer uma ferramenta especializada em detecção de agentes de IA que analise sinais comportamentais e contexto profundo do navegador.
Como o cside ajuda empresas a bloquear atacantes agênticos

O cside é uma plataforma de segurança web especializada em monitorar sinais da camada do navegador para reduzir fraudes em empresas. O cside AI Agent Detection ajuda você a identificar, classificar e governar o tráfego agêntico no seu site.
- Obtenha um dashboard com quais agentes estão acessando seu site e o que estão fazendo
- Pontuações de risco automáticas a partir de sinais comportamentais para detectar agentes de IA maliciosos (incluindo os baseados em navegador e hospedados localmente) que escapam das defesas tradicionais contra bots
- Forneça aos seus desenvolvedores ferramentas para colocar guardrails no que os agentes podem fazer
- Previna fraudes de agentes de IA como abuso de códigos promocionais, pirataria de conteúdo, testes de cartão de crédito, descoberta de vulnerabilidades e scraping avançado.
Você pode começar a visualizar o tráfego agêntico no seu site com uma conta gratuita.









