Skip to main content
Blog
Blog Attacks

Como Detetar e Bloquear Agentes de IA Desconhecidos no Seu Site

Os agentes de IA desconhecidos não têm user-agent e ignoram o robots.txt. Conheça os sinais na camada do navegador que revelam agentes não declarados e como agir sobre eles.

Jun 27, 2026 9 min read
Como Detetar e Bloquear Agentes de IA Desconhecidos no Seu Site

Os rastreadores de IA declarados (GPTBot, ClaudeBot, PerplexityBot) são os fáceis. Identificam-se. Pode bloqueá-los com duas linhas de robots.txt, se assim o entender. São a parte do problema dos agentes de IA que já está resolvida.

O problema mais difícil são os agentes desconhecidos: sistemas de IA que visitam o seu site sem declarar a sua identidade, a correr dentro de navegadores reais, com user-agents padrão, e a comportar-se de formas que parecem tráfego humano até examinar cuidadosamente os sinais ao nível da sessão. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, o que mostra a dimensão da lacuna de visibilidade para os agentes não declarados. Para o manual mais abrangente, consulte o nosso guia para detetar tráfego de agentes de IA no seu site.


O que Torna um Agente de IA "Desconhecido"

Resposta rápida: Os agentes de IA desconhecidos são sistemas automatizados que não declaram a sua identidade através de strings de user-agent nem de outros sinais convencionais. Operam através de sessões de navegador reais, usam user-agents padrão do Chrome ou Firefox e são funcionalmente invisíveis para as ferramentas de deteção na camada de rede que dependem da inspeção de cabeçalhos e da correspondência de IP.

A categoria inclui:

  • Agentes empresariais personalizados: empresas que constroem ferramentas de IA internas que navegam em sites de concorrentes, verificam preços ou monitorizam inventário, muitas vezes construídas sobre frameworks como o LangChain, o AutoGPT ou o Playwright sem qualquer autoidentificação
  • Agentes de investigação e análise: sistemas de IA que executam tarefas de inteligência competitiva ou recolha de dados e que evitam deliberadamente a identificação para não serem bloqueados
  • Agentes maliciosos: ferramentas de fraude, sistemas de scraping e infraestrutura de ataque automatizada que usam automação de navegador alimentada por IA para escapar à deteção
  • Produtos de IA de terceiros: ferramentas de IA para consumidores e empresas que usam automação de navegador real sem publicar documentação do rastreador nem intervalos de IP

O fio condutor é a ausência de autodeclaração. Não existe nenhuma regra de robots.txt que pare um sistema que não se identifica.


Porque é que o robots.txt e o Bloqueio de IP Não Ajudam

Resposta rápida: O robots.txt apenas controla user-agents declarados. Um agente que apresenta um user-agent padrão do Chrome não tem qualquer regra de robots.txt aplicável. O bloqueio de IP baseado em intervalos publicados apanha os rastreadores que se autoidentificam; é inútil para agentes que usam residential proxies, IPs rotativos ou infraestrutura na cloud partilhada com utilizadores legítimos.

O problema estrutural da deteção baseada em cabeçalhos é que foi concebida para um mundo onde os sistemas automatizados se autoidentificavam. Os rastreadores dos motores de busca seguiam a convenção porque era mutuamente benéfico. Os agentes de IA que operam para inteligência competitiva, fraude ou recolha de dados não têm qualquer incentivo para se autoidentificarem, e muitos têm fortes razões para não o fazer.

As ferramentas da camada de rede veem a mesma coisa para um agente de IA desconhecido e para um visitante humano: uma requisição de um navegador Chrome a partir de um endereço IP plausível com cabeçalhos HTTP padrão. A diferença entre os dois é comportamental, e o comportamento só é visível dentro da sessão. A mesma lacuna aplica-se mesmo aos produtos declarados quando se tornam agênticos, como abordamos no nosso guia para bloquear agentes de IA no seu site.


A Pilha de Sinais na Camada do Navegador

Resposta rápida: Os agentes de IA desconhecidos revelam-se através de sinais comportamentais dentro da sessão do navegador: tempo de interação, padrões de navegação, características da impressão digital, anomalias na execução de JavaScript e sequenciamento de requisições de rede. Estes sinais são consistentes entre os tipos de agentes porque as sessões de navegador executadas por máquinas produzem padrões sistematicamente diferentes das executadas por humanos.

Sinais principais que revelam agentes desconhecidos:

Padrões de tempo Os utilizadores humanos têm um tempo de interação variável e impreciso. Fazem pausas entre ações, demoram tempos irregulares a ler o conteúdo e movem o cursor por trajetos não lineares. As sessões de agentes executam com precisão de máquina ou quase: intervalos consistentes entre ações, respostas imediatas a eventos de carregamento de página, sem pausas para leitura.

Características da impressão digital Uma sessão Chrome genuinamente humana acumula um estado de impressão digital complexo: cookies de sessões anteriores, vestígios de extensões, recursos em cache, variações na renderização de tipos de letra resultantes da configuração do SO do utilizador. As sessões de agentes apresentam normalmente impressões digitais limpas, em estado predefinido e sem este contexto acumulado. Uma elevada limpeza da impressão digital numa nova sessão é, por si só, um sinal.

Lógica de navegação A navegação humana é não linear. Os utilizadores percorrem categorias, recuam, comparam produtos, revisitam páginas. A navegação dos agentes segue a lógica da tarefa: trajetos diretos do ponto de entrada até à página-alvo, sem exploração nem recuo a menos que a tarefa o exija, interação apenas com os elementos necessários para concluir a tarefa.

Contexto de execução de JavaScript As sessões de navegador reais executam JavaScript num ambiente moldado pelo hardware do utilizador, pelos tipos de letra instalados, pela resolução do ecrã e pela configuração do navegador. As frameworks de automação produzem desvios mensuráveis face à execução de JavaScript de um navegador real: inconsistências subtis no tempo, na renderização de canvas, no comportamento do WebGL e nos resultados do audio context que as técnicas de fingerprinting conseguem identificar.

Padrões de requisições de rede A navegação humana gera requisições de rede moldadas pelo histórico de navegação, pelos recursos em cache e pela navegação não linear. As sessões de agentes geram padrões de requisições moldados pela lógica da tarefa, que são estruturalmente diferentes mesmo quando as requisições individuais parecem normais.


O que a cside Apanha e as Ferramentas de Rede Não Veem: Um Cenário Concreto

Resposta rápida: O agente de inteligência de preços de um concorrente visita a página de catálogo de um retalhista a cada quatro horas. Apresenta um user-agent padrão do Chrome, tem origem num IP residencial e passa todas as verificações de cabeçalhos. As ferramentas de rede não veem nada de anormal. Eis o que acontece dentro da sessão do navegador, e o que a cside observa.

O agente carrega a página de categoria e faz uma pausa de 1,2 segundos, um atraso deliberado para imitar o tempo de leitura. Depois desloca-se até ao fundo num único movimento linear a velocidade constante, sem aceleração nem desaceleração. A posição do cursor não se move entre eventos de scroll. O agente clica em 47 páginas de produto em 8 minutos, seguindo cada visita o mesmo padrão: carregar, fazer uma pausa de 0,8 segundos, recolher os valores dos campos de preço e de stock, navegar para o URL seguinte na sequência. Sem lógica de comparação, sem interação com filtros, sem recuo.

A cside observa três sinais convergentes: a regularidade dos eventos de scroll fora da variância humana, uma impressão digital limpa em estado predefinido sem cookies de sessões anteriores, e um grafo de navegação que mostra uma travessia puramente sequencial sem qualquer ramificação exploratória. Estes sinais são invisíveis na camada de rede. Só são visíveis dentro da sessão de navegador em execução, que é onde a cside opera. A sessão é classificada como um agente de inteligência de preços e sujeita a rate limiting dentro do mesmo ciclo de requisições.

Painel de deteção de agentes de IA da cside

A cside expõe agentes nomeados e não nomeados num painel em tempo real com detalhe ao nível da sessão, incluindo o perfil de sinais comportamentais que despoletou cada classificação.


Resposta Gradual: O que Fazer Quando Deteta Um

Resposta rápida: A deteção de um agente desconhecido dá-lhe uma classificação, não automaticamente uma decisão. A resposta adequada depende do que o agente aparenta estar a fazer. Uma sessão com sinais de baixo risco pode ser monitorizada. Uma com sinais de fraude justifica bloqueio. O scraping automatizado de conteúdo justifica rate limiting. O objetivo é uma resposta proporcional, não um simples bloquear-ou-permitir.

Um modelo de resposta prático:

Conjunto de sinaisTipo de agente provávelResposta recomendada
Impressão digital limpa, navegação linear, sem interação com formuláriosAgente de indexação/investigaçãoMonitorizar, aplicar rate limiting ao acesso ao catálogo
Impressão digital limpa, travessia do percurso de checkout, tempo de máquinaCompras/comércio agênticoAplicar desafio no checkout, sinalizar para revisão
Preenchimento rápido de formulários, múltiplas contas, padrões de teste de pagamentoAutomação de fraudeBloquear, registar para investigação
Descarregamento em massa de conteúdo, sem interação com elementos da interfaceScraper de conteúdoAplicar rate limiting, adicionar barreiras de autenticação ao conteúdo valioso
Padrões de criação de contas, registo rápidoCriação de contas falsasAplicar desafio, exigir verificação por telefone

A ferramenta certa para implementar estas respostas exige visibilidade ao nível da sessão. A mesma lógica alimenta manuais mais específicos, como o nosso guia para bloquear o OpenAI Operator, onde um produto declarado continua a navegar através de uma sessão real e não declarada.


Construir uma Linha de Base

Resposta rápida: Não consegue identificar comportamentos anómalos de agentes sem uma linha de base do que é o tráfego normal. Comece com monitorização e classificação antes de adicionar regras de bloqueio. Uma semana de dados de sessão revela o volume, os padrões e a origem do tráfego de agentes que nunca veria apenas a partir dos registos do servidor.

A maioria das organizações que implementam pela primeira vez a monitorização na camada do navegador fica surpreendida com a quantidade de tráfego de agentes já presente nos seus sites. A Ahrefs concluiu que 63% dos sites já registavam tráfego através de interfaces de chatbots de IA no início de 2025. Uma fração significativa desse tráfego envolve sistemas automatizados que não se autodeclaram.

Bloquear sem uma linha de base arrisca cancelar sessões legítimas. Compreender o seu tráfego de agentes antes de agir sobre ele leva a melhores decisões de política, e apanha padrões que sugerem atividade coordenada ou em escalada antes de causarem danos. Se está a avaliar onde esta capacidade deve residir, a nossa análise das melhores plataformas de gestão de confiança de bots e agentes comparadas cobre a categoria que a Forrester renomeou para Bot and Agent Trust Management Software no quarto trimestre de 2025.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

Os agentes de IA desconhecidos são sistemas automatizados que não declaram a sua identidade através de strings de user-agent nem de outros sinais convencionais. Operam através de sessões de navegador reais com user-agents padrão, o que os torna invisíveis para as ferramentas de deteção na camada de rede. São detetáveis através de sinais comportamentais dentro da sessão do navegador: padrões de tempo, características da impressão digital, lógica de navegação e anomalias na execução de JavaScript.

Não. O robots.txt apenas controla agentes que declaram a sua identidade através de strings de user-agent. Um agente desconhecido que apresenta um user-agent padrão do Chrome não tem qualquer regra de robots.txt aplicável. Os agentes desconhecidos são concebidos para operar sem autodeclaração, o que torna o robots.txt irrelevante para os controlar.

Os sinais principais incluem a precisão do tempo de interação, a limpeza da impressão digital em novas sessões, a navegação linear em direção ao conteúdo-alvo, anomalias na execução de JavaScript e o sequenciamento de requisições de rede moldado pela lógica da tarefa em vez do comportamento humano. Estes sinais são consistentemente diferentes dos padrões das sessões humanas e só são observáveis dentro da sessão do navegador.

Um modelo de resposta gradual baseado na confiança do sinal reduz os falsos positivos. Os sinais de baixa confiança justificam monitorização. Os sinais de confiança média justificam desafios como CAPTCHA ou verificação de conta. Apenas os sinais de alta confiança com indicadores de fraude justificam bloqueios definitivos. É essencial começar com monitorização e classificação antes de adicionar regras de bloqueio.

A Ahrefs concluiu que 63% dos sites já registavam tráfego através de interfaces de chatbots de IA no início de 2025. Uma fração significativa desse tráfego vem de sessões automatizadas que não se autoidentificam. A única forma de conhecer a exposição específica do seu site é a monitorização na camada do navegador que classifica as sessões por sinais comportamentais em vez de depender da autodeclaração.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança
Related Articles
Agende uma demonstração