Skip to main content
Blog
Blog Attacks

Como Bloquear o PerplexityBot no Seu Site

O PerplexityBot rastreia o seu conteúdo para resultados de pesquisa por IA. Saiba como bloqueá-lo, porque enfrentou críticas sobre direitos de autor e como o Perplexity Shopper difere.

Jun 25, 2026 7 min read
Como Bloquear o PerplexityBot no Seu Site

O PerplexityBot é o rastreador web declarado que alimenta o motor de pesquisa por IA da Perplexity. Quando um utilizador consulta o Perplexity, os resultados de pesquisa baseiam-se no conteúdo que o PerplexityBot indexou. Em 2024, vários editores relataram que a Perplexity estava a reproduzir conteúdo protegido por direitos de autor dos seus sites nos resultados de pesquisa apesar dos bloqueios no robots.txt, tornando o PerplexityBot um dos rastreadores de IA mais controversos de bloquear.

Este guia aborda especificamente o PerplexityBot. Se está a tentar controlar o shopping agent da Perplexity, consulte o nosso artigo complementar sobre como bloquear o Perplexity Shopper, porque requer uma abordagem completamente diferente. Para o padrão mais amplo entre rastreadores declarados, consulte o nosso guia para bloquear scrapers de conteúdo de IA.


O que É o PerplexityBot?

Resposta rápida: O PerplexityBot é o rastreador de pesquisa por IA da Perplexity. Ele indexa conteúdo web para alimentar os resultados de pesquisa gerados por IA da Perplexity. Identifica-se com uma string de user-agent declarada e está documentado em docs.perplexity.ai. Em 2024, enfrentou críticas significativas por parte dos editores por aparente incumprimento do robots.txt e reprodução de conteúdo sem atribuição suficiente.

O user-agent do PerplexityBot: PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)

A controvérsia de 2024 é contexto relevante para a sua decisão de bloqueio. Vários grandes editores, incluindo meios de comunicação e organizações noticiosas, relataram que a Perplexity estava a apresentar reproduções detalhadas do seu conteúdo pago ou restringido por robots.txt nas respostas de pesquisa por IA. A Perplexity contestou algumas destas caracterizações, mas o episódio estabeleceu que a conformidade do PerplexityBot é mais ativamente contestada do que a do GPTBot ou do ClaudeBot.


A Controvérsia de Conformidade de 2024

Resposta rápida: Em 2024, a Wired, a The Atlantic e outros editores relataram que a Perplexity estava a reproduzir conteúdo dos seus sites nos resultados de pesquisa por IA apesar de terem Disallow: PerplexityBot no seu robots.txt. As explicações da Perplexity na altura foram inconsistentes, levando vários editores a tomar medidas técnicas e legais adicionais.

A preocupação específica não era apenas o rastreio, era a sumarização e a reprodução. Mesmo que o PerplexityBot respeitasse o robots.txt no seu rastreio direto, a Perplexity podia aceder e resumir o mesmo conteúdo por outros meios: cópias em cache, fontes de dados de terceiros ou infraestrutura de navegação em tempo real. O resultado líquido, na perspetiva dos editores, era que o seu conteúdo aparecia nas respostas do Perplexity independentemente das definições do seu robots.txt.

Isto não significa que o bloqueio com robots.txt seja inútil para o PerplexityBot. Significa que o alcance do que o robots.txt pode conseguir contra um produto de pesquisa com múltiplos canais de aquisição de conteúdo é limitado. O bloqueio ao nível de IP e a monitorização ativa proporcionam uma aplicação mais fiável.


Como Bloquear o PerplexityBot com o robots.txt

Resposta rápida: Adicione PerplexityBot ao seu robots.txt. Dada a controvérsia de conformidade de 2024, implemente também bloqueio ao nível de IP e pondere adicionar linguagem legal aos seus termos de serviço que restrinja explicitamente a recolha de dados de treino de IA e a sumarização por pesquisa de IA.

Para bloquear o PerplexityBot em todo o seu site:

User-agent: PerplexityBot
Disallow: /

Para controlo ao nível dos caminhos:

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/

Dada a controvérsia de 2024, trate o robots.txt como um sinal de intenção, e não como um controlo técnico rígido para o PerplexityBot. A mesma abordagem de rastreador declarado é mais fiável para rastreadores com históricos de conformidade mais limpos, como o CCBot.


Bloqueio ao Nível de IP

Resposta rápida: A Perplexity publica os intervalos de IP do PerplexityBot na sua documentação. Negar estes intervalos ao nível da firewall ou da CDN proporciona uma aplicação independente de o rastreador ler ou não o robots.txt. Para editores ou sites com muito conteúdo, o bloqueio de IP é a abordagem mais fiável dado o histórico de conformidade.

Localize os intervalos de IP atuais da Perplexity na sua documentação oficial em docs.perplexity.ai. Adicione-os às regras de negação da sua firewall, da configuração de borda da CDN ou do reverse proxy. Reveja esta lista trimestralmente, pois os intervalos de IP da infraestrutura de rastreio expandem-se à medida que o volume de rastreio cresce.


PerplexityBot vs. Perplexity Shopper: Uma Distinção Crítica

Resposta rápida: O PerplexityBot (o rastreador de indexação) e o Perplexity Shopper (o agente transacional) são sistemas separados. Bloquear o PerplexityBot não afeta o Perplexity Shopper. O Shopper usa uma sessão de navegador real com um user-agent padrão do Chrome. Requer deteção na camada do navegador, e não bloqueio com robots.txt.

SistemaPropósitoUser-agentAbordagem de deteção
PerplexityBotRastreia e indexa conteúdoPerplexityBot/1.0 (declarado)robots.txt + bloqueio de IP
Perplexity ShopperConclui compras para os utilizadoresChrome padrão (não declarado)Sinais comportamentais na camada do navegador

Os engenheiros que adicionam PerplexityBot ao robots.txt e consideram o problema da Perplexity resolvido abordaram apenas um dos dois sistemas. O Perplexity Shopper é invisível para tudo o que se baseia na abordagem de listas de bloqueio. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, e o Shopper é exatamente o tipo de sessão que essas ferramentas não detetam.

Painel de deteção de agentes de IA da cside

Como isto se traduz na prática: uma sessão do Perplexity Shopper encarregada de comprar um produto específico abre uma sessão Chrome real, navega até à página de categoria de um retalhista, filtra pela especificação pedida, seleciona um produto e avança para o checkout. Todos os sinais ao nível de rede estão limpos: um IP residencial, um handshake TLS padrão e uma string de user-agent do Chrome indistinguível de um comprador humano. O indício comportamental está na camada do navegador. O agente percorre a filtragem de produtos em 3,2 segundos sem qualquer variância do cursor, seleciona o primeiro resultado qualificado sem fazer pausa para comparar alternativas e introduz os dados de morada a um intervalo de digitação uniforme de 80 ms sem eventos de correção. A instrumentação da cside captura essas anomalias na camada de interação antes que qualquer evento de checkout seja despoletado, dando aos operadores uma visibilidade que a camada de rede nunca proporciona.


O que o Bloqueio do PerplexityBot Realmente Consegue

Resposta rápida: Um bloqueio do PerplexityBot impede que o rastreador declarado indexe diretamente o seu conteúdo em futuras execuções de rastreio. Não impede que a Perplexity faça referência a conteúdo previamente indexado, aceda ao seu conteúdo através de fontes de terceiros ou apresente sumarizações nos resultados de pesquisa por IA através de canais que não o rastreio direto.

Esta é a limitação que a controvérsia de 2024 expôs. O robots.txt bloqueia um rastreador específico de fazer novas requisições. Não elimina o conteúdo já indexado da base de conhecimento de um produto de pesquisa e não impede a aquisição de conteúdo através de canais alternativos que o próprio rastreador não usa diretamente.

Para organizações com requisitos rigorosos (conteúdo pago, investigação proprietária, material licenciado), a combinação de robots.txt, bloqueio de IP, linguagem legal nos termos de serviço e proteção técnica de conteúdo, como muros de autenticação e renderização dinâmica, proporciona uma postura de proteção mais completa do que qualquer abordagem isolada.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

O PerplexityBot é o rastreador web da Perplexity, que indexa conteúdo para o seu motor de pesquisa por IA. Quando os utilizadores consultam o Perplexity, as respostas geradas por IA baseiam-se no conteúdo que o PerplexityBot recolheu. Em 2024, vários editores relataram problemas de conformidade em que o seu conteúdo restringido por robots.txt aparecia nas respostas do Perplexity apesar do bloqueio explícito do bot.

Adicione `User-agent: PerplexityBot` seguido de `Disallow: /` ao seu ficheiro `robots.txt`. Dada a controvérsia de conformidade de 2024, complemente isto com bloqueio ao nível de IP usando os intervalos de IP publicados pela Perplexity na documentação do seu rastreador. Trate o `robots.txt` como um sinal de intenção, e não como um controlo técnico rígido para este rastreador específico.

Vários editores relataram em 2024 que a Perplexity estava a apresentar resumos detalhados do seu conteúdo nos resultados de pesquisa por IA apesar dos bloqueios ao PerplexityBot no robots.txt. A Perplexity contestou alguns aspetos destes relatos. O episódio foi documentado em reportagens da Wired, da The Atlantic e de outros meios, e estabeleceu que a conformidade do PerplexityBot é mais ativamente contestada do que a da maioria dos outros grandes rastreadores de IA.

O PerplexityBot é um rastreador de indexação com um user-agent declarado. O Perplexity Shopper é um agente transacional que usa uma sessão de navegador real e apresenta um user-agent padrão do Chrome. Bloquear o PerplexityBot não tem qualquer efeito sobre o Perplexity Shopper. As sessões do Shopper requerem deteção comportamental na camada do navegador para serem identificadas e controladas.

As estratégias legais variam consoante a jurisdição e o tipo de conteúdo envolvido. Adicionar termos de serviço explícitos que proíbam a recolha de dados de treino de IA e a sumarização por pesquisa de IA cria uma base legal de aplicação que complementa o bloqueio técnico. Os editores recorreram a argumentos legais baseados nos termos de serviço e em direitos de autor no período de 2024-2025. Esta é uma área legal ativa e a orientação específica depende da jurisdição e do tipo de conteúdo.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança
Related Articles
Agende uma demonstração