Blog Attacks

Como Bloquear o PerplexityBot no Seu Site

O PerplexityBot rastreia o seu conteúdo para resultados de pesquisa por IA. Saiba como bloqueá-lo, porque enfrentou críticas sobre direitos de autor e como o Perplexity Shopper difere.

Jun 25, 2026 • 7 min read

Mike Kutlu Client-Side Security Consultant

Como Bloquear o PerplexityBot no Seu Site

O PerplexityBot é o rastreador web declarado que alimenta o motor de pesquisa por IA da Perplexity. Quando um utilizador consulta o Perplexity, os resultados de pesquisa baseiam-se no conteúdo que o PerplexityBot indexou. Em 2024, vários editores relataram que a Perplexity estava a reproduzir conteúdo protegido por direitos de autor dos seus sites nos resultados de pesquisa apesar dos bloqueios no robots.txt, tornando o PerplexityBot um dos rastreadores de IA mais controversos de bloquear.

Este guia aborda especificamente o PerplexityBot. Se está a tentar controlar o shopping agent da Perplexity, consulte o nosso artigo complementar sobre como bloquear o Perplexity Shopper, porque requer uma abordagem completamente diferente. Para o padrão mais amplo entre rastreadores declarados, consulte o nosso guia para bloquear scrapers de conteúdo de IA.

O que É o PerplexityBot?

Resposta rápida: O PerplexityBot é o rastreador de pesquisa por IA da Perplexity. Ele indexa conteúdo web para alimentar os resultados de pesquisa gerados por IA da Perplexity. Identifica-se com uma string de user-agent declarada e está documentado em docs.perplexity.ai. Em 2024, enfrentou críticas significativas por parte dos editores por aparente incumprimento do robots.txt e reprodução de conteúdo sem atribuição suficiente.

O user-agent do PerplexityBot: PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)

A controvérsia de 2024 é contexto relevante para a sua decisão de bloqueio. Vários grandes editores, incluindo meios de comunicação e organizações noticiosas, relataram que a Perplexity estava a apresentar reproduções detalhadas do seu conteúdo pago ou restringido por robots.txt nas respostas de pesquisa por IA. A Perplexity contestou algumas destas caracterizações, mas o episódio estabeleceu que a conformidade do PerplexityBot é mais ativamente contestada do que a do GPTBot ou do ClaudeBot.

A Controvérsia de Conformidade de 2024

Resposta rápida: Em 2024, a Wired, a The Atlantic e outros editores relataram que a Perplexity estava a reproduzir conteúdo dos seus sites nos resultados de pesquisa por IA apesar de terem Disallow: PerplexityBot no seu robots.txt. As explicações da Perplexity na altura foram inconsistentes, levando vários editores a tomar medidas técnicas e legais adicionais.

A preocupação específica não era apenas o rastreio, era a sumarização e a reprodução. Mesmo que o PerplexityBot respeitasse o robots.txt no seu rastreio direto, a Perplexity podia aceder e resumir o mesmo conteúdo por outros meios: cópias em cache, fontes de dados de terceiros ou infraestrutura de navegação em tempo real. O resultado líquido, na perspetiva dos editores, era que o seu conteúdo aparecia nas respostas do Perplexity independentemente das definições do seu robots.txt.

Isto não significa que o bloqueio com robots.txt seja inútil para o PerplexityBot. Significa que o alcance do que o robots.txt pode conseguir contra um produto de pesquisa com múltiplos canais de aquisição de conteúdo é limitado. O bloqueio ao nível de IP e a monitorização ativa proporcionam uma aplicação mais fiável.

Como Bloquear o PerplexityBot com o robots.txt

Resposta rápida: Adicione PerplexityBot ao seu robots.txt. Dada a controvérsia de conformidade de 2024, implemente também bloqueio ao nível de IP e pondere adicionar linguagem legal aos seus termos de serviço que restrinja explicitamente a recolha de dados de treino de IA e a sumarização por pesquisa de IA.

Para bloquear o PerplexityBot em todo o seu site:

User-agent: PerplexityBot
Disallow: /

Para controlo ao nível dos caminhos:

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/

Dada a controvérsia de 2024, trate o robots.txt como um sinal de intenção, e não como um controlo técnico rígido para o PerplexityBot. A mesma abordagem de rastreador declarado é mais fiável para rastreadores com históricos de conformidade mais limpos, como o CCBot.

Bloqueio ao Nível de IP

Resposta rápida: A Perplexity publica os intervalos de IP do PerplexityBot na sua documentação. Negar estes intervalos ao nível da firewall ou da CDN proporciona uma aplicação independente de o rastreador ler ou não o robots.txt. Para editores ou sites com muito conteúdo, o bloqueio de IP é a abordagem mais fiável dado o histórico de conformidade.

Localize os intervalos de IP atuais da Perplexity na sua documentação oficial em docs.perplexity.ai. Adicione-os às regras de negação da sua firewall, da configuração de borda da CDN ou do reverse proxy. Reveja esta lista trimestralmente, pois os intervalos de IP da infraestrutura de rastreio expandem-se à medida que o volume de rastreio cresce.

PerplexityBot vs. Perplexity Shopper: Uma Distinção Crítica

Resposta rápida: O PerplexityBot (o rastreador de indexação) e o Perplexity Shopper (o agente transacional) são sistemas separados. Bloquear o PerplexityBot não afeta o Perplexity Shopper. O Shopper usa uma sessão de navegador real com um user-agent padrão do Chrome. Requer deteção na camada do navegador, e não bloqueio com robots.txt.

Sistema	Propósito	User-agent	Abordagem de deteção
PerplexityBot	Rastreia e indexa conteúdo	`PerplexityBot/1.0` (declarado)	robots.txt + bloqueio de IP
Perplexity Shopper	Conclui compras para os utilizadores	Chrome padrão (não declarado)	Sinais comportamentais na camada do navegador

Os engenheiros que adicionam PerplexityBot ao robots.txt e consideram o problema da Perplexity resolvido abordaram apenas um dos dois sistemas. O Perplexity Shopper é invisível para tudo o que se baseia na abordagem de listas de bloqueio. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, e o Shopper é exatamente o tipo de sessão que essas ferramentas não detetam.

Painel de deteção de agentes de IA da cside

Como isto se traduz na prática: uma sessão do Perplexity Shopper encarregada de comprar um produto específico abre uma sessão Chrome real, navega até à página de categoria de um retalhista, filtra pela especificação pedida, seleciona um produto e avança para o checkout. Todos os sinais ao nível de rede estão limpos: um IP residencial, um handshake TLS padrão e uma string de user-agent do Chrome indistinguível de um comprador humano. O indício comportamental está na camada do navegador. O agente percorre a filtragem de produtos em 3,2 segundos sem qualquer variância do cursor, seleciona o primeiro resultado qualificado sem fazer pausa para comparar alternativas e introduz os dados de morada a um intervalo de digitação uniforme de 80 ms sem eventos de correção. A instrumentação da cside captura essas anomalias na camada de interação antes que qualquer evento de checkout seja despoletado, dando aos operadores uma visibilidade que a camada de rede nunca proporciona.

O que o Bloqueio do PerplexityBot Realmente Consegue

Resposta rápida: Um bloqueio do PerplexityBot impede que o rastreador declarado indexe diretamente o seu conteúdo em futuras execuções de rastreio. Não impede que a Perplexity faça referência a conteúdo previamente indexado, aceda ao seu conteúdo através de fontes de terceiros ou apresente sumarizações nos resultados de pesquisa por IA através de canais que não o rastreio direto.

Esta é a limitação que a controvérsia de 2024 expôs. O robots.txt bloqueia um rastreador específico de fazer novas requisições. Não elimina o conteúdo já indexado da base de conhecimento de um produto de pesquisa e não impede a aquisição de conteúdo através de canais alternativos que o próprio rastreador não usa diretamente.

Para organizações com requisitos rigorosos (conteúdo pago, investigação proprietária, material licenciado), a combinação de robots.txt, bloqueio de IP, linguagem legal nos termos de serviço e proteção técnica de conteúdo, como muros de autenticação e renderização dinâmica, proporciona uma postura de proteção mais completa do que qualquer abordagem isolada.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Back to top

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

O PerplexityBot é o rastreador web da Perplexity, que indexa conteúdo para o seu motor de pesquisa por IA. Quando os utilizadores consultam o Perplexity, as respostas geradas por IA baseiam-se no conteúdo que o PerplexityBot recolheu. Em 2024, vários editores relataram problemas de conformidade em que o seu conteúdo restringido por robots.txt aparecia nas respostas do Perplexity apesar do bloqueio explícito do bot.

Adicione `User-agent: PerplexityBot` seguido de `Disallow: /` ao seu ficheiro `robots.txt`. Dada a controvérsia de conformidade de 2024, complemente isto com bloqueio ao nível de IP usando os intervalos de IP publicados pela Perplexity na documentação do seu rastreador. Trate o `robots.txt` como um sinal de intenção, e não como um controlo técnico rígido para este rastreador específico.

Vários editores relataram em 2024 que a Perplexity estava a apresentar resumos detalhados do seu conteúdo nos resultados de pesquisa por IA apesar dos bloqueios ao PerplexityBot no robots.txt. A Perplexity contestou alguns aspetos destes relatos. O episódio foi documentado em reportagens da Wired, da The Atlantic e de outros meios, e estabeleceu que a conformidade do PerplexityBot é mais ativamente contestada do que a da maioria dos outros grandes rastreadores de IA.

O PerplexityBot é um rastreador de indexação com um user-agent declarado. O Perplexity Shopper é um agente transacional que usa uma sessão de navegador real e apresenta um user-agent padrão do Chrome. Bloquear o PerplexityBot não tem qualquer efeito sobre o Perplexity Shopper. As sessões do Shopper requerem deteção comportamental na camada do navegador para serem identificadas e controladas.

As estratégias legais variam consoante a jurisdição e o tipo de conteúdo envolvido. Adicionar termos de serviço explícitos que proíbam a recolha de dados de treino de IA e a sumarização por pesquisa de IA cria uma base legal de aplicação que complementa o bloqueio técnico. Os editores recorreram a argumentos legais baseados nos termos de serviço e em direitos de autor no período de 2024-2025. Esta é uma área legal ativa e a orientação específica depende da jurisdição e do tipo de conteúdo.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Agende uma demonstração

Comece gratuitamente

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança

Como parar a partilha de conta em programas de fidelidade de companhias aéreas: detectar a utilização indevida de credenciais sem sinalizar grandes viajantes

As contas de passageiro frequente são partilhadas segundo três padrões distintos, cada um com diferentes implicações de receita e conformidade.

Como Bloquear o PerplexityBot no Seu Site

O PerplexityBot rastreia o seu conteúdo para resultados de pesquisa por IA. Saiba como bloqueá-lo, porque enfrentou críticas sobre direitos de autor e como o Perplexity Shopper difere.

Contêineres Shadow GTM em plataformas de jogos de azar multimarcas: o que são e como detectá-los

Contêineres GTM não autorizados executam JavaScript em seus domínios de jogo. Como surgem, o que fazem e por que as ferramentas não os detectam.

Como detectar e prevenir a partilha de conta sem prejudicar utilizadores legítimos

A maior objecção à detecção de partilha de conta são os falsos positivos: e se sinalizarmos um subscritor que está simplesmente a usar múltiplos…

Como Bloquear o GPTBot (e Porque Talvez Não Queira)

O GPTBot rastreia o seu site para treinar os modelos da OpenAI. Eis como bloqueá-lo com robots.txt e intervalos de IP, e o que o bloqueio ainda não cobre.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre ferramentas de gravação de sessão e risco de exfiltração de PII

Ferramentas de Session Recording em Sites de Jogo: O Risco de Exfiltração de PII que os Operadores Estão a Ignorar

Ferramentas de session recording em sites de jogo podem exfiltrar PII de jogadores quando mal configuradas ou comprometidas. Eis as três formas.

Detecção de partilha de conta: como fechar a lacuna de execução que os limites de sessões simultâneas não cobrem

Os limites de sessões simultâneas sinalizam o caso óbvio.

Uma trajetória de cursor azul brilhante e fluida ao lado de uma trajetória de bot vermelha e angular sobre um plano escuro.

Pegar bots pelo jeito como se movem: detecção comportamental de cursor

Como o modelo cursor_v2 da cside pontua o movimento do mouse para pegar os bots furtivos que já passam pelos controles de fingerprint e IP.

Como Bloquear o Applebot-Extended no Seu Site

O Applebot-Extended é o crawler de treino de IA da Apple que alimenta o Apple Intelligence. Saiba como difere do Applebot e como recusar via robots.txt.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre monitoramento de scripts de terceiros em domínios de cassino

Como monitorar scripts de terceiros em 100 ou mais domínios de cassino

Guia prático para monitorar scripts de terceiros em 100+ domínios de cassino: expansão de scripts, alertas entre domínios e escalabilidade cside.