O PerplexityBot é o rastreador web declarado que alimenta o motor de pesquisa por IA da Perplexity. Quando um utilizador consulta o Perplexity, os resultados de pesquisa baseiam-se no conteúdo que o PerplexityBot indexou. Em 2024, vários editores relataram que a Perplexity estava a reproduzir conteúdo protegido por direitos de autor dos seus sites nos resultados de pesquisa apesar dos bloqueios no robots.txt, tornando o PerplexityBot um dos rastreadores de IA mais controversos de bloquear.
Este guia aborda especificamente o PerplexityBot. Se está a tentar controlar o shopping agent da Perplexity, consulte o nosso artigo complementar sobre como bloquear o Perplexity Shopper, porque requer uma abordagem completamente diferente. Para o padrão mais amplo entre rastreadores declarados, consulte o nosso guia para bloquear scrapers de conteúdo de IA.
O que É o PerplexityBot?
Resposta rápida: O PerplexityBot é o rastreador de pesquisa por IA da Perplexity. Ele indexa conteúdo web para alimentar os resultados de pesquisa gerados por IA da Perplexity. Identifica-se com uma string de user-agent declarada e está documentado em docs.perplexity.ai. Em 2024, enfrentou críticas significativas por parte dos editores por aparente incumprimento do
robots.txte reprodução de conteúdo sem atribuição suficiente.
O user-agent do PerplexityBot: PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)
A controvérsia de 2024 é contexto relevante para a sua decisão de bloqueio. Vários grandes editores, incluindo meios de comunicação e organizações noticiosas, relataram que a Perplexity estava a apresentar reproduções detalhadas do seu conteúdo pago ou restringido por robots.txt nas respostas de pesquisa por IA. A Perplexity contestou algumas destas caracterizações, mas o episódio estabeleceu que a conformidade do PerplexityBot é mais ativamente contestada do que a do GPTBot ou do ClaudeBot.
A Controvérsia de Conformidade de 2024
Resposta rápida: Em 2024, a Wired, a The Atlantic e outros editores relataram que a Perplexity estava a reproduzir conteúdo dos seus sites nos resultados de pesquisa por IA apesar de terem
Disallow: PerplexityBotno seurobots.txt. As explicações da Perplexity na altura foram inconsistentes, levando vários editores a tomar medidas técnicas e legais adicionais.
A preocupação específica não era apenas o rastreio, era a sumarização e a reprodução. Mesmo que o PerplexityBot respeitasse o robots.txt no seu rastreio direto, a Perplexity podia aceder e resumir o mesmo conteúdo por outros meios: cópias em cache, fontes de dados de terceiros ou infraestrutura de navegação em tempo real. O resultado líquido, na perspetiva dos editores, era que o seu conteúdo aparecia nas respostas do Perplexity independentemente das definições do seu robots.txt.
Isto não significa que o bloqueio com robots.txt seja inútil para o PerplexityBot. Significa que o alcance do que o robots.txt pode conseguir contra um produto de pesquisa com múltiplos canais de aquisição de conteúdo é limitado. O bloqueio ao nível de IP e a monitorização ativa proporcionam uma aplicação mais fiável.
Como Bloquear o PerplexityBot com o robots.txt
Resposta rápida: Adicione
PerplexityBotao seurobots.txt. Dada a controvérsia de conformidade de 2024, implemente também bloqueio ao nível de IP e pondere adicionar linguagem legal aos seus termos de serviço que restrinja explicitamente a recolha de dados de treino de IA e a sumarização por pesquisa de IA.
Para bloquear o PerplexityBot em todo o seu site:
User-agent: PerplexityBot
Disallow: /
Para controlo ao nível dos caminhos:
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/
Dada a controvérsia de 2024, trate o robots.txt como um sinal de intenção, e não como um controlo técnico rígido para o PerplexityBot. A mesma abordagem de rastreador declarado é mais fiável para rastreadores com históricos de conformidade mais limpos, como o CCBot.
Bloqueio ao Nível de IP
Resposta rápida: A Perplexity publica os intervalos de IP do PerplexityBot na sua documentação. Negar estes intervalos ao nível da firewall ou da CDN proporciona uma aplicação independente de o rastreador ler ou não o
robots.txt. Para editores ou sites com muito conteúdo, o bloqueio de IP é a abordagem mais fiável dado o histórico de conformidade.
Localize os intervalos de IP atuais da Perplexity na sua documentação oficial em docs.perplexity.ai. Adicione-os às regras de negação da sua firewall, da configuração de borda da CDN ou do reverse proxy. Reveja esta lista trimestralmente, pois os intervalos de IP da infraestrutura de rastreio expandem-se à medida que o volume de rastreio cresce.
PerplexityBot vs. Perplexity Shopper: Uma Distinção Crítica
Resposta rápida: O PerplexityBot (o rastreador de indexação) e o Perplexity Shopper (o agente transacional) são sistemas separados. Bloquear o PerplexityBot não afeta o Perplexity Shopper. O Shopper usa uma sessão de navegador real com um user-agent padrão do Chrome. Requer deteção na camada do navegador, e não bloqueio com
robots.txt.
| Sistema | Propósito | User-agent | Abordagem de deteção |
|---|---|---|---|
| PerplexityBot | Rastreia e indexa conteúdo | PerplexityBot/1.0 (declarado) | robots.txt + bloqueio de IP |
| Perplexity Shopper | Conclui compras para os utilizadores | Chrome padrão (não declarado) | Sinais comportamentais na camada do navegador |
Os engenheiros que adicionam PerplexityBot ao robots.txt e consideram o problema da Perplexity resolvido abordaram apenas um dos dois sistemas. O Perplexity Shopper é invisível para tudo o que se baseia na abordagem de listas de bloqueio. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários, e o Shopper é exatamente o tipo de sessão que essas ferramentas não detetam.

Como isto se traduz na prática: uma sessão do Perplexity Shopper encarregada de comprar um produto específico abre uma sessão Chrome real, navega até à página de categoria de um retalhista, filtra pela especificação pedida, seleciona um produto e avança para o checkout. Todos os sinais ao nível de rede estão limpos: um IP residencial, um handshake TLS padrão e uma string de user-agent do Chrome indistinguível de um comprador humano. O indício comportamental está na camada do navegador. O agente percorre a filtragem de produtos em 3,2 segundos sem qualquer variância do cursor, seleciona o primeiro resultado qualificado sem fazer pausa para comparar alternativas e introduz os dados de morada a um intervalo de digitação uniforme de 80 ms sem eventos de correção. A instrumentação da cside captura essas anomalias na camada de interação antes que qualquer evento de checkout seja despoletado, dando aos operadores uma visibilidade que a camada de rede nunca proporciona.
O que o Bloqueio do PerplexityBot Realmente Consegue
Resposta rápida: Um bloqueio do PerplexityBot impede que o rastreador declarado indexe diretamente o seu conteúdo em futuras execuções de rastreio. Não impede que a Perplexity faça referência a conteúdo previamente indexado, aceda ao seu conteúdo através de fontes de terceiros ou apresente sumarizações nos resultados de pesquisa por IA através de canais que não o rastreio direto.
Esta é a limitação que a controvérsia de 2024 expôs. O robots.txt bloqueia um rastreador específico de fazer novas requisições. Não elimina o conteúdo já indexado da base de conhecimento de um produto de pesquisa e não impede a aquisição de conteúdo através de canais alternativos que o próprio rastreador não usa diretamente.
Para organizações com requisitos rigorosos (conteúdo pago, investigação proprietária, material licenciado), a combinação de robots.txt, bloqueio de IP, linguagem legal nos termos de serviço e proteção técnica de conteúdo, como muros de autenticação e renderização dinâmica, proporciona uma postura de proteção mais completa do que qualquer abordagem isolada.






