PerplexityBot es el crawler web declarado que impulsa el motor de búsqueda con IA de Perplexity. Cuando un usuario consulta en Perplexity, los resultados de búsqueda se nutren del contenido que PerplexityBot ha indexado. En 2024, varios editores denunciaron que Perplexity reproducía contenido protegido por derechos de autor de sus sitios en los resultados de búsqueda a pesar de los bloqueos en robots.txt, lo que convirtió a PerplexityBot en uno de los crawlers de IA más polémicos de bloquear.
Esta guía trata específicamente sobre PerplexityBot. Si lo que intentas es controlar el agente de compras de Perplexity, consulta nuestro artículo complementario sobre cómo bloquear Perplexity Shopper, porque requiere un enfoque completamente distinto. Para conocer el patrón más amplio en los crawlers declarados, consulta nuestra guía para bloquear bots de IA que hacen scraping de contenido.
¿Qué Es PerplexityBot?
Respuesta rápida: PerplexityBot es el crawler de búsqueda con IA de Perplexity. Indexa contenido web para impulsar los resultados de búsqueda generados por la IA de Perplexity. Se identifica con una cadena de user-agent declarada y está documentado en docs.perplexity.ai. En 2024, recibió importantes críticas de los editores por un aparente incumplimiento del
robots.txty por reproducir contenido sin la suficiente atribución.
El user-agent de PerplexityBot: PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)
La controversia de 2024 es un contexto relevante para tu decisión de bloqueo. Varios grandes editores, incluidos medios de comunicación y organizaciones de noticias, denunciaron que Perplexity estaba mostrando reproducciones detalladas de su contenido restringido por muro de pago o por robots.txt en las respuestas de búsqueda con IA. Perplexity refutó algunas de estas descripciones, pero el episodio dejó claro que el cumplimiento de PerplexityBot es objeto de disputa más activa que el de GPTBot o el de ClaudeBot.
La Controversia de Cumplimiento de 2024
Respuesta rápida: En 2024, Wired, The Atlantic y otros editores denunciaron que Perplexity reproducía contenido de sus sitios en los resultados de búsqueda con IA a pesar de tener
Disallow: PerplexityBoten surobots.txt. Las explicaciones de Perplexity en aquel momento fueron inconsistentes, lo que llevó a varios editores a tomar medidas técnicas y legales adicionales.
El problema concreto no era solo el rastreo, era el resumen y la reproducción. Incluso si PerplexityBot respetaba el robots.txt en su rastreo directo, Perplexity podía acceder y resumir el mismo contenido por otros medios: copias en caché, fuentes de datos de terceros o infraestructura de navegación en vivo. El resultado neto, desde la perspectiva de los editores, era que su contenido aparecía en las respuestas de Perplexity con independencia de su configuración de robots.txt.
Esto no significa que el bloqueo mediante robots.txt sea inútil para PerplexityBot. Significa que el alcance de lo que el robots.txt puede lograr frente a un producto de búsqueda con múltiples canales de adquisición de contenido es limitado. El bloqueo a nivel de IP y la monitorización activa proporcionan una aplicación más fiable.
Cómo Bloquear PerplexityBot con robots.txt
Respuesta rápida: Añade
PerplexityBota turobots.txt. Dada la controversia de cumplimiento de 2024, implementa también un bloqueo a nivel de IP y plantéate añadir términos legales a tus términos de servicio que restrinjan explícitamente la recopilación de datos de entrenamiento de IA y el resumen mediante búsqueda con IA.
Para bloquear PerplexityBot en todo tu sitio:
User-agent: PerplexityBot
Disallow: /
Para un control a nivel de ruta:
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/
Dada la controversia de 2024, trata el robots.txt como una señal de intención y no como un control técnico estricto para PerplexityBot. El mismo enfoque de crawler declarado es más fiable para crawlers con un historial de cumplimiento más limpio, como CCBot.
Bloqueo a Nivel de IP
Respuesta rápida: Perplexity publica los rangos de IP de PerplexityBot en su documentación. Denegar estos rangos a nivel de firewall o de CDN proporciona una aplicación independiente de si el crawler lee el
robots.txt. Para editores o sitios con mucho contenido, el bloqueo de IP es el enfoque más fiable dado el historial de cumplimiento.
Localiza los rangos de IP actuales de Perplexity en su documentación oficial en docs.perplexity.ai. Añádelos a tu firewall, a la configuración del edge de tu CDN o a las reglas de denegación de tu reverse proxy. Revisa esta lista trimestralmente, ya que los rangos de IP de la infraestructura de rastreo se amplían a medida que crece el volumen de rastreo.
PerplexityBot vs. Perplexity Shopper: Una Distinción Crítica
Respuesta rápida: PerplexityBot (el crawler de indexación) y Perplexity Shopper (el agente que realiza transacciones) son sistemas distintos. Bloquear PerplexityBot no afecta a Perplexity Shopper. Shopper usa una sesión de navegador real con un user-agent estándar de Chrome. Requiere detección en la capa del navegador, no un bloqueo con
robots.txt.
| Sistema | Propósito | User-agent | Enfoque de detección |
|---|---|---|---|
| PerplexityBot | Rastrea e indexa contenido | PerplexityBot/1.0 (declarado) | robots.txt + bloqueo de IP |
| Perplexity Shopper | Completa compras para los usuarios | Chrome estándar (no declarado) | Señales de comportamiento en la capa del navegador |
Los ingenieros que añaden PerplexityBot al robots.txt y consideran resuelto el problema de Perplexity han abordado uno de los dos sistemas. Perplexity Shopper es invisible para todo el enfoque basado en listas de bloqueo. En las pruebas controladas de cside, las herramientas tradicionales pasaron por alto agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios, y Shopper es exactamente el tipo de sesión que esas herramientas no detectan.

Cómo se ve esto en la práctica: una sesión de Perplexity Shopper con la tarea de comprar un producto concreto abre una sesión real de Chrome, navega a la página de categoría de un comercio, filtra por la especificación solicitada, selecciona un producto y avanza hasta el checkout. Todas las señales de la capa de red están limpias: una IP residencial, un handshake TLS estándar y una cadena de user-agent de Chrome indistinguible de la de un comprador humano. La pista de comportamiento está en la capa del navegador. El agente recorre el filtrado de productos en 3,2 segundos sin variación en el cursor, selecciona el primer resultado que cumple los requisitos sin detenerse a comparar alternativas e introduce los datos de la dirección a un intervalo de pulsación uniforme de 80 ms sin eventos de corrección. La instrumentación de cside captura esas anomalías en la capa de interacción antes de que se dispare cualquier evento de checkout, lo que da a los operadores una visibilidad que la capa de red nunca proporciona.
Qué Logra Realmente el Bloqueo de PerplexityBot
Respuesta rápida: Un bloqueo de PerplexityBot impide que el crawler declarado indexe directamente tu contenido en futuros rastreos. No impide que Perplexity haga referencia a contenido indexado previamente, que acceda a tu contenido a través de fuentes de terceros o que muestre resúmenes en los resultados de búsqueda con IA mediante canales distintos al rastreo directo.
Esta es la limitación que dejó al descubierto la controversia de 2024. El robots.txt impide que un crawler específico realice nuevas solicitudes. No elimina el contenido ya indexado de la base de conocimiento de un producto de búsqueda, y no impide la adquisición de contenido a través de canales alternativos que el propio crawler no utiliza directamente.
Para las organizaciones con requisitos estrictos (contenido tras muro de pago, investigación propietaria, material con licencia), la combinación de robots.txt, bloqueo de IP, términos legales en los términos de servicio y protección técnica del contenido como muros de autenticación y renderizado dinámico proporciona una postura de protección más completa que cualquier enfoque por separado.






