Blog Attacks

Cómo Bloquear PerplexityBot en Tu Sitio Web

PerplexityBot rastrea tu contenido para los resultados de búsqueda con IA. Aquí te explicamos cómo bloquearlo, por qué generó críticas por derechos de autor y en qué se diferencia Perplexity Shopper.

Jun 25, 2026 • 7 min read

Mike Kutlu Client-Side Security Consultant

Cómo Bloquear PerplexityBot en Tu Sitio Web

PerplexityBot es el crawler web declarado que impulsa el motor de búsqueda con IA de Perplexity. Cuando un usuario consulta en Perplexity, los resultados de búsqueda se nutren del contenido que PerplexityBot ha indexado. En 2024, varios editores denunciaron que Perplexity reproducía contenido protegido por derechos de autor de sus sitios en los resultados de búsqueda a pesar de los bloqueos en robots.txt, lo que convirtió a PerplexityBot en uno de los crawlers de IA más polémicos de bloquear.

Esta guía trata específicamente sobre PerplexityBot. Si lo que intentas es controlar el agente de compras de Perplexity, consulta nuestro artículo complementario sobre cómo bloquear Perplexity Shopper, porque requiere un enfoque completamente distinto. Para conocer el patrón más amplio en los crawlers declarados, consulta nuestra guía para bloquear bots de IA que hacen scraping de contenido.

¿Qué Es PerplexityBot?

Respuesta rápida: PerplexityBot es el crawler de búsqueda con IA de Perplexity. Indexa contenido web para impulsar los resultados de búsqueda generados por la IA de Perplexity. Se identifica con una cadena de user-agent declarada y está documentado en docs.perplexity.ai. En 2024, recibió importantes críticas de los editores por un aparente incumplimiento del robots.txt y por reproducir contenido sin la suficiente atribución.

El user-agent de PerplexityBot: PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)

La controversia de 2024 es un contexto relevante para tu decisión de bloqueo. Varios grandes editores, incluidos medios de comunicación y organizaciones de noticias, denunciaron que Perplexity estaba mostrando reproducciones detalladas de su contenido restringido por muro de pago o por robots.txt en las respuestas de búsqueda con IA. Perplexity refutó algunas de estas descripciones, pero el episodio dejó claro que el cumplimiento de PerplexityBot es objeto de disputa más activa que el de GPTBot o el de ClaudeBot.

La Controversia de Cumplimiento de 2024

Respuesta rápida: En 2024, Wired, The Atlantic y otros editores denunciaron que Perplexity reproducía contenido de sus sitios en los resultados de búsqueda con IA a pesar de tener Disallow: PerplexityBot en su robots.txt. Las explicaciones de Perplexity en aquel momento fueron inconsistentes, lo que llevó a varios editores a tomar medidas técnicas y legales adicionales.

El problema concreto no era solo el rastreo, era el resumen y la reproducción. Incluso si PerplexityBot respetaba el robots.txt en su rastreo directo, Perplexity podía acceder y resumir el mismo contenido por otros medios: copias en caché, fuentes de datos de terceros o infraestructura de navegación en vivo. El resultado neto, desde la perspectiva de los editores, era que su contenido aparecía en las respuestas de Perplexity con independencia de su configuración de robots.txt.

Esto no significa que el bloqueo mediante robots.txt sea inútil para PerplexityBot. Significa que el alcance de lo que el robots.txt puede lograr frente a un producto de búsqueda con múltiples canales de adquisición de contenido es limitado. El bloqueo a nivel de IP y la monitorización activa proporcionan una aplicación más fiable.

Cómo Bloquear PerplexityBot con robots.txt

Respuesta rápida: Añade PerplexityBot a tu robots.txt. Dada la controversia de cumplimiento de 2024, implementa también un bloqueo a nivel de IP y plantéate añadir términos legales a tus términos de servicio que restrinjan explícitamente la recopilación de datos de entrenamiento de IA y el resumen mediante búsqueda con IA.

Para bloquear PerplexityBot en todo tu sitio:

User-agent: PerplexityBot
Disallow: /

Para un control a nivel de ruta:

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/

Dada la controversia de 2024, trata el robots.txt como una señal de intención y no como un control técnico estricto para PerplexityBot. El mismo enfoque de crawler declarado es más fiable para crawlers con un historial de cumplimiento más limpio, como CCBot.

Bloqueo a Nivel de IP

Respuesta rápida: Perplexity publica los rangos de IP de PerplexityBot en su documentación. Denegar estos rangos a nivel de firewall o de CDN proporciona una aplicación independiente de si el crawler lee el robots.txt. Para editores o sitios con mucho contenido, el bloqueo de IP es el enfoque más fiable dado el historial de cumplimiento.

Localiza los rangos de IP actuales de Perplexity en su documentación oficial en docs.perplexity.ai. Añádelos a tu firewall, a la configuración del edge de tu CDN o a las reglas de denegación de tu reverse proxy. Revisa esta lista trimestralmente, ya que los rangos de IP de la infraestructura de rastreo se amplían a medida que crece el volumen de rastreo.

PerplexityBot vs. Perplexity Shopper: Una Distinción Crítica

Respuesta rápida: PerplexityBot (el crawler de indexación) y Perplexity Shopper (el agente que realiza transacciones) son sistemas distintos. Bloquear PerplexityBot no afecta a Perplexity Shopper. Shopper usa una sesión de navegador real con un user-agent estándar de Chrome. Requiere detección en la capa del navegador, no un bloqueo con robots.txt.

Sistema	Propósito	User-agent	Enfoque de detección
PerplexityBot	Rastrea e indexa contenido	`PerplexityBot/1.0` (declarado)	robots.txt + bloqueo de IP
Perplexity Shopper	Completa compras para los usuarios	Chrome estándar (no declarado)	Señales de comportamiento en la capa del navegador

Los ingenieros que añaden PerplexityBot al robots.txt y consideran resuelto el problema de Perplexity han abordado uno de los dos sistemas. Perplexity Shopper es invisible para todo el enfoque basado en listas de bloqueo. En las pruebas controladas de cside, las herramientas tradicionales pasaron por alto agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios, y Shopper es exactamente el tipo de sesión que esas herramientas no detectan.

Panel de detección de agentes de IA de cside

Cómo se ve esto en la práctica: una sesión de Perplexity Shopper con la tarea de comprar un producto concreto abre una sesión real de Chrome, navega a la página de categoría de un comercio, filtra por la especificación solicitada, selecciona un producto y avanza hasta el checkout. Todas las señales de la capa de red están limpias: una IP residencial, un handshake TLS estándar y una cadena de user-agent de Chrome indistinguible de la de un comprador humano. La pista de comportamiento está en la capa del navegador. El agente recorre el filtrado de productos en 3,2 segundos sin variación en el cursor, selecciona el primer resultado que cumple los requisitos sin detenerse a comparar alternativas e introduce los datos de la dirección a un intervalo de pulsación uniforme de 80 ms sin eventos de corrección. La instrumentación de cside captura esas anomalías en la capa de interacción antes de que se dispare cualquier evento de checkout, lo que da a los operadores una visibilidad que la capa de red nunca proporciona.

Qué Logra Realmente el Bloqueo de PerplexityBot

Respuesta rápida: Un bloqueo de PerplexityBot impide que el crawler declarado indexe directamente tu contenido en futuros rastreos. No impide que Perplexity haga referencia a contenido indexado previamente, que acceda a tu contenido a través de fuentes de terceros o que muestre resúmenes en los resultados de búsqueda con IA mediante canales distintos al rastreo directo.

Esta es la limitación que dejó al descubierto la controversia de 2024. El robots.txt impide que un crawler específico realice nuevas solicitudes. No elimina el contenido ya indexado de la base de conocimiento de un producto de búsqueda, y no impide la adquisición de contenido a través de canales alternativos que el propio crawler no utiliza directamente.

Para las organizaciones con requisitos estrictos (contenido tras muro de pago, investigación propietaria, material con licencia), la combinación de robots.txt, bloqueo de IP, términos legales en los términos de servicio y protección técnica del contenido como muros de autenticación y renderizado dinámico proporciona una postura de protección más completa que cualquier enfoque por separado.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Back to top

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

PerplexityBot es el crawler web de Perplexity que indexa contenido para su motor de búsqueda con IA. Cuando los usuarios consultan en Perplexity, las respuestas generadas por la IA se nutren del contenido que PerplexityBot ha recopilado. En 2024, varios editores denunciaron problemas de cumplimiento en los que su contenido restringido por robots.txt aparecía en las respuestas de Perplexity a pesar del bloqueo explícito del bot.

Añade `User-agent: PerplexityBot` seguido de `Disallow: /` a tu archivo `robots.txt`. Dada la controversia de cumplimiento de 2024, complementa esto con un bloqueo a nivel de IP usando los rangos de IP publicados por Perplexity en la documentación de su crawler. Trata el `robots.txt` como una señal de intención y no como un control técnico estricto para este crawler en concreto.

Varios editores denunciaron en 2024 que Perplexity estaba mostrando resúmenes detallados de su contenido en los resultados de búsqueda con IA a pesar de tener bloqueado PerplexityBot mediante robots.txt. Perplexity refutó algunos aspectos de estas denuncias. El episodio quedó documentado en la cobertura de Wired, The Atlantic y otros medios, y dejó claro que el cumplimiento de PerplexityBot es objeto de disputa más activa que el de la mayoría de los grandes crawlers de IA.

PerplexityBot es un crawler de indexación con un user-agent declarado. Perplexity Shopper es un agente que realiza transacciones, usa una sesión de navegador real y presenta un user-agent estándar de Chrome. Bloquear PerplexityBot no tiene ningún efecto sobre Perplexity Shopper. Las sesiones de Shopper requieren detección de comportamiento en la capa del navegador para identificarlas y controlarlas.

Las estrategias legales varían según la jurisdicción y el tipo de contenido en cuestión. Añadir términos de servicio explícitos que prohíban la recopilación de datos de entrenamiento de IA y el resumen mediante búsqueda con IA crea una base legal para la aplicación que complementa el bloqueo técnico. Los editores han recurrido a argumentos legales tanto basados en los términos de servicio como en derechos de autor durante el periodo 2024-2025. Es un área legal en evolución y las indicaciones concretas dependen de la jurisdicción y del tipo de contenido.

Monitoriza y Asegura tus Scripts de Terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Reservar una demo

Comenzar gratis

Comienza gratis, o prueba Business con una prueba de 14 días.

Interfaz del panel de cside mostrando monitorización de scripts y análisis de seguridad

Cómo detener el account sharing en programas de fidelización de aerolíneas: detectar el mal uso de credenciales sin marcar a los viajeros frecuentes

Las cuentas de viajero frecuente se comparten en tres patrones distintos, cada uno con diferentes implicaciones de ingresos y cumplimiento.

Cómo Bloquear PerplexityBot en Tu Sitio Web

PerplexityBot rastrea tu contenido para los resultados de búsqueda con IA. Aquí te explicamos cómo bloquearlo, por qué generó críticas por derechos de autor y en qué se diferencia Perplexity Shopper.

Contenedores Shadow GTM en plataformas de juego multimarca: qué son y cómo detectarlos

Los contenedores GTM no autorizados ejecutan JavaScript en sus dominios de juego. Cómo aparecen, qué hacen y por qué las herramientas los ignoran.

Cómo detectar y prevenir el account sharing sin perjudicar a los usuarios legítimos

La mayor objeción a la detección de account sharing son los falsos positivos: ¿qué pasa si marcamos a un suscriptor que simplemente usa varios…

Cómo Bloquear GPTBot (y Por Qué Quizá No Quieras Hacerlo)

GPTBot rastrea tu sitio para entrenar los modelos de OpenAI. Aquí te explicamos cómo bloquearlo con robots.txt y rangos de IP, y qué sigue sin cubrir ese bloqueo.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre herramientas de grabación de sesiones y riesgo de exfiltración de PII

Herramientas de session recording en sitios de juego: el riesgo de exfiltración de PII que los operadores no están viendo

Las herramientas de session recording en sitios de juego pueden exfiltrar PII de jugadores si están mal configuradas o comprometidas. Tres formas.

Detección de account sharing: cómo cerrar la brecha de aplicación que los límites de sesiones concurrentes no cubren

Los límites de sesiones concurrentes marcan el caso obvio.

Una trayectoria de cursor azul brillante y fluida junto a una trayectoria de bot roja y angular sobre un plano oscuro.

Atrapar bots por cómo se mueven: detección de cursor por comportamiento

Cómo el modelo cursor_v2 de cside puntúa el movimiento del ratón para atrapar a los bots sigilosos que ya superan los controles de fingerprint e IP.

Cómo Bloquear Applebot-Extended en Tu Sitio Web

Applebot-Extended es el rastreador de entrenamiento de IA de Apple que alimenta Apple Intelligence. Aprende en qué se diferencia de Applebot y cómo excluirte vía robots.txt.

Portada oscura del blog de cside con una onda de pixeles azules y una lista sobre monitoreo de scripts de terceros en dominios de casino

Cómo monitorear scripts de terceros en 100 o más dominios de casino

Guía práctica para monitorear scripts de terceros en 100+ dominios de casino: expansión de scripts, alertas entre dominios y escalamiento cside.