PerplexityBot est le crawler web déclaré qui alimente le moteur de recherche IA de Perplexity. Lorsqu'un utilisateur interroge Perplexity, les résultats de recherche s'appuient sur le contenu que PerplexityBot a indexé. En 2024, plusieurs éditeurs ont signalé que Perplexity reproduisait du contenu protégé par le droit d'auteur issu de leurs sites dans les résultats de recherche, et ce malgré des blocages robots.txt, ce qui en fait l'un des crawlers IA les plus controversés à bloquer.
Ce guide traite spécifiquement de PerplexityBot. Si vous cherchez à contrôler le shopping agent de Perplexity, consultez notre article complémentaire sur comment bloquer Perplexity Shopper, car il exige une approche entièrement différente. Pour le schéma plus large applicable aux crawlers déclarés, consultez notre guide pour bloquer les scrapers de contenu IA.
Qu'est-ce que PerplexityBot ?
Réponse rapide : PerplexityBot est le crawler de recherche IA de Perplexity. Il indexe le contenu web pour alimenter les résultats de recherche générés par l'IA de Perplexity. Il s'identifie au moyen d'une chaîne de user-agent déclarée et est documenté sur docs.perplexity.ai. En 2024, il a essuyé d'importantes critiques de la part des éditeurs en raison d'un non-respect apparent de
robots.txtet d'une reproduction de contenu sans attribution suffisante.
Le user-agent de PerplexityBot : PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)
La controverse de 2024 constitue un contexte pertinent pour votre décision de blocage. Plusieurs grands éditeurs, dont des médias et des organes de presse, ont signalé que Perplexity faisait remonter des reproductions détaillées de leur contenu payant ou restreint par robots.txt dans ses réponses de recherche IA. Perplexity a contesté certaines de ces descriptions, mais l'épisode a établi que la conformité de PerplexityBot est plus activement contestée que celle de GPTBot ou de ClaudeBot.
La Controverse de Conformité de 2024
Réponse rapide : En 2024, Wired, The Atlantic et d'autres éditeurs ont signalé que Perplexity reproduisait du contenu de leurs sites dans les résultats de recherche IA, alors même qu'ils avaient
Disallow: PerplexityBotdans leurrobots.txt. Les explications de Perplexity à l'époque étaient incohérentes, ce qui a conduit plusieurs éditeurs à prendre des mesures techniques et juridiques supplémentaires.
La préoccupation précise ne portait pas seulement sur l'exploration, mais sur la synthèse et la reproduction. Même si PerplexityBot respectait robots.txt pour son exploration directe, Perplexity pouvait accéder au même contenu et le résumer par d'autres moyens : copies en cache, sources de données tierces ou infrastructure de navigation en direct. Le résultat net, du point de vue des éditeurs, était que leur contenu apparaissait dans les réponses de Perplexity quels que soient leurs paramètres robots.txt.
Cela ne signifie pas que le blocage par robots.txt est inutile pour PerplexityBot. Cela signifie que la portée de ce que robots.txt peut accomplir face à un produit de recherche disposant de plusieurs canaux d'acquisition de contenu est limitée. Le blocage au niveau de l'IP et une surveillance active offrent une application plus fiable.
Comment Bloquer PerplexityBot avec robots.txt
Réponse rapide : Ajoutez
PerplexityBotà votrerobots.txt. Compte tenu de la controverse de conformité de 2024, mettez également en place un blocage au niveau de l'IP et envisagez d'ajouter à vos conditions d'utilisation une clause juridique restreignant explicitement la collecte de données d'entraînement IA et la synthèse par recherche IA.
Pour bloquer PerplexityBot sur l'ensemble de votre site :
User-agent: PerplexityBot
Disallow: /
Pour un contrôle au niveau des chemins :
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/
Compte tenu de la controverse de 2024, considérez robots.txt comme une déclaration d'intention plutôt que comme un contrôle technique strict pour PerplexityBot. La même approche par crawler déclaré est plus fiable pour les crawlers ayant un historique de conformité plus propre, comme CCBot.
Blocage au Niveau de l'IP
Réponse rapide : Perplexity publie les plages d'IP de PerplexityBot dans sa documentation. Refuser ces plages au niveau du pare-feu ou du CDN fournit une application indépendante du fait que le crawler lise ou non
robots.txt. Pour les éditeurs ou les sites à fort volume de contenu, le blocage d'IP est l'approche la plus fiable au vu de l'historique de conformité.
Repérez les plages d'IP actuelles de Perplexity dans sa documentation officielle sur docs.perplexity.ai. Ajoutez-les aux règles de refus de votre pare-feu, de la configuration de votre edge CDN ou de votre reverse proxy. Réexaminez cette liste chaque trimestre, car les plages d'IP de l'infrastructure d'exploration s'étendent à mesure que le volume d'exploration augmente.
PerplexityBot vs. Perplexity Shopper : une Distinction Cruciale
Réponse rapide : PerplexityBot (le crawler d'indexation) et Perplexity Shopper (l'agent transactionnel) sont des systèmes distincts. Bloquer PerplexityBot n'affecte pas Perplexity Shopper. Shopper utilise une véritable session de navigateur avec un user-agent Chrome standard. Il nécessite une détection au niveau du navigateur, et non un blocage par
robots.txt.
| Système | Objectif | User-agent | Approche de détection |
|---|---|---|---|
| PerplexityBot | Explore et indexe le contenu | PerplexityBot/1.0 (déclaré) | robots.txt + blocage d'IP |
| Perplexity Shopper | Finalise des achats pour les utilisateurs | Chrome standard (non déclaré) | Signaux comportementaux au niveau du navigateur |
Les ingénieurs qui ajoutent PerplexityBot à robots.txt et considèrent le problème Perplexity comme résolu n'ont traité qu'un seul des deux systèmes. Perplexity Shopper reste invisible pour tout ce qui relève de l'approche par liste de blocage. Lors des tests contrôlés de cside, les outils traditionnels ont raté des agents IA opérant à l'intérieur de vraies sessions de navigateur dans 81 scénarios sur 100, et Shopper est exactement le type de session que ces outils manquent.

Voici à quoi cela ressemble en pratique : une session Perplexity Shopper chargée d'acheter un produit précis ouvre une véritable session Chrome, navigue vers la page de catégorie d'un détaillant, filtre selon la spécification demandée, sélectionne un produit et passe au checkout. Tous les signaux au niveau du réseau sont irréprochables : une IP résidentielle, un handshake TLS standard et une chaîne de user-agent Chrome indiscernable de celle d'un acheteur humain. L'indice comportemental se situe dans la couche du navigateur. L'agent parcourt le filtrage des produits en 3,2 secondes sans aucune variance du curseur, sélectionne le premier résultat éligible sans s'arrêter pour comparer les alternatives, et saisit les données d'adresse à un intervalle de frappe uniforme de 80 ms sans la moindre correction. L'instrumentation de cside capture ces anomalies au niveau de l'interaction avant que tout événement de checkout ne se déclenche, offrant aux opérateurs une visibilité que la couche réseau ne fournit jamais.
Ce que le Blocage de PerplexityBot Accomplit Réellement
Réponse rapide : Un blocage de PerplexityBot empêche le crawler déclaré d'indexer directement votre contenu lors des futurs cycles d'exploration. Il n'empêche pas Perplexity de référencer du contenu déjà indexé, d'accéder à votre contenu via des sources tierces, ni de faire remonter des synthèses dans les résultats de recherche IA par des canaux autres que l'exploration directe.
C'est la limite que la controverse de 2024 a mise en lumière. Robots.txt empêche un crawler spécifique de faire de nouvelles requêtes. Il ne purge pas le contenu déjà indexé de la base de connaissances d'un produit de recherche, et il n'empêche pas l'acquisition de contenu via des canaux alternatifs que le crawler lui-même n'utilise pas directement.
Pour les organisations ayant des exigences strictes (contenu payant, recherche propriétaire, matériel sous licence), la combinaison de robots.txt, du blocage d'IP, d'une clause juridique dans les conditions d'utilisation et d'une protection technique du contenu telle que les murs d'authentification et le rendu dynamique offre une posture de protection plus complète que n'importe quelle approche isolée.






