Skip to main content
Blog
Blog Attacks

Comment Bloquer PerplexityBot sur Votre Site Web

PerplexityBot explore votre contenu pour la recherche IA. Voici comment le bloquer, pourquoi il a essuyé des critiques sur le droit d'auteur, et en quoi Perplexity Shopper diffère.

Jun 25, 2026 7 min read
Comment Bloquer PerplexityBot sur Votre Site Web

PerplexityBot est le crawler web déclaré qui alimente le moteur de recherche IA de Perplexity. Lorsqu'un utilisateur interroge Perplexity, les résultats de recherche s'appuient sur le contenu que PerplexityBot a indexé. En 2024, plusieurs éditeurs ont signalé que Perplexity reproduisait du contenu protégé par le droit d'auteur issu de leurs sites dans les résultats de recherche, et ce malgré des blocages robots.txt, ce qui en fait l'un des crawlers IA les plus controversés à bloquer.

Ce guide traite spécifiquement de PerplexityBot. Si vous cherchez à contrôler le shopping agent de Perplexity, consultez notre article complémentaire sur comment bloquer Perplexity Shopper, car il exige une approche entièrement différente. Pour le schéma plus large applicable aux crawlers déclarés, consultez notre guide pour bloquer les scrapers de contenu IA.


Qu'est-ce que PerplexityBot ?

Réponse rapide : PerplexityBot est le crawler de recherche IA de Perplexity. Il indexe le contenu web pour alimenter les résultats de recherche générés par l'IA de Perplexity. Il s'identifie au moyen d'une chaîne de user-agent déclarée et est documenté sur docs.perplexity.ai. En 2024, il a essuyé d'importantes critiques de la part des éditeurs en raison d'un non-respect apparent de robots.txt et d'une reproduction de contenu sans attribution suffisante.

Le user-agent de PerplexityBot : PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)

La controverse de 2024 constitue un contexte pertinent pour votre décision de blocage. Plusieurs grands éditeurs, dont des médias et des organes de presse, ont signalé que Perplexity faisait remonter des reproductions détaillées de leur contenu payant ou restreint par robots.txt dans ses réponses de recherche IA. Perplexity a contesté certaines de ces descriptions, mais l'épisode a établi que la conformité de PerplexityBot est plus activement contestée que celle de GPTBot ou de ClaudeBot.


La Controverse de Conformité de 2024

Réponse rapide : En 2024, Wired, The Atlantic et d'autres éditeurs ont signalé que Perplexity reproduisait du contenu de leurs sites dans les résultats de recherche IA, alors même qu'ils avaient Disallow: PerplexityBot dans leur robots.txt. Les explications de Perplexity à l'époque étaient incohérentes, ce qui a conduit plusieurs éditeurs à prendre des mesures techniques et juridiques supplémentaires.

La préoccupation précise ne portait pas seulement sur l'exploration, mais sur la synthèse et la reproduction. Même si PerplexityBot respectait robots.txt pour son exploration directe, Perplexity pouvait accéder au même contenu et le résumer par d'autres moyens : copies en cache, sources de données tierces ou infrastructure de navigation en direct. Le résultat net, du point de vue des éditeurs, était que leur contenu apparaissait dans les réponses de Perplexity quels que soient leurs paramètres robots.txt.

Cela ne signifie pas que le blocage par robots.txt est inutile pour PerplexityBot. Cela signifie que la portée de ce que robots.txt peut accomplir face à un produit de recherche disposant de plusieurs canaux d'acquisition de contenu est limitée. Le blocage au niveau de l'IP et une surveillance active offrent une application plus fiable.


Comment Bloquer PerplexityBot avec robots.txt

Réponse rapide : Ajoutez PerplexityBot à votre robots.txt. Compte tenu de la controverse de conformité de 2024, mettez également en place un blocage au niveau de l'IP et envisagez d'ajouter à vos conditions d'utilisation une clause juridique restreignant explicitement la collecte de données d'entraînement IA et la synthèse par recherche IA.

Pour bloquer PerplexityBot sur l'ensemble de votre site :

User-agent: PerplexityBot
Disallow: /

Pour un contrôle au niveau des chemins :

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/

Compte tenu de la controverse de 2024, considérez robots.txt comme une déclaration d'intention plutôt que comme un contrôle technique strict pour PerplexityBot. La même approche par crawler déclaré est plus fiable pour les crawlers ayant un historique de conformité plus propre, comme CCBot.


Blocage au Niveau de l'IP

Réponse rapide : Perplexity publie les plages d'IP de PerplexityBot dans sa documentation. Refuser ces plages au niveau du pare-feu ou du CDN fournit une application indépendante du fait que le crawler lise ou non robots.txt. Pour les éditeurs ou les sites à fort volume de contenu, le blocage d'IP est l'approche la plus fiable au vu de l'historique de conformité.

Repérez les plages d'IP actuelles de Perplexity dans sa documentation officielle sur docs.perplexity.ai. Ajoutez-les aux règles de refus de votre pare-feu, de la configuration de votre edge CDN ou de votre reverse proxy. Réexaminez cette liste chaque trimestre, car les plages d'IP de l'infrastructure d'exploration s'étendent à mesure que le volume d'exploration augmente.


PerplexityBot vs. Perplexity Shopper : une Distinction Cruciale

Réponse rapide : PerplexityBot (le crawler d'indexation) et Perplexity Shopper (l'agent transactionnel) sont des systèmes distincts. Bloquer PerplexityBot n'affecte pas Perplexity Shopper. Shopper utilise une véritable session de navigateur avec un user-agent Chrome standard. Il nécessite une détection au niveau du navigateur, et non un blocage par robots.txt.

SystèmeObjectifUser-agentApproche de détection
PerplexityBotExplore et indexe le contenuPerplexityBot/1.0 (déclaré)robots.txt + blocage d'IP
Perplexity ShopperFinalise des achats pour les utilisateursChrome standard (non déclaré)Signaux comportementaux au niveau du navigateur

Les ingénieurs qui ajoutent PerplexityBot à robots.txt et considèrent le problème Perplexity comme résolu n'ont traité qu'un seul des deux systèmes. Perplexity Shopper reste invisible pour tout ce qui relève de l'approche par liste de blocage. Lors des tests contrôlés de cside, les outils traditionnels ont raté des agents IA opérant à l'intérieur de vraies sessions de navigateur dans 81 scénarios sur 100, et Shopper est exactement le type de session que ces outils manquent.

Tableau de bord de détection d'agents IA de cside

Voici à quoi cela ressemble en pratique : une session Perplexity Shopper chargée d'acheter un produit précis ouvre une véritable session Chrome, navigue vers la page de catégorie d'un détaillant, filtre selon la spécification demandée, sélectionne un produit et passe au checkout. Tous les signaux au niveau du réseau sont irréprochables : une IP résidentielle, un handshake TLS standard et une chaîne de user-agent Chrome indiscernable de celle d'un acheteur humain. L'indice comportemental se situe dans la couche du navigateur. L'agent parcourt le filtrage des produits en 3,2 secondes sans aucune variance du curseur, sélectionne le premier résultat éligible sans s'arrêter pour comparer les alternatives, et saisit les données d'adresse à un intervalle de frappe uniforme de 80 ms sans la moindre correction. L'instrumentation de cside capture ces anomalies au niveau de l'interaction avant que tout événement de checkout ne se déclenche, offrant aux opérateurs une visibilité que la couche réseau ne fournit jamais.


Ce que le Blocage de PerplexityBot Accomplit Réellement

Réponse rapide : Un blocage de PerplexityBot empêche le crawler déclaré d'indexer directement votre contenu lors des futurs cycles d'exploration. Il n'empêche pas Perplexity de référencer du contenu déjà indexé, d'accéder à votre contenu via des sources tierces, ni de faire remonter des synthèses dans les résultats de recherche IA par des canaux autres que l'exploration directe.

C'est la limite que la controverse de 2024 a mise en lumière. Robots.txt empêche un crawler spécifique de faire de nouvelles requêtes. Il ne purge pas le contenu déjà indexé de la base de connaissances d'un produit de recherche, et il n'empêche pas l'acquisition de contenu via des canaux alternatifs que le crawler lui-même n'utilise pas directement.

Pour les organisations ayant des exigences strictes (contenu payant, recherche propriétaire, matériel sous licence), la combinaison de robots.txt, du blocage d'IP, d'une clause juridique dans les conditions d'utilisation et d'une protection technique du contenu telle que les murs d'authentification et le rendu dynamique offre une posture de protection plus complète que n'importe quelle approche isolée.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

PerplexityBot est le crawler web de Perplexity qui indexe le contenu pour son moteur de recherche IA. Lorsque les utilisateurs interrogent Perplexity, les réponses générées par l'IA s'appuient sur le contenu collecté par PerplexityBot. En 2024, plusieurs éditeurs ont signalé des problèmes de conformité : leur contenu pourtant restreint par robots.txt apparaissait dans les réponses de Perplexity malgré un blocage explicite du bot.

Ajoutez `User-agent: PerplexityBot` suivi de `Disallow: /` à votre fichier `robots.txt`. Compte tenu de la controverse de conformité de 2024, complétez cette mesure par un blocage au niveau de l'IP en utilisant les plages d'IP publiées par Perplexity dans sa documentation sur les crawlers. Considérez `robots.txt` comme une déclaration d'intention plutôt que comme un contrôle technique strict pour ce crawler en particulier.

Plusieurs éditeurs ont signalé en 2024 que Perplexity faisait remonter des résumés détaillés de leur contenu dans les résultats de recherche IA, malgré des règles robots.txt bloquant PerplexityBot. Perplexity a contesté certains aspects de ces signalements. L'épisode a été documenté par Wired, The Atlantic et d'autres médias, et il a établi que la conformité de PerplexityBot est plus activement contestée que celle de la plupart des autres grands crawlers IA.

PerplexityBot est un crawler d'indexation doté d'un user-agent déclaré. Perplexity Shopper est un agent transactionnel qui utilise une véritable session de navigateur et présente un user-agent Chrome standard. Bloquer PerplexityBot n'a aucun effet sur Perplexity Shopper. Les sessions de Shopper nécessitent une détection comportementale au niveau du navigateur pour être identifiées et contrôlées.

Les stratégies juridiques varient selon la juridiction et le type de contenu concerné. Ajouter à vos conditions d'utilisation une clause explicite interdisant la collecte de données d'entraînement IA et la synthèse par recherche IA crée une base légale pour faire valoir vos droits, en complément du blocage technique. Sur la période 2024-2025, des éditeurs ont engagé des recours fondés à la fois sur les conditions d'utilisation et sur le droit d'auteur. C'est un domaine juridique en pleine évolution, et les conseils précis dépendent de la juridiction et du type de contenu.

Surveillez et sécurisez vos scripts tiers

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Commencez gratuitement, ou essayez Business avec un essai de 14 jours.

cside Interface du tableau de bord affichant la surveillance des scripts et les analyses de sécurité
Related Articles
Réserver une démonstration