Blog Attacks

Comment Bloquer GPTBot (et Pourquoi Vous Ne Devriez Peut-Être Pas)

GPTBot explore votre site pour entraîner les modèles d'OpenAI. Voici comment le bloquer via robots.txt et plages d'IP, et ce qui échappe encore au blocage.

Jun 24, 2026 • 8 min read

Mike Kutlu Client-Side Security Consultant

Comment Bloquer GPTBot (et Pourquoi Vous Ne Devriez Peut-Être Pas)

GPTBot est le robot d'entraînement d'OpenAI. Il visite des pages web publiques, en collecte le contenu et utilise ce contenu pour entraîner les futures versions de ChatGPT et d'autres modèles d'OpenAI. Il est distinct d'OpenAI Operator (qui effectue des transactions) et d'OAI-SearchBot (qui propulse la navigation en direct de ChatGPT). Comprendre quel système d'OpenAI visite votre site détermine la réponse appropriée.

Bloquer GPTBot avec robots.txt est simple et largement documenté. La question la plus importante est de savoir si bloquer le robot change ce que les agents d'OpenAI peuvent faire sur votre site, et la réponse, pour les agents transactionnels comme Operator, est non. Pour le schéma plus large applicable aux scrapers IA, consultez notre guide pour bloquer les bots d'agents IA qui scrapent le contenu.

Qu'est-ce que GPTBot ?

Réponse rapide : GPTBot est un robot d'exploration web déclaré, exploité par OpenAI. Son objectif est de collecter du contenu web accessible au public pour l'entraînement de modèles d'IA. Il s'identifie au moyen d'une chaîne d'agent utilisateur connue et opère à partir de plages d'IP publiées. OpenAI indique que GPTBot respecte les directives robots.txt.

La chaîne d'agent utilisateur de GPTBot :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot)

OpenAI publie les plages d'IP actuelles de GPTBot dans sa documentation sur les robots. Le robot visite les pages, lit le contenu textuel et n'exécute pas JavaScript de la même manière qu'un vrai navigateur. C'est un robot d'exploration HTTP traditionnel, et non un agent interactif.

Comment Bloquer GPTBot avec robots.txt

Réponse rapide : Ajoutez GPTBot à votre robots.txt avec une directive Disallow: / pour le bloquer sur l'ensemble de votre site. OpenAI indique qu'il respecte ces directives. Pour un contrôle au niveau des chemins, utilisez des règles Disallow spécifiques afin de restreindre l'accès aux sections sensibles tout en autorisant GPTBot sur le contenu public.

Pour bloquer GPTBot sur l'ensemble de votre site :

User-agent: GPTBot
Disallow: /

Pour bloquer GPTBot uniquement sur certains chemins :

User-agent: GPTBot
Disallow: /private/
Disallow: /checkout/
Disallow: /account/
Allow: /blog/
Allow: /products/

OpenAI respecte ces directives pour le robot GPTBot déclaré. Il n'existe aucun mécanisme d'application technique ; robots.txt est une déclaration que les robots conformes choisissent de suivre. Mais GPTBot affiche une solide réputation de conformité par rapport à certains autres robots d'exploration IA, publiquement critiqués pour avoir ignoré les directives robots.txt. La même approche robots.txt fonctionne pour d'autres robots déclarés, notamment CCBot.

Blocage au Niveau de l'IP pour GPTBot

Réponse rapide : OpenAI publie les plages d'IP de GPTBot, que vous pouvez refuser au niveau de votre pare-feu ou de votre CDN. Cela ajoute une couche d'application au-delà de robots.txt. Elle n'exige pas que le robot s'auto-identifie, ce qui la rend plus fiable que la seule correspondance d'agent utilisateur.

Si vous avez besoin d'une application ferme plutôt que d'une déclaration, ajoutez les plages d'IP publiées de GPTBot à votre liste de blocage au niveau de l'infrastructure. C'est l'approche la plus fiable pour le contenu à forte valeur, car :

Elle ne dépend pas du fait que le robot respecte robots.txt
Elle intercepte les versions de GPTBot mal configurées ou plus anciennes qui pourraient ne pas lire correctement votre robots.txt
Elle fournit un journal au niveau du serveur que vous pouvez auditer

Les plages d'IP publiées par OpenAI changent périodiquement, cette liste de blocage nécessite donc une maintenance. Consultez la documentation d'OpenAI sur les robots pour obtenir la liste à jour.

Pourquoi Bloquer GPTBot Ne Suffit Pas

Réponse rapide : GPTBot est le robot d'entraînement d'OpenAI. Le bloquer n'a aucun effet sur OpenAI Operator (l'agent transactionnel), OAI-SearchBot (l'assistant de navigation en direct), ni sur aucun futur système agentique d'OpenAI. Chacun opère indépendamment, avec des agents utilisateurs, des plages d'IP et des profils comportementaux différents.

C'est la distinction que la plupart des ingénieurs manquent. Un propriétaire de site qui bloque GPTBot croit généralement avoir réglé « l'accès d'OpenAI à son contenu ». Il a réglé le cas d'un seul système d'OpenAI parmi plusieurs. Operator, la navigation en direct de ChatGPT et les futurs produits agentiques sont des systèmes distincts que le blocage de GPTBot ne touche pas.

Le problème plus profond est que GPTBot est un robot coopératif et déclaré. Vous pouvez le bloquer parce qu'OpenAI vous indique à quoi il ressemble. Les agents les plus perturbateurs (non déclarés, basés sur un navigateur, transactionnels) sont ceux qui ne s'identifient pas et ne respectent pas robots.txt de manière significative. Bloquer GPTBot traite la menace visible et coopérative tout en laissant de côté les menaces invisibles et non coopératives. La même lacune structurelle s'applique à d'autres systèmes agentiques, notamment OpenAI Operator.

Ce qu'Apporte la Détection au Niveau du Navigateur

Réponse rapide : GPTBot lui-même ne nécessite pas de détection au niveau du navigateur, il est visible au niveau du réseau. Mais les agents qui suivent le travail de GPTBot (ChatGPT Operator, agents de shopping agentiques) ne le sont pas. La détection au niveau du navigateur comble l'écart entre les robots que vous pouvez voir et les agents que vous ne pouvez pas voir.

cside n'est pas principalement nécessaire pour détecter GPTBot. Vous pouvez le bloquer avec deux lignes de robots.txt. cside s'attaque aux agents qui opèrent à l'intérieur de vraies sessions de navigateur : ceux qui exécutent JavaScript, interagissent avec votre interface et créent des sessions qui ressemblent en tout point à de véritables utilisateurs humains au niveau du réseau.

Les signaux que cside observe (timing des interactions, cohérence des empreintes, modèles de navigation, cadence comportementale) sont sans intérêt pour un simple robot d'exploration HTTP comme GPTBot. Ils sont essentiels pour détecter Operator, les acheteurs agentiques et les sessions automatisées non déclarées que robots.txt ne peut pas arrêter. Lors des tests contrôlés de cside, les outils traditionnels ont raté des agents IA opérant dans de vraies sessions de navigateur dans 81 scénarios sur 100.

Tableau de bord de détection d'agents IA de cside

Considérez à quoi cela ressemble en pratique. Une session OpenAI Operator visant un site de vente au détail ne s'annonce dans aucun en-tête. Elle lance un navigateur basé sur Chromium, charge la page avec une exécution complète de JavaScript, accepte les cookies, parcourt l'arborescence des catégories à un rythme de lecture plausible, ajoute des articles au panier et passe au checkout. Au niveau du réseau, chaque signal ressemble à celui d'un client connecté : l'IP appartient à un pool de proxys résidentiels, l'empreinte TLS correspond à une version de navigateur actuelle et le cookie de session est valide.

Ce qui change, c'est le comportement de sous-couche : les événements de pointeur arrivent avec un espacement d'une précision machine, la profondeur de défilement progresse par intervalles de pixels constants et la distribution du temps passé sur chaque page produit se concentre sur une valeur bien plus étroite que celle produite par toute population humaine de navigation. L'instrumentation de cside au niveau du navigateur capture ces signaux et fait remonter la session comme automatisée avant d'atteindre le checkout. Un WAF, une règle de CDN ou un filtre d'agent utilisateur ne voit rien d'anormal. La même approche s'applique aux scrapers de contenu IA non déclarés et aux autres robots qui imitent de vrais navigateurs.

Devriez-Vous Bloquer GPTBot ?

Réponse rapide : Cela dépend de votre relation avec les produits d'OpenAI. Bloquer GPTBot empêche votre contenu d'être utilisé pour entraîner les futurs modèles. Cela n'empêche pas ChatGPT de référencer votre site via la navigation en direct, et cela n'empêche pas Operator d'effectuer des transactions sur votre site. Réfléchissez à ce que vous cherchez réellement à accomplir avant de décider.

Raisons de bloquer GPTBot :

Vous ne voulez pas que votre contenu propriétaire figure dans les jeux de données d'entraînement d'OpenAI
Vous avez des préoccupations concurrentielles quant à la mise en avant de votre contenu via les réponses de ChatGPT
Vos conditions d'utilisation restreignent explicitement la collecte automatisée de données pour l'entraînement d'IA

Raisons de ne pas le bloquer (ou d'y réfléchir attentivement d'abord) :

Votre contenu bénéficie déjà des citations de ChatGPT dans les résultats de recherche et les réponses IA
Vous voulez que votre marque et vos produits soient bien représentés dans la base de connaissances de ChatGPT
Les futurs systèmes de shopping agentiques entraînés sur les données de vos produits pourraient générer du trafic de référence

Les implications SEO et GEO du blocage des robots d'exploration IA sont encore en cours de définition par le secteur. Un site qui bloque aujourd'hui tous les robots d'entraînement IA pourrait voir demain ses produits absents des systèmes de recommandation pilotés par l'IA.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

GPTBot est le robot d'exploration web d'OpenAI, qui collecte du contenu web accessible au public pour entraîner des modèles d'IA, dont les futures versions de ChatGPT. Il s'identifie au moyen d'une chaîne d'agent utilisateur connue, opère à partir de plages d'IP publiées et est conçu pour respecter les directives `robots.txt`. C'est un robot d'exploration HTTP qui n'exécute pas JavaScript et n'interagit pas avec les interfaces des applications web.

Ajoutez `User-agent: GPTBot` suivi de `Disallow: /` à votre fichier `robots.txt` pour bloquer GPTBot sur l'ensemble de votre site. Pour un contrôle au niveau des chemins, utilisez des règles `Disallow` spécifiques afin de restreindre l'accès aux sections sensibles. OpenAI a déclaré que GPTBot respecte ces directives.

Non. GPTBot et OpenAI Operator sont des systèmes distincts. Bloquer GPTBot empêche le robot d'entraînement de visiter votre site. Cela n'a aucun effet sur Operator, l'assistant de navigation en direct de ChatGPT, ni sur les autres produits agentiques d'OpenAI. Ces systèmes opèrent indépendamment, avec des agents utilisateurs et des profils comportementaux différents.

Oui. OpenAI publie les plages d'IP de GPTBot dans sa documentation sur les robots. Vous pouvez ajouter ces plages à la liste de refus de votre pare-feu ou de votre CDN pour une application qui ne dépend pas du fait que le robot lise correctement votre `robots.txt`. Ces plages d'IP changent périodiquement et nécessitent une maintenance.

Bloquer GPTBot empêche votre contenu d'être utilisé lors des futurs cycles d'entraînement. Cela ne supprime pas le contenu déjà indexé avant l'ajout du blocage. La date de coupure des connaissances de ChatGPT et le moment des visites précédentes de GPTBot sur votre site déterminent ce que les modèles d'OpenAI connaissent déjà de votre contenu.

Surveillez et sécurisez vos scripts tiers

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Réserver une démonstration

Commencez gratuitement

Commencez gratuitement, ou essayez Business avec un essai de 14 jours.

cside Interface du tableau de bord affichant la surveillance des scripts et les analyses de sécurité

Comment détecter et prévenir le partage de compte sans nuire aux utilisateurs légitimes

La principale objection à la détection du partage de compte est les faux positifs : que se passe-t-il si nous signalons un abonné qui utilise…

Comment Bloquer GPTBot (et Pourquoi Vous Ne Devriez Peut-Être Pas)

GPTBot explore votre site pour entraîner les modèles d'OpenAI. Voici comment le bloquer via robots.txt et plages d'IP, et ce qui échappe encore au blocage.

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur les outils d’enregistrement de session et le risque d’exfiltration de PII

Outils de session recording sur les sites de jeux d'argent : le risque d'exfiltration de données personnelles que les opérateurs ignorent

Mal configurés ou compromis, les outils de session recording peuvent exfiltrer les données personnelles des joueurs. Voici les trois modes.

Détection du partage de compte : comment combler la lacune d'application que les limites de sessions simultanées manquent

Les limites de sessions simultanées signalent le cas évident.

Une trajectoire de curseur bleue lumineuse et fluide à côté d'une trajectoire de bot rouge et anguleuse sur un plan sombre.

Attraper les bots à leur façon de bouger : détection comportementale du curseur

Comment le modèle cursor_v2 de cside note le mouvement de la souris pour attraper les bots furtifs qui passent déjà les contrôles de fingerprint et d'IP.

Comment Bloquer Applebot-Extended sur Votre Site Web

Applebot-Extended est le crawler d'entraînement IA d'Apple qui alimente Apple Intelligence. Découvrez comment il diffère d'Applebot et comment vous désinscrire via robots.txt.

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur la surveillance des scripts tiers sur des domaines de casino

Comment surveiller les scripts tiers sur 100 domaines de casino ou plus

Guide pratique pour surveiller les scripts tiers sur 100+ domaines de casino : prolifération, alertes inter-domaines et mise à l'échelle de cside.

Risques de sécurité de l'IA agentique pour les sites web : confidentialité, conformité et détection

Les navigateurs d'IA agentique contournent le consentement aux cookies, exécutent de vrais scripts JavaScript et créent des lacunes de conformité RGPD invisibles pour la détection de bots au niveau CDN.

Illustration d'un système neuronal de détection de bots en deux étapes séparant les sessions de navigateur humaines et celles des bots

Attraper les bots qui ne veulent pas l'être : au cœur d'une pile de détection neuronale à deux étages

Comment une pile neuronale à deux étages attrape navigateurs furtifs, scrapers résidentiels et agents LLM qui déjouent l'empreinte, et ses limites.

Comment Bloquer DeepSeekBot sur Votre Site Web

DeepSeekBot explore votre site pour une entreprise d'IA chinoise. Découvrez comment le bloquer avec robots.txt, des règles d'IP, et les vrais risques de souveraineté des données qu'il pose.