Skip to main content
Blog
Blog Attacks

Comment Détecter et Bloquer les Agents IA Inconnus sur Votre Site Web

Les agents IA inconnus n'ont pas de user-agent et ignorent robots.txt. Découvrez les signaux du navigateur qui révèlent les agents non déclarés et comment agir.

Jun 27, 2026 10 min read
Comment Détecter et Bloquer les Agents IA Inconnus sur Votre Site Web

Les crawlers IA déclarés (GPTBot, ClaudeBot, PerplexityBot) sont les plus faciles. Ils s'identifient. Vous pouvez les bloquer avec deux lignes de robots.txt si vous le souhaitez. Ils représentent la partie du problème des agents IA qui est déjà résolue.

Le problème plus difficile, ce sont les agents inconnus : des systèmes IA qui visitent votre site sans déclarer leur identité, s'exécutant dans de vrais navigateurs, utilisant des user-agents standards et se comportant d'une manière qui ressemble à du trafic humain jusqu'à ce que vous examiniez attentivement les signaux au niveau de la session. Lors des tests contrôlés de cside, les outils traditionnels ont raté des agents IA opérant dans de vraies sessions de navigateur dans 81 scénarios sur 100, ce qui montre l'ampleur de la lacune de visibilité pour les agents non déclarés. Pour le schéma plus large, consultez notre guide pour détecter le trafic d'agents IA sur votre site web.


Ce qui Rend un Agent IA « Inconnu »

Réponse rapide : Les agents IA inconnus sont des systèmes automatisés qui ne déclarent pas leur identité via des chaînes de user-agent ou d'autres signaux conventionnels. Ils opèrent au travers de vraies sessions de navigateur, utilisent des user-agents Chrome ou Firefox standards et sont fonctionnellement invisibles pour les outils de détection au niveau du réseau qui reposent sur l'inspection des en-têtes et la correspondance d'IP.

Cette catégorie comprend :

  • Les agents d'entreprise sur mesure : des entreprises qui construisent des outils IA internes pour naviguer sur les sites de leurs concurrents, vérifier les prix ou surveiller les stocks, souvent bâtis sur des frameworks comme LangChain, AutoGPT ou Playwright sans aucune auto-identification
  • Les agents de recherche et d'analyse : des systèmes IA exécutant des tâches d'intelligence concurrentielle ou de collecte de données qui évitent délibérément l'identification pour ne pas être bloqués
  • Les agents malveillants : des outils de fraude, des systèmes de scraping et des infrastructures d'attaque automatisées qui utilisent l'automatisation de navigateur propulsée par l'IA pour échapper à la détection
  • Les produits IA tiers : des outils IA grand public et professionnels qui utilisent une vraie automatisation de navigateur sans publier de documentation de crawler ni de plages d'IP

Le point commun est l'absence d'auto-déclaration. Aucune règle robots.txt n'arrête un système qui ne s'identifie pas.


Pourquoi robots.txt et le Blocage d'IP n'Aident Pas

Réponse rapide : robots.txt ne contrôle que les user-agents déclarés. Un agent qui présente un user-agent Chrome standard n'a aucune règle robots.txt applicable. Le blocage d'IP basé sur des plages publiées intercepte les crawlers qui s'identifient ; il est inutile contre les agents qui utilisent des residential proxies, des IP rotatives ou une infrastructure cloud partagée avec des utilisateurs légitimes.

Le problème structurel de la détection basée sur les en-têtes est qu'elle a été conçue pour un monde où les systèmes automatisés s'identifiaient. Les crawlers de moteurs de recherche suivaient la convention parce qu'elle était mutuellement bénéfique. Les agents IA opérant pour l'intelligence concurrentielle, la fraude ou la collecte de données n'ont aucune incitation à s'identifier, et beaucoup ont de bonnes raisons de ne pas le faire.

Les outils au niveau du réseau voient la même chose pour un agent IA inconnu et un visiteur humain : une requête de navigateur Chrome provenant d'une adresse IP plausible avec des en-têtes HTTP standards. La différence entre les deux est comportementale, et le comportement n'est visible qu'à l'intérieur de la session. La même lacune s'applique même aux produits déclarés dès qu'ils deviennent agentiques, comme nous l'expliquons dans notre guide pour bloquer les agents IA sur votre site web.


L'Empilement des Signaux au Niveau du Navigateur

Réponse rapide : Les agents IA inconnus se révèlent au travers de signaux comportementaux à l'intérieur de la session du navigateur : timing des interactions, modèles de navigation, caractéristiques d'empreinte, anomalies d'exécution JavaScript et séquençage des requêtes réseau. Ces signaux sont cohérents d'un type d'agent à l'autre parce que les sessions de navigateur exécutées par une machine produisent des modèles systématiquement différents de celles exécutées par un humain.

Les signaux clés qui révèlent les agents inconnus :

Modèles de timing Les utilisateurs humains ont un timing d'interaction variable et imprécis. Ils font des pauses entre les actions, prennent un temps irrégulier pour lire le contenu et déplacent le curseur sur des trajectoires non linéaires. Les sessions d'agents s'exécutent avec une précision de machine ou quasi machine : intervalles inter-actions constants, réponses immédiates aux événements de chargement de page, aucune pause de lecture.

Caractéristiques d'empreinte Une véritable session Chrome humaine accumule un état d'empreinte complexe : cookies de sessions antérieures, artefacts d'extensions, ressources mises en cache, variations de rendu des polices liées à la configuration de l'OS de l'utilisateur. Les sessions d'agents présentent généralement des empreintes propres, à l'état par défaut, sans ce contexte accumulé. Une forte propreté d'empreinte dans une nouvelle session est en soi un signal.

Logique de navigation La navigation humaine est non linéaire. Les utilisateurs parcourent des catégories, reviennent en arrière, comparent des produits, revisitent des pages. La navigation d'un agent suit une logique de tâche : des chemins directs du point d'entrée vers la page cible, aucune exploration ni retour en arrière sauf si la tâche l'exige, une interaction uniquement avec les éléments nécessaires à l'accomplissement de la tâche.

Contexte d'exécution JavaScript Les vraies sessions de navigateur exécutent JavaScript dans un environnement façonné par le matériel de l'utilisateur, les polices installées, la résolution d'écran et la configuration du navigateur. Les frameworks d'automatisation produisent des écarts mesurables par rapport à l'exécution JavaScript d'un vrai navigateur : des incohérences subtiles de timing, de rendu canvas, de comportement WebGL et de sorties du contexte audio que les techniques de fingerprinting peuvent identifier.

Modèles de requêtes réseau La navigation humaine génère des requêtes réseau façonnées par l'historique de navigation, les ressources mises en cache et une navigation non linéaire. Les sessions d'agents génèrent des modèles de requêtes façonnés par une logique de tâche, ce qui est structurellement différent même lorsque les requêtes individuelles paraissent normales.


Ce que cside Intercepte et que les Outils Réseau Ratent : un Scénario Concret

Réponse rapide : L'agent d'intelligence tarifaire d'un concurrent visite la page catalogue d'un détaillant toutes les quatre heures. Il présente un user-agent Chrome standard, provient d'une IP résidentielle et passe toutes les vérifications d'en-têtes. Les outils réseau ne voient rien d'inhabituel. Voici ce qui se passe à l'intérieur de la session du navigateur, et ce que cside observe.

L'agent charge la page de catégorie et fait une pause de 1,2 seconde, un délai délibéré pour imiter un temps de lecture. Il fait ensuite défiler la page jusqu'en bas en un seul balayage linéaire à vitesse constante, sans accélération ni décélération. La position du curseur ne bouge pas entre les événements de défilement. L'agent parcourt 47 pages produit en 8 minutes, chaque visite suivant le même modèle : chargement, pause de 0,8 seconde, collecte des valeurs des champs de prix et de stock, navigation vers l'URL suivante dans l'ordre. Aucune logique de comparaison, aucune interaction avec les filtres, aucun retour en arrière.

cside observe trois signaux convergents : une régularité des événements de défilement hors de la variance humaine, une empreinte propre à l'état par défaut sans cookies de session antérieure, et un graphe de navigation montrant un parcours purement séquentiel sans ramification exploratoire. Ces signaux sont invisibles au niveau du réseau. Ils ne sont visibles qu'à l'intérieur de la session de navigateur en cours d'exécution, là où cside opère. La session est classée comme agent d'intelligence tarifaire et soumise à un rate limiting au cours du même cycle de requête.

Tableau de bord de détection d'agents IA de cside

cside fait remonter les agents nommés et non nommés dans un tableau de bord en temps réel avec un détail au niveau de la session, y compris le profil de signaux comportementaux qui a déclenché chaque classification.


Réponse Graduée : Que Faire Lorsque Vous en Détectez Un

Réponse rapide : La détection d'un agent inconnu vous donne une classification, et non automatiquement une décision. La réponse appropriée dépend de ce que l'agent semble faire. Une session présentant des signaux à faible risque peut être surveillée. Une session présentant des signaux de fraude justifie un blocage. Le scraping automatisé de contenu justifie un rate limiting. L'objectif est une réponse proportionnée, et non un choix binaire entre bloquer ou autoriser.

Un cadre de réponse concret :

Ensemble de signauxType d'agent probableRéponse recommandée
Empreinte propre, navigation linéaire, aucune interaction avec les formulairesAgent d'indexation/rechercheSurveiller, limiter le débit d'accès au catalogue
Empreinte propre, parcours du chemin de checkout, timing machineCommerce agentique/shoppingImposer un défi au checkout, signaler pour examen
Remplissage rapide de formulaires, comptes multiples, modèles de test de paiementAutomatisation de fraudeBloquer, journaliser pour enquête
Téléchargement de contenu en masse, aucune interaction avec les éléments d'interfaceContent scraperLimiter le débit, ajouter des murs d'authentification sur le contenu de valeur
Modèles de création de compte, inscription rapideCréation de faux comptesImposer un défi, exiger une vérification téléphonique

Le bon outil pour mettre en œuvre ces réponses exige une visibilité au niveau de la session. La même logique alimente des playbooks plus ciblés, comme notre guide pour bloquer OpenAI Operator, où un produit déclaré navigue malgré tout au travers d'une vraie session non déclarée.


Établir une Référence de Base

Réponse rapide : Vous ne pouvez pas identifier un comportement d'agent inhabituel sans une référence de base de ce à quoi ressemble le trafic normal. Commencez par la surveillance et la classification avant d'ajouter des règles de blocage. Une semaine de données de session révèle le volume, les modèles et l'origine du trafic d'agents que vous ne verriez jamais à partir des seuls journaux serveur.

La plupart des organisations qui déploient pour la première fois une surveillance au niveau du navigateur sont surprises par la quantité de trafic d'agents déjà présente sur leurs sites. Ahrefs a constaté que 63 % des sites web recevaient déjà du trafic via des interfaces de chatbot IA début 2025. Une fraction significative de ce trafic implique des systèmes automatisés qui ne se déclarent pas.

Bloquer sans référence de base risque d'annuler des sessions légitimes. Comprendre votre trafic d'agents avant d'agir conduit à de meilleures décisions de politique et permet de repérer les modèles qui suggèrent une activité coordonnée ou en escalade avant qu'elle ne cause des dommages. Si vous évaluez où cette capacité devrait résider, notre comparatif des meilleures plateformes de gestion de la confiance des bots et agents couvre la catégorie que Forrester a renommée Bot and Agent Trust Management Software au T4 2025.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

Les agents IA inconnus sont des systèmes automatisés qui ne déclarent pas leur identité via des chaînes de user-agent ou d'autres signaux conventionnels. Ils opèrent au travers de vraies sessions de navigateur en utilisant des user-agents standards, ce qui les rend invisibles pour les outils de détection au niveau du réseau. Ils sont détectables grâce à des signaux comportementaux à l'intérieur de la session du navigateur : modèles de timing, caractéristiques d'empreinte, logique de navigation et anomalies d'exécution JavaScript.

Non. robots.txt ne contrôle que les agents qui déclarent leur identité via des chaînes de user-agent. Un agent inconnu présentant un user-agent Chrome standard n'a aucune règle robots.txt applicable. Les agents inconnus sont conçus pour opérer sans auto-déclaration, ce qui rend robots.txt inopérant pour les contrôler.

Les signaux clés incluent la précision du timing des interactions, la propreté de l'empreinte dans les nouvelles sessions, la navigation linéaire vers le contenu cible, les anomalies d'exécution JavaScript et le séquençage des requêtes réseau dicté par une logique de tâche plutôt que par une navigation humaine. Ces signaux diffèrent systématiquement des modèles de session humaine et ne sont observables qu'à l'intérieur de la session du navigateur.

Un cadre de réponse graduée fondé sur la confiance du signal réduit les faux positifs. Les signaux à faible confiance justifient une surveillance. Les signaux à confiance moyenne justifient des défis comme un CAPTCHA ou une vérification de compte. Seuls les signaux à forte confiance assortis d'indicateurs de fraude justifient des blocages stricts. Il est essentiel de commencer par la surveillance et la classification avant d'ajouter des règles de blocage.

Ahrefs a constaté que 63 % des sites web recevaient déjà du trafic via des interfaces de chatbot IA début 2025. Une fraction importante de ce trafic provient de sessions automatisées qui ne s'identifient pas. La seule façon de connaître l'exposition spécifique de votre site est une surveillance au niveau du navigateur qui classe les sessions par signaux comportementaux plutôt qu'en s'appuyant sur l'auto-déclaration.

Surveillez et sécurisez vos scripts tiers

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Commencez gratuitement, ou essayez Business avec un essai de 14 jours.

cside Interface du tableau de bord affichant la surveillance des scripts et les analyses de sécurité
Related Articles
Réserver une démonstration