Blog

Détection des agents IA et des bots : distinguer les humains, les bons bots et les agents malveillants

Une taxonomie de classification et un modèle d'application fondé sur l'intention pour séparer humains, bons bots et agents malveillants, puis décider quoi faire de chacun.

Jul 11, 2026 • 7 min read

Simon Wijckmans Founder & CEO

Détection des agents IA et des bots : distinguer les humains, les bons bots et les agents malveillants

Vous avez trois problèmes portant le même costume. Un humain qui lit votre page de paiement, un crawler de recherche qui l'indexe, et un navigateur furtif qui énumère des cartes volées contre elle peuvent tous présenter un user-agent Chrome plausible et une adresse IP résidentielle propre. Traitez-les comme un seul ensemble et vous bloquez du chiffre d'affaires ou laissez passer de la fraude.

La solution est une taxonomie et une décision : classer chaque session dans une classe connue, lire ce qu'elle essaie de faire, et associer cela à exactement une action : autoriser, surveiller, défier, servir du contenu pour agent, ou bloquer. Cet article est le cadre de classification et de décision. Pour les mécaniques de signal sous-jacentes, le guide pour détecter le trafic des agents IA couvre les signaux d'identité, de réseau, de navigateur et de comportement ; pour choisir un fournisseur, voyez comment choisir une solution de détection d'agents IA. Quand vous avez besoin de comprendre pourquoi les anciennes défenses ratent ce trafic, la détection de bots héritée à l'ère des agents IA explique l'écart.

Une taxonomie à cinq classes qui se traduit en action

« Bon bot contre mauvais bot » est trop grossier, car l'agent de shopping d'un consommateur est automatisé et bienvenu, tandis qu'un crawler de recherche est automatisé et bienvenu pour une raison complètement différente. Répartissez le trafic en cinq classes opérationnelles, chacune liée à une action par défaut :

Classe	Exemples	Intention	Action par défaut
Humain	Visiteurs réels, clients connectés	Naviguer, acheter, gérer son compte	Autoriser, surveiller le risque
Bon bot	Googlebot, GPTBot, ClaudeBot, PerplexityBot, bots d'API partenaires	Indexer du contenu, intégration déclarée	Autoriser, limiter le débit, vérifier l'identité
Automatisation neutre	Sondes de disponibilité, vérificateurs de liens, récupérateurs RSS/aperçus	Opérationnel, faible valeur, faible nuisance	Surveiller, limiter le débit
Agent IA grand public	Agents de shopping et de recherche agissant pour un véritable utilisateur	Accomplir une tâche pour le compte d'une personne	Autoriser ou servir du contenu pour agent
Agent malveillant	Scrapers, testeurs de cartes, bots d'abus de comptes, navigateurs furtifs	Extraire de la valeur ou commettre une fraude	Défier ou bloquer

La classe n'est pas figée pour une session. Un agent grand public qui parcourt des pages produits est dans la colonne « autoriser » jusqu'au moment où il commence à soumettre des formulaires de paiement à vitesse machine, à cet instant son intention, et donc sa classe, ont changé.

L'identité vous dit qui ; l'intention vous dit quoi faire

Les signaux d'identité répondent à « qui cela prétend-il être » : user-agent, nom de crawler déclaré, empreinte. Ils sont nécessaires et presque gratuits à falsifier. Un GPTBot autodéclaré peut être vérifié en recoupant l'IP de la requête avec les plages publiées du crawler, ce qui démasque les usurpateurs. Mais les classes dangereuses ne se déclarent jamais.

Les signaux d'intention répondent à « que fait cette session ». Ils vivent dans le comportement et dans le runtime, et ils sont bien plus coûteux à falsifier de façon convaincante :

navigator.webdriver activé, ou supprimé trop proprement, sur une session qui ressemble par ailleurs à un Chrome ordinaire.
Fuites CDP / Runtime : artefacts du Chrome DevTools Protocol (propriétés cdc_, nœuds d'accessibilité dépouillés) qui trahissent Playwright ou Puppeteer pilotant la page.
Dérive d'empreinte : contextes WebGL, Canvas et Audio qui ne racontent pas une histoire cohérente sur un seul appareil, ou qui mutent au fil d'une session.
Comportement de proxy résidentiel : une IP « grand public » dont le fuseau horaire, la langue et l'historique d'ASN ne concordent pas, et qui tourne d'une requête à l'autre.
Cadence des actions : une rafale de soumissions de cartes en quelques minutes relève de l'intention, pas de l'identité. Aucune chaîne user-agent ne vous l'apprendra ; la séquence des actions, si.

Vous classez en combinant identité et intention. Une session qui réussit chaque contrôle d'identité mais échoue sur le runtime et la cadence est exactement le cas d'agent malveillant que les outils axés réseau laissent passer.

Pourquoi cela compte davantage en 2026

La classe malveillante est devenue bon marché. Le rapport de recherche 2026 de cside sur la sécurité web indique que les installations de playwright-stealth ont été multipliées par environ 10 au cours de 2025, un indicateur fiable de la vitesse à laquelle l'automatisation anti-détection est passée d'une niche à un outillage d'attaque grand public. Rapport de recherche cside 2026

Dans le même temps, les classes bienvenues ont grossi. Les crawlers d'IA-search alimentent désormais une réelle découverte, et les agents de shopping grand public réalisent de vrais achats. Les deux extrémités de la taxonomie se sont donc étendues en même temps : plus d'automatisation que vous voulez autoriser, et plus d'automatisation construite spécifiquement pour y ressembler. Voilà pourquoi un détecteur binaire échoue : il n'a pas de colonne pour « automatisé et bienvenu ». Pour les mécaniques détaillées de la façon dont l'extrémité malveillante se dissimule, voyez les navigateurs furtifs et anti-détection, expliqués. Les mêmes signaux attrapent les attaques de credential stuffing qui frappent la connexion dès qu'un agent passe de la navigation à l'attaque de comptes.

Associez chaque classe à une seule action d'application

Une fois une session classée, l'application doit être déterministe. Cinq actions couvrent la taxonomie :

Autoriser : les humains et les bons bots vérifiés sur leurs chemins attendus. Journalisez et passez à autre chose.
Surveiller : l'automatisation neutre et toute session dont la classe reste ambiguë. Collectez des signaux, n'ajoutez pas encore de friction.
Défier / brider : les sessions qui tendent vers le malveillant. Ralentissez-les, renforcez la vérification, ou limitez le débit de l'action précise (connexion, paiement) plutôt que de tout le site.
Servir du contenu pour agent : un agent grand public connu sur un chemin où vous préférez guider plutôt que bloquer. Donnez-lui une vue conçue à cet effet ou une étape « contactez-nous » au lieu de divulguer des prix bruts à une session en forme de scraper.
Bloquer : intention malveillante confirmée comme l'énumération de cartes, le credential stuffing et les campagnes d'abus de comptes.

Deux règles gardent cela honnête. Cadrez les actions sur l'action, pas sur le visiteur : défiez la soumission du paiement, ne renvoyez pas un 403 sur la page d'accueil. Et prenez la décision par page : un navigateur furtif qui lit un article de blog est un cas de surveillance ; la même session sur votre coffre de cartes est un cas de blocage. Pour le manuel de l'extrémité bloquante, voyez comment bloquer les agents IA sur votre site web, et pour la variante de fraude au paiement, comment bloquer les agents IA de test de cartes.

Où la classification doit avoir lieu

Cette taxonomie ne fonctionne que si vous pouvez lire l'intention, et l'intention vit dans le navigateur. Les crawlers d'IA qui n'exécutent jamais de JavaScript ne déclenchent jamais votre analytique, ils sont donc invisibles pour GA4 et PostHog. Les agents grand public et malveillants font tourner de vrais navigateurs et paraissent humains pour ces mêmes outils. Aucune des deux extrémités n'est séparable à la couche analytique, et l'essentiel de la classe malveillante passe les contrôles de la couche réseau par conception : IP propre, user-agent valide, forme de requête plausible.

cside observe le runtime du navigateur en temps réel. Il capture l'appareil et la véritable IP, fait remonter les signaux d'automatisation et d'empreinte qui révèlent l'intention, signale les agents IA et les navigateurs furtifs à l'intérieur de la page, et expose ces signaux via une API pour que vous puissiez piloter la décision autoriser / surveiller / défier / servir / bloquer dans votre propre flux de travail. C'est la couche où un humain, un bon bot et un agent malveillant cessent enfin de se ressembler.

Pour aller plus loin sur cside

Founder & CEO Simon Wijckmans

Founder and CEO of cside. Previously a product manager on Cloudflare Page Shield (now Cloudflare Client-Side Security). Co-chair of the W3C Anti-Fraud Community Group and a Forbes 30 Under 30 honoree. Building accessible security against client-side attacks — web security is not an enterprise-only problem.

Back to top

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

Cinq classes opérationnelles couvrent l'essentiel du trafic : les humains, les bons bots que vous voulez (crawlers de recherche et d'IA, intégrations partenaires), l'automatisation neutre que vous tolérez (sondes de disponibilité, vérificateurs de liens), les agents IA grand public agissant pour un véritable utilisateur (agents de shopping et de recherche), et les agents malveillants (scrapers, testeurs de cartes, bots d'abus de comptes, navigateurs furtifs). Les classes comptent parce que chacune mérite une action d'application différente : les regrouper en « bot ou non » revient à jeter la décision que vous avez réellement besoin de prendre.

L'identité, c'est ce qu'une session prétend être : une chaîne user-agent, un nom de crawler déclaré, une empreinte. L'intention, c'est ce que la session essaie de faire à l'instant : lire un article, verrouiller du stock, énumérer des cartes, créer des comptes. L'identité est facile à falsifier et reste stable au fil d'une session ; l'intention se révèle par le comportement et change à mesure que la session passe de la navigation à une tentative de transaction. L'application doit s'appuyer sur l'intention, car c'est la chose qu'un attaquant ne peut pas falsifier gratuitement.

Parce que les bons bots et les agents IA grand public font désormais partie de votre trafic. Un blocage généralisé supprime les crawlers de recherche et d'IA-search qui alimentent la découverte, casse les intégrations partenaires, et repousse les agents de shopping qui réalisent de vrais achats pour de vrais clients. Cela détruit aussi votre propre visibilité : une fois que vous renvoyez un 403 à tout, vous cessez d'apprendre ce qui frappait réellement votre site. L'objectif est une politique qui autorise les classes utiles et réserve la friction aux classes nuisibles.

Surveillez et sécurisez vos scripts tiers

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Réserver une démonstration

Commencez gratuitement

Commencez gratuitement, ou essayez Business avec un essai de 14 jours.

cside Interface du tableau de bord affichant la surveillance des scripts et les analyses de sécurité

Comment détecter et prévenir le partage de compte sans nuire aux utilisateurs légitimes

La principale objection à la détection du partage de compte est les faux positifs : que se passe-t-il si nous signalons un abonné qui utilise…

Comment Bloquer GPTBot (et Pourquoi Vous Ne Devriez Peut-Être Pas)

GPTBot explore votre site pour entraîner les modèles d'OpenAI. Voici comment le bloquer via robots.txt et plages d'IP, et ce qui échappe encore au blocage.

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur les outils d’enregistrement de session et le risque d’exfiltration de PII

Outils de session recording sur les sites de jeux d'argent : le risque d'exfiltration de données personnelles que les opérateurs ignorent

Mal configurés ou compromis, les outils de session recording peuvent exfiltrer les données personnelles des joueurs. Voici les trois modes.

Détection du partage de compte : comment combler la lacune d'application que les limites de sessions simultanées manquent

Les limites de sessions simultanées signalent le cas évident.

Une trajectoire de curseur bleue lumineuse et fluide à côté d'une trajectoire de bot rouge et anguleuse sur un plan sombre.

Attraper les bots à leur façon de bouger : détection comportementale du curseur

Comment le modèle cursor_v2 de cside note le mouvement de la souris pour attraper les bots furtifs qui passent déjà les contrôles de fingerprint et d'IP.

Comment Bloquer Applebot-Extended sur Votre Site Web

Applebot-Extended est le crawler d'entraînement IA d'Apple qui alimente Apple Intelligence. Découvrez comment il diffère d'Applebot et comment vous désinscrire via robots.txt.

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur la surveillance des scripts tiers sur des domaines de casino

Comment surveiller les scripts tiers sur 100 domaines de casino ou plus

Guide pratique pour surveiller les scripts tiers sur 100+ domaines de casino : prolifération, alertes inter-domaines et mise à l'échelle de cside.

Risques de sécurité de l'IA agentique pour les sites web : confidentialité, conformité et détection

Les navigateurs d'IA agentique contournent le consentement aux cookies, exécutent de vrais scripts JavaScript et créent des lacunes de conformité RGPD invisibles pour la détection de bots au niveau CDN.

Illustration d'un système neuronal de détection de bots en deux étapes séparant les sessions de navigateur humaines et celles des bots

Attraper les bots qui ne veulent pas l'être : au cœur d'une pile de détection neuronale à deux étages

Comment une pile neuronale à deux étages attrape navigateurs furtifs, scrapers résidentiels et agents LLM qui déjouent l'empreinte, et ses limites.

Comment Bloquer DeepSeekBot sur Votre Site Web

DeepSeekBot explore votre site pour une entreprise d'IA chinoise. Découvrez comment le bloquer avec robots.txt, des règles d'IP, et les vrais risques de souveraineté des données qu'il pose.