Blog Attacks

Comment Bloquer CCBot (le Robot d'Indexation IA de Common Crawl)

CCBot alimente les jeux de données Common Crawl utilisés pour entraîner GPT-3, BLOOM, LLaMA et bien d'autres modèles d'IA. Découvrez comment le bloquer et ce que le blocage fait réellement.

Jun 18, 2026 • 9 min read

Mike Kutlu Client-Side Security Consultant

Comment Bloquer CCBot (le Robot d'Indexation IA de Common Crawl)

En bref : bloquer CCBot en tenant compte du multiplicateur Common Crawl en aval

Le multiplicateur en aval : Tout le monde traite CCBot comme un crawler IA parmi d'autres, mais Common Crawl est une organisation à but non lucratif 501(c)(3) dont l'archive à l'échelle du pétaoctet a entraîné GPT-3, BLOOM, LLaMA et des dizaines d'autres modèles. Une ligne de robots.txt atteint chaque projet en aval qui puise dans ce dataset.
Le blocage robots.txt : CCBot s'identifie comme CCBot/2.0 (https://commoncrawl.org/faq/), respecte robots.txt de manière fiable selon la documentation de Common Crawl elle-même, et un Disallow: / sous son user-agent retire votre site des futurs snapshots sans toucher aux classements Googlebot ou Bingbot.
La décision : Si votre objectif est le contrôle maximal sur les données d'entraînement IA, bloquez CCBot en premier parce que le multiplicateur est réel. Si vous voulez que votre expertise soit citée dans ChatGPT, Claude et les produits basés sur LLaMA pour des raisons GEO, laisser CCBot autorisé fait le travail inverse.

Peu de temps ? Découvrez la détection d'agents IA de cside. Elle couvre tout ce qui suit en un seul déploiement.

CCBot est exploité par Common Crawl, une organisation à but non lucratif qui maintient une archive de contenu web à l'échelle du pétaoctet et la met librement à disposition sous forme de jeu de données public. Le jeu de données Common Crawl a servi à entraîner GPT-3, BLOOM, LLaMA et des dizaines d'autres grands modèles d'IA. Bloquer CCBot a des effets en aval plus larges que de bloquer le robot d'une entreprise en particulier.

C'est aussi l'un des rares robots d'IA pour lesquels la décision de blocage implique un compromis simple : votre contenu entièrement exclu des jeux de données d'entraînement de l'IA, ou votre contenu contribuant aux modèles de fondation qui alimentent un large éventail de produits d'IA. Si vous travaillez sur l'ensemble plus large des robots d'IA, notre guide pour bloquer les bots agents IA qui scrapent du contenu couvre tout le panorama.

Qu'est-ce que CCBot et Pourquoi est-il Important ?

Réponse rapide : CCBot est le robot exploité par Common Crawl, une organisation à but non lucratif qui construit une archive web gratuite et ouverte. Cette archive est accessible au public et largement utilisée pour l'entraînement de modèles d'IA. De grands modèles, dont GPT-3, BLOOM (BigScience) et le LLaMA de Meta, ont été entraînés sur des jeux de données dérivés de Common Crawl. Bloquer CCBot retire votre contenu de ce pipeline, en amont de nombreux systèmes d'IA spécifiques.

Common Crawl explore le web environ une fois par mois, construisant un corpus de milliards de pages. Ces données sont hébergées sur Amazon Web Services et disponibles gratuitement pour les chercheurs, les entreprises et les organisations qui construisent des systèmes d'IA. Parce qu'il s'agit d'une ressource publique partagée plutôt que de la propriété d'une seule entreprise, un blocage de CCBot porte plus loin que le blocage de GPTBot ou de ClaudeBot : il affecte tout projet d'IA utilisant Common Crawl comme source d'entraînement.

Le cadre à but non lucratif est également pertinent : Common Crawl n'est pas un courtier de données commercial. Sa mission est de démocratiser les données web pour la recherche en IA. Ce contexte façonne le cadrage éthique de la décision de blocage différemment de celui des robots exploités par des entreprises d'IA commerciales qui développent des produits propriétaires.

Comment Bloquer CCBot avec robots.txt

Réponse rapide : Ajoutez CCBot à votre robots.txt. Common Crawl documente le processus explicitement et indique que CCBot respecte les directives robots.txt. Les taux de conformité sont généralement considérés comme fiables pour CCBot par rapport à certains robots d'IA commerciaux.

Pour bloquer CCBot sur l'ensemble de votre site :

User-agent: CCBot
Disallow: /

Pour un contrôle au niveau des chemins :

User-agent: CCBot
Disallow: /proprietary/
Disallow: /licensed/
Allow: /public/

L'agent utilisateur de CCBot est CCBot/2.0 (https://commoncrawl.org/faq/). Common Crawl le documente clairement et fournit des indications explicites aux propriétaires de sites qui souhaitent se désinscrire.

L'Effet en Aval du Blocage de CCBot

Réponse rapide : Bloquer CCBot retire votre contenu du jeu de données public de Common Crawl. Parce que de nombreux modèles d'IA sont entraînés sur les données de Common Crawl, ce seul blocage a une portée plus large que le blocage du robot d'une entreprise en particulier. Votre contenu devient moins représenté dans les modèles de fondation qui alimentent ChatGPT, Claude, les produits basés sur LLaMA et des dizaines d'autres systèmes d'IA.

Cela a des implications à la fois en matière de confidentialité et de GEO. Pour les organisations qui veulent un contrôle maximal sur les données d'entraînement de l'IA, bloquer CCBot offre un fort effet de levier en raison de cet effet multiplicateur. Pour les organisations qui veulent que leur contenu soit bien représenté dans les systèmes d'IA à des fins de découverte, de recommandation ou de recherche, bloquer CCBot va dans le sens inverse.

La considération GEO est la suivante : les systèmes d'IA entraînés sur une plus grande partie de votre contenu sont plus susceptibles de résumer, de citer et de recommander avec précision vos produits, services ou votre expertise dans les réponses générées par l'IA. C'est une dynamique en phase de démarrage et son ampleur n'est pas définitivement établie, mais c'est une considération réelle qui devrait éclairer la décision de blocage.

Qui Devrait Bloquer CCBot ?

Réponse rapide : Les organisations ayant de fortes exigences de protection des données, du contenu sous licence ou propriétaire, ou des politiques explicites concernant l'utilisation des données d'entraînement de l'IA ont les raisons les plus claires de bloquer CCBot. Les organisations qui tirent profit de la découverte de contenu pilotée par l'IA peuvent avoir des raisons de l'autoriser. La plupart devraient commencer par la surveillance et une compréhension claire de ce que le blocage permet d'obtenir.

Bonnes raisons de bloquer CCBot :

Contenu sous licence qui ne peut légalement être inclus dans des jeux de données d'entraînement tiers
Recherches, rapports ou données propriétaires que vous souhaitez protéger des pipelines publics d'entraînement de l'IA
Politique organisationnelle explicite contre la collecte de données d'entraînement de l'IA
Exigences légales ou réglementaires qui restreignent la collecte automatisée de données

Raisons de procéder avec prudence avant de bloquer :

Bloquer CCBot retire votre contenu de l'entraînement des modèles de fondation de manière générale, pas seulement d'un seul produit
Le contenu qui est bien représenté dans les données d'entraînement de l'IA tend à être mieux référencé dans les systèmes de recherche et de recommandation par IA
La nature à but non lucratif et de recherche ouverte de Common Crawl est différente de l'extraction commerciale de données

Blocage au Niveau des IP

Réponse rapide : Common Crawl publie les plages d'IP de CCBot. Pour une application stricte, ajoutez ces plages à votre liste de blocage de pare-feu ou de CDN. Le bilan de conformité de CCBot est bon, donc robots.txt est généralement suffisant, bien que le blocage par IP soit disponible en complément pour les exigences de haute assurance.

La documentation et les informations publiques de Common Crawl répertorient les plages d'IP utilisées par CCBot. Pour les organisations qui ont besoin d'une application indépendante de l'auto-identification du robot, ajouter ces plages à une liste de blocage de pare-feu fournit cette couche.

Détection au Niveau du Navigateur et l'Écosystème du Scraping IA

Réponse rapide : CCBot représente l'extrémité coopérative du spectre de la collecte de données par IA. Le bloquer est simple parce que Common Crawl opère de manière transparente et respecte robots.txt. L'extrémité plus difficile du spectre est le scraper IA non déclaré qui opère dans une véritable session de navigateur, collectant les mêmes données, invisible pour tous les outils de la couche réseau dont vous disposez.

Le jeu de données ouvert de Common Crawl entraîne les modèles de fondation qui alimentent de nombreux scrapers IA commerciaux. Les organisations qui bloquent CCBot pour des raisons de protection de contenu font souvent également face à des agents de scraping non déclarés qui utilisent de vrais navigateurs, font tourner des proxies résidentiels et opèrent à des intervalles à vitesse humaine. Ces sessions ne produisent aucun signal d'agent utilisateur, aucune correspondance d'IP et aucune pertinence pour robots.txt. Des robots commerciaux comme ClaudeBot et Bytespider se situent entre ces deux extrémités ; si vous voulez aussi gérer les robots commerciaux déclarés, consultez nos guides sur comment bloquer ClaudeBot et comment bloquer Bytespider.

La surveillance au niveau du navigateur de cside révèle ces sessions grâce à des signaux comportementaux : modèles d'efficacité de navigation, régularité des interactions, état des empreintes digitales et séquencement de l'extraction de contenu. Lors des tests contrôlés de cside, les outils de détection traditionnels ont manqué des agents IA opérant à l'intérieur de véritables sessions de navigateur dans 81 scénarios sur 100.

Tableau de bord de détection d'agents IA de cside

À quoi cela ressemble dans la pratique : un agent de scraping de contenu non déclaré ciblant un éditeur de médias charge la page d'accueil dans une véritable session Chromium, accepte la bannière de consentement aux cookies, navigue vers la section archives et ouvre les articles l'un après l'autre. L'IP de la session est résidentielle, l'empreinte digitale du navigateur est cohérente et à jour, et du point de vue d'un WAF ou d'un CDN, la session est indiscernable de celle d'un abonné en train de rattraper ses lectures.

Ce qui diffère, c'est la couche comportementale : les événements de défilement vont jusqu'au bas exact de chaque article dans une fenêtre de temps fixe, la navigation entre les contenus suit un intervalle inter-pages cohérent, et aucun lien de barre latérale n'est jamais suivi, parce que l'objectif de l'agent est le texte de l'article, pas la navigation exploratoire. L'instrumentation de cside capture la régularité de ces modèles d'interaction et classe la session comme automatisée. Pour les organisations qui ont géré les robots coopératifs avec robots.txt et qui veulent traiter le reste du spectre du scraping, la détection au niveau du navigateur est l'étape suivante.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

CCBot est le robot d'indexation web de Common Crawl. Common Crawl est une organisation à but non lucratif qui maintient une archive gratuite et ouverte de contenu web utilisée pour entraîner de nombreux grands modèles d'IA, dont GPT-3, le LLaMA de Meta et BLOOM. Bloquer CCBot retire votre contenu de ce pipeline partagé, ce qui a des effets en aval plus larges que de bloquer le robot d'une seule entreprise.

Ajoutez `User-agent: CCBot` suivi de `Disallow: /` à votre fichier robots.txt. CCBot utilise la chaîne d'agent utilisateur `CCBot/2.0`. Common Crawl documente ce processus et indique que CCBot respecte les directives robots.txt. Sa conformité est généralement considérée comme fiable.

Bloquer CCBot empêche votre contenu d'entrer dans les futurs instantanés de Common Crawl, ce qui le retire des jeux de données d'entraînement dérivés de ces instantanés à l'avenir. Le contenu déjà présent dans les jeux de données d'entraînement existants n'est pas retiré des modèles déjà déployés. L'effet est prospectif, pas rétroactif.

Non. Common Crawl est une organisation à but non lucratif 501(c)(3) qui construit une archive web gratuite et ouverte destinée à la recherche en IA. Elle ne vend pas l'accès à ses données et n'exploite pas de produits d'IA commerciaux. Les données qu'elle collecte sont librement disponibles pour toute organisation, y compris les chercheurs universitaires, les startups et les grandes entreprises d'IA.

CCBot n'est pas un robot de moteur de recherche et le bloquer n'a aucun impact SEO direct. Google, Bing et les autres moteurs de recherche utilisent leurs propres robots (Googlebot, Bingbot) qui sont des systèmes distincts. Bloquer CCBot n'affecte pas votre classement dans les résultats de recherche traditionnels.

Surveillez et sécurisez vos scripts tiers

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Réserver une démonstration

Commencez gratuitement

Commencez gratuitement, ou essayez Business avec un essai de 14 jours.

Interface du tableau de bord cside affichant la surveillance des scripts et les analyses de sécurité

Protection contre les bots en 2026 : pourquoi la détection au niveau du navigateur repère ce que les WAF laissent passer

Les agents IA tournent dans de vrais navigateurs Chromium et déjouent les WAF. La détection navigateur lit l'entropie du canvas et la cadence de session pour les repérer.

Prévention de la fraude à la rétrofacturation : comment les preuves d'appareil gagnent les litiges en 2026

La prévention de la fraude à la rétrofacturation repose sur les preuves d'appareil captées au paiement, la preuve que Visa CE 3.0 accepte en litige.

Solutions de prise de contrôle de compte : comprendre la catégorie avant de dresser une liste restreinte

Les solutions de prise de contrôle de compte couvrent quatre couches : WAF, MFA, intelligence des appareils navigateur et analyse comportementale. Aucun éditeur ne les couvre toutes.

Meilleur logiciel de détection du partage de comptes 2026 : une comparaison honnête

Le fingerprinting d'appareil compte les appareils distincts derrière une connexion et repère l'abus de licences que les outils IP et la MFA manquent.

Détection des faux comptes : pourquoi la vérification par e-mail ne suffit pas en 2026

La vérification par e-mail et le CAPTCHA confirment un terminal, pas une personne. L'empreinte d'appareil détecte les inscriptions de faux comptes.

Meilleur logiciel de détection de VPN 2026 : empreinte TLS TLS handshake fingerprint vs listes de blocage d'IP

Les meilleurs outils de détection de VPN utilisent l'empreinte TLS TLS handshake fingerprint pour repérer les proxys résidentiels et VPN que les listes d'IP ignorent.

Checklist de conformité PCI DSS 2026 : les exigences 6.4.3 et 11.6.1 expliquées

Les exigences 6.4.3 et 11.6.1 sont obligatoires depuis mars 2025. Voici ce qui figure sur une checklist PCI DSS moderne, et comment l'automatiser.

Logiciel de prévention de la fraude au test de cartes : comment stopper la validation automatisée de cartes au paiement

La détection navigateur stoppe le test de cartes automatisé au paiement via le comportement de session, les signaux d'agents IA et l'empreinte d'appareil.

Qu'est-ce que le formjacking ? Comment ça fonctionne et comment le détecter

Le formjacking injecte du JavaScript dans les pages de paiement pour voler les données de carte saisies, invisible aux WAF et CSP. Comment le détecter.

Qu'est-ce que le credential stuffing ? Définition, exemples et détection

Le credential stuffing teste des paires identifiant/mot de passe volées lors de fuites sur d'autres sites. Découvrez son fonctionnement et sa détection.