Blog Attacks

Hoe CCBot (de AI-crawler van Common Crawl) te blokkeren

CCBot voedt de Common Crawl-datasets die worden gebruikt om GPT-3, BLOOM, LLaMA en veel andere AI-modellen te trainen. Leer hoe u het blokkeert en wat blokkeren daadwerkelijk doet.

Jun 18, 2026 • 7 min read

Mike Kutlu Client-Side Security Consultant

Hoe CCBot (de AI-crawler van Common Crawl) te blokkeren

Kort samengevat: CCBot blokkeren met de downstream Common Crawl-multiplier in gedachten

De downstream-multiplier: Iedereen behandelt CCBot als weer een AI-crawler, maar Common Crawl is een 501(c)(3)-non-profit wiens petabyte-archief GPT-3, BLOOM, LLaMA en tientallen andere modellen trainde. Eén regel robots.txt bereikt elk downstream-project dat uit die dataset put.
De robots.txt-blokkade: CCBot identificeert zich als CCBot/2.0 (https://commoncrawl.org/faq/), respecteert robots.txt betrouwbaar volgens Common Crawls eigen documentatie, en een Disallow: / onder zijn user-agent verwijdert uw site uit toekomstige snapshots zonder Googlebot- of Bingbot-rankings te raken.
De beslissing: Is uw doel maximale controle over AI-trainingsdata, blokkeer dan eerst CCBot omdat de multiplier reëel is. Wilt u dat uw expertise in ChatGPT, Claude en LLaMA-gebaseerde producten wordt geciteerd om GEO-redenen, dan werkt het toestaan van CCBot juist tegen u.

Weinig tijd? Bekijk cside's AI-agentdetectie. Dit dekt alles hieronder in één deployment.

CCBot wordt geëxploiteerd door Common Crawl, een non-profitorganisatie die een archief van webcontent op petabyteschaal onderhoudt en dit vrij beschikbaar maakt als een openbare dataset. De Common Crawl-dataset is gebruikt om GPT-3, BLOOM, LLaMA en tientallen andere grote AI-modellen te trainen. Het blokkeren van CCBot heeft bredere downstream-effecten dan het blokkeren van de crawler van een afzonderlijk bedrijf.

Dit is ook een van de weinige AI-crawlers waarbij de blokkeerbeslissing een eenvoudige afweging inhoudt: uw content volledig uit AI-trainingsdatasets versus uw content die bijdraagt aan foundation models die een breed scala aan AI-producten aandrijven. Als u de bredere set AI-crawlers doorneemt, behandelt onze gids voor het blokkeren van content-scraping bots van AI-agenten de rest.

Wat is CCBot en waarom is het belangrijk?

Snel antwoord: CCBot is de crawler die wordt geëxploiteerd door Common Crawl, een non-profit die een gratis, open webarchief opbouwt. Het archief is openbaar beschikbaar en wordt op grote schaal gebruikt voor het trainen van AI-modellen. Grote modellen waaronder GPT-3, BLOOM (BigScience) en Meta's LLaMA zijn getraind op datasets die zijn afgeleid van Common Crawl. Het blokkeren van CCBot verwijdert uw content uit deze pijplijn, stroomopwaarts van veel specifieke AI-systemen.

Common Crawl crawlt het web ongeveer maandelijks en bouwt zo een corpus van miljarden pagina's op. Deze data wordt gehost op Amazon Web Services en is vrij beschikbaar voor onderzoekers, bedrijven en organisaties die AI-systemen bouwen. Omdat het een gedeelde openbare bron is in plaats van eigendom van één bedrijf, reikt een blokkering van CCBot verder dan het blokkeren van GPTBot of ClaudeBot: het treft elk AI-project dat Common Crawl als trainingsbron gebruikt.

Het non-profitkader is ook relevant: Common Crawl is geen commerciële datamakelaar. Zijn missie is om webdata te democratiseren voor AI-onderzoek. Die context geeft een ander ethisch kader aan de blokkeerbeslissing dan bij crawlers die worden gerund door commerciële AI-bedrijven die eigen producten bouwen.

Hoe u CCBot blokkeert met robots.txt

Snel antwoord: Voeg CCBot toe aan uw robots.txt. Common Crawl documenteert het proces expliciet en stelt dat CCBot de richtlijnen van robots.txt respecteert. De nalevingspercentages worden voor CCBot over het algemeen als betrouwbaar beschouwd in vergelijking met sommige commerciële AI-crawlers.

Om CCBot van uw hele site te blokkeren:

User-agent: CCBot
Disallow: /

Voor controle op padniveau:

User-agent: CCBot
Disallow: /proprietary/
Disallow: /licensed/
Allow: /public/

De user-agent van CCBot is CCBot/2.0 (https://commoncrawl.org/faq/). Common Crawl documenteert dit duidelijk en biedt expliciete richtlijnen voor site-eigenaren die zich willen afmelden.

Het downstream-effect van het blokkeren van CCBot

Snel antwoord: Het blokkeren van CCBot verwijdert uw content uit de openbare dataset van Common Crawl. Omdat veel AI-modellen worden getraind op Common Crawl-data, heeft deze ene blokkering een groter bereik dan het blokkeren van de crawler van een afzonderlijk bedrijf. Uw content wordt minder vertegenwoordigd in de foundation models die ChatGPT, Claude, op LLaMA gebaseerde producten en tientallen andere AI-systemen aandrijven.

Dit heeft zowel privacy- als GEO-implicaties. Voor organisaties die maximale controle over AI-trainingsdata willen, is het blokkeren van CCBot zeer effectief vanwege dit multiplicatoreffect. Voor organisaties die willen dat hun content goed vertegenwoordigd is in AI-systemen voor ontdekking, aanbevelingen of zoekdoeleinden, werkt het blokkeren van CCBot in de tegenovergestelde richting.

De GEO-overweging: AI-systemen die op meer van uw content zijn getraind, zullen uw producten, diensten of expertise eerder accuraat samenvatten, citeren en aanbevelen in door AI gegenereerde antwoorden. Dit is een vroege dynamiek en de omvang ervan is niet definitief vastgesteld, maar het is een reële overweging die de blokkeerbeslissing zou moeten meebepalen.

Wie zou CCBot moeten blokkeren?

Snel antwoord: Organisaties met strenge gegevensbeschermingsvereisten, gelicentieerde of bedrijfseigen content, of expliciet beleid over het gebruik van AI-trainingsdata hebben de duidelijkste redenen om CCBot te blokkeren. Organisaties die profiteren van door AI gedreven contentontdekking kunnen redenen hebben om het toe te staan. De meeste zouden moeten beginnen met monitoring en een duidelijk begrip van wat blokkeren oplevert.

Sterke redenen om CCBot te blokkeren:

Gelicentieerde content die niet wettelijk in trainingsdatasets van derden mag worden opgenomen
Bedrijfseigen onderzoek, rapporten of data die u wilt beschermen tegen openbare AI-trainingspijplijnen
Expliciet organisatorisch beleid tegen het verzamelen van AI-trainingsdata
Wettelijke of regelgevende vereisten die geautomatiseerde gegevensverzameling beperken

Redenen om voorzichtig te werk te gaan voordat u blokkeert:

Het blokkeren van CCBot verwijdert uw content op brede schaal uit de training van foundation models, niet alleen uit één product
Content die goed vertegenwoordigd is in AI-trainingsdata wordt meestal beter aangehaald in AI-zoek- en aanbevelingssystemen
Het non-profit, open-onderzoekskarakter van Common Crawl verschilt van commerciële data-extractie

Blokkering op IP-niveau

Snel antwoord: Common Crawl publiceert de IP-bereiken van CCBot. Voor strikte handhaving voegt u deze bereiken toe aan de weigeringslijst van uw firewall of CDN. Het nalevingsverleden van CCBot is goed, dus robots.txt is over het algemeen voldoende, hoewel IP-blokkering beschikbaar is als aanvulling voor vereisten met hoge zekerheid.

De documentatie en openbare informatie van Common Crawl vermelden de IP-bereiken die door CCBot worden gebruikt. Voor organisaties die handhaving nodig hebben die losstaat van de zelfidentificatie van de crawler, biedt het toevoegen van deze bereiken aan een weigeringslijst van een firewall die extra laag.

Detectie op browserniveau en het AI-scraping-ecosysteem

Snel antwoord: CCBot bevindt zich aan het coöperatieve uiteinde van het AI-dataverzamelingsspectrum. Het blokkeren ervan is eenvoudig omdat Common Crawl transparant werkt en robots.txt respecteert. Het lastigere uiteinde van het spectrum is de niet-aangegeven AI-scraper die werkt binnen een echte browsersessie, dezelfde data verzamelt en onzichtbaar is voor elke tool op netwerkniveau die u heeft.

De open dataset van Common Crawl traint de foundation models die veel commerciële AI-scrapers aandrijven. Organisaties die CCBot blokkeren om redenen van contentbescherming krijgen vaak ook te maken met niet-aangegeven scraping-agenten die echte browsers gebruiken, rouleren via residentiële proxies en met menselijke tussenpozen werken. Die sessies produceren geen user-agent-signaal, geen IP-overeenkomst en geen robots.txt-relevantie. Commerciële crawlers zoals ClaudeBot en Bytespider bevinden zich tussen deze twee uiteinden; als u ook de aangegeven commerciële crawlers wilt aanpakken, raadpleeg dan onze gidsen over hoe ClaudeBot te blokkeren en hoe Bytespider te blokkeren.

De monitoring op browserniveau van cside legt deze sessies bloot via gedragssignalen: patronen in navigatie-efficiëntie, regelmatigheid van interactie, vingerafdrukstatus en de volgorde van contentextractie. In de gecontroleerde tests van cside misten traditionele detectietools AI-agenten die binnen echte browsersessies werkten in 81 van de 100 scenario's.

cside AI-agent detectiedashboard

Hoe dat er in de praktijk uitziet: een niet-aangegeven content-scraping agent die een media-uitgever als doelwit heeft, laadt de homepage in een echte Chromium-sessie, accepteert de cookietoestemmingsbanner, navigeert naar het archiefgedeelte en opent artikelen in volgorde. Het sessie-IP is residentieel, de browservingerafdruk is consistent en actueel, en vanuit het perspectief van een WAF of CDN is de sessie niet te onderscheiden van een abonnee die zijn leeswerk inhaalt.

Wat verschilt is de gedragslaag: scroll-gebeurtenissen lopen exact tot onderaan elk artikel binnen een vast tijdvenster, de navigatie tussen stukken volgt een consistent interval tussen pagina's, en er worden nooit zijbalklinks gevolgd, omdat het doel van de agent de artikeltekst is, niet verkennend browsen. De instrumentatie van cside legt de regelmatigheid van deze interactiepatronen vast en classificeert de sessie als geautomatiseerd. Voor organisaties die coöperatieve crawlers met robots.txt hebben aangepakt en de rest van het scraping-spectrum willen adresseren, is detectie op browserniveau de volgende stap.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

CCBot is de webcrawler van Common Crawl. Common Crawl is een non-profitorganisatie die een gratis, open archief van webcontent onderhoudt dat wordt gebruikt om veel grote AI-modellen te trainen, waaronder GPT-3, Meta's LLaMA en BLOOM. Het blokkeren van CCBot verwijdert uw content uit deze gedeelde pijplijn, wat bredere downstream-effecten heeft dan het blokkeren van de crawler van één enkel bedrijf.

Voeg `User-agent: CCBot` toe, gevolgd door `Disallow: /` in uw robots.txt-bestand. CCBot gebruikt de user-agent-string `CCBot/2.0`. Common Crawl documenteert dit proces en stelt dat CCBot de richtlijnen van robots.txt respecteert. De naleving wordt over het algemeen als betrouwbaar beschouwd.

Het blokkeren van CCBot voorkomt dat uw content in toekomstige Common Crawl-snapshots terechtkomt, waardoor het voortaan uit de trainingsdatasets verdwijnt die uit die snapshots zijn afgeleid. Content die al in bestaande trainingsdatasets zit, wordt niet uit reeds uitgerolde modellen verwijderd. Het effect is prospectief, niet met terugwerkende kracht.

Nee. Common Crawl is een 501(c)(3) non-profitorganisatie die een gratis, open webarchief opbouwt voor AI-onderzoek. Het verkoopt geen toegang tot zijn data en exploiteert geen commerciële AI-producten. De data die het verzamelt is vrij beschikbaar voor elke organisatie, waaronder academische onderzoekers, startups en grote AI-bedrijven.

CCBot is geen crawler van een zoekmachine en het blokkeren ervan heeft geen directe SEO-impact. Google, Bing en andere zoekmachines gebruiken hun eigen crawlers (Googlebot, Bingbot), die afzonderlijke systemen zijn. Het blokkeren van CCBot heeft geen invloed op uw positie in traditionele zoekresultaten.

Monitor en beveilig je third-party scripts

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Boek een demo

Start gratis

Start gratis, of probeer Business met een proefperiode van 14 dagen.

cside-dashboardinterface met scriptmonitoring en beveiligingsanalyses

Botbescherming in 2026: waarom detectie in de browserlaag vangt wat WAF's missen

AI-agents draaien in echte Chromium-browsers en glippen langs WAF's. Detectie in de browserlaag leest canvas-entropie en sessieritme om ze te vangen.

Chargebackfraude voorkomen: hoe apparaatbewijs geschillen wint in 2026

Chargebackfraude voorkomen draait om apparaatbewijs dat je bij het afrekenen vastlegt, wat Visa CE 3.0 accepteert bij een card-not-present-geschil.

Accountovername-oplossingen: begrijp de categorie voordat je een shortlist opstelt

Accountovername-oplossingen kennen vier lagen: WAF, MFA, browser-device-intelligence en gedragsanalyse. Geen enkele leverancier dekt ze allemaal.

Beste software voor detectie van accountdeling 2026: een eerlijke vergelijking

Device-fingerprinting telt hoeveel verschillende apparaten achter één login zitten en vangt het zetelmisbruik dat IP-tools en MFA missen.

Detectie van nepaccounts: waarom e-mailverificatie in 2026 niet genoeg is

E-mailverificatie en CAPTCHA bevestigen een endpoint, geen persoon. Device fingerprinting vangt nepaccount-aanmeldingen bij registratie.

Beste VPN-detectiesoftware 2026: TLS handshake fingerprint TLS-fingerprinting vs IP-blocklists

De beste VPN-detectietools gebruiken TLS handshake fingerprint TLS-fingerprinting om de residentiële proxy's en VPN-configuraties te vangen die IP-blocklists volledig missen.

PCI DSS-compliancechecklist 2026: vereisten 6.4.3 en 11.6.1 uitgelegd

Vereisten 6.4.3 en 11.6.1 werden verplicht in maart 2025. Dit hoort op een moderne PCI DSS-compliancechecklist, en zo automatiseer je het.

Software om card testing-fraude te voorkomen: geautomatiseerde kaartvalidatie bij de checkout stoppen

Zie hoe browserlaag-detectie geautomatiseerde card testing bij de checkout stopt via sessiegedrag, AI-agentsignalen en device fingerprinting.

Wat is formjacking? Hoe het werkt en hoe je het detecteert

Formjacking injecteert kwaadaardige JavaScript in afrekenpagina's om kaartdata te stelen tijdens het typen, onzichtbaar voor WAF's en CSP's. Zo detecteer je het.

Wat is credential stuffing? Definitie, voorbeelden en detectie

Credential stuffing test gestolen inloggegevens uit datalekken op andere sites. Ontdek hoe het werkt en hoe apparaatsignalen het betrappen.