Skip to main content
Blog
Blog Attacks

Hoe Blokkeer Je GPTBot (en Waarom Je Dat Misschien Niet Wilt)

GPTBot crawlt je site om OpenAI-modellen te trainen. Zo blokkeer je het met robots.txt en IP-ranges, en wat die blokkering nog steeds laat liggen.

Jun 24, 2026 6 min read
Hoe Blokkeer Je GPTBot (en Waarom Je Dat Misschien Niet Wilt)

GPTBot is OpenAI's trainingscrawler. Het bezoekt publieke webpagina's, verzamelt content en gebruikt die content om toekomstige versies van ChatGPT en andere OpenAI-modellen te trainen. Het is anders dan OpenAI Operator (dat transacties uitvoert) en OAI-SearchBot (dat ChatGPT's live browsing aandrijft). Begrijpen welk OpenAI-systeem je site bezoekt, bepaalt de juiste reactie.

Het blokkeren van GPTBot met robots.txt is eenvoudig en breed gedocumenteerd. De belangrijkere vraag is of het blokkeren van de crawler verandert wat OpenAI's agenten op je site kunnen doen, en het antwoord is, voor transacterende agenten zoals Operator, nee. Voor het bredere patroon over AI-scrapers heen, zie onze gids voor het blokkeren van AI-agent content-scraping-bots.


Wat Is GPTBot?

Snel antwoord: GPTBot is een gedeclareerde webcrawler die door OpenAI wordt beheerd. Het doel is om publiek beschikbare webcontent te verzamelen voor gebruik bij het trainen van AI-modellen. Het identificeert zichzelf met een bekende user-agent-string en werkt vanuit gepubliceerde IP-ranges. OpenAI stelt dat GPTBot robots.txt-richtlijnen respecteert.

De user-agent-string van GPTBot:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot)

OpenAI publiceert de huidige IP-ranges van GPTBot in zijn botdocumentatie. De crawler bezoekt pagina's, leest tekstcontent en voert geen JavaScript uit op de manier waarop een echte browser dat doet. Het is een traditionele HTTP-crawler, geen interactieve agent.


Hoe Blokkeer Je GPTBot met robots.txt

Snel antwoord: Voeg GPTBot toe aan je robots.txt met een Disallow: /-richtlijn om het van je hele site te blokkeren. OpenAI stelt dat het deze richtlijnen respecteert. Gebruik voor controle op padniveau specifieke Disallow-regels om de toegang tot gevoelige secties te beperken terwijl je GPTBot op publieke content toestaat.

Om GPTBot van je hele site te blokkeren:

User-agent: GPTBot
Disallow: /

Om GPTBot alleen van specifieke paden te blokkeren:

User-agent: GPTBot
Disallow: /private/
Disallow: /checkout/
Disallow: /account/
Allow: /blog/
Allow: /products/

OpenAI respecteert deze richtlijnen voor de gedeclareerde GPTBot-crawler. Er is geen technisch handhavingsmechanisme; robots.txt is een verklaring die compliant crawlers ervoor kiezen om te volgen. Maar GPTBot heeft een sterke staat van dienst op het gebied van naleving, vergeleken met sommige andere AI-crawlers die publiekelijk zijn bekritiseerd omdat ze robots.txt-richtlijnen negeren. Dezelfde robots.txt-aanpak werkt voor andere gedeclareerde crawlers, waaronder CCBot.


Blokkeren op IP-Niveau voor GPTBot

Snel antwoord: OpenAI publiceert de IP-ranges van GPTBot, die je op je firewall of CDN kunt weigeren. Dit biedt een handhavingslaag bovenop robots.txt. Het vereist niet dat de crawler zichzelf identificeert, wat het betrouwbaarder maakt dan matchen op user-agent alleen.

Als je harde handhaving nodig hebt in plaats van een verklaring, voeg dan de gepubliceerde IP-ranges van GPTBot toe aan je blocklist op infrastructuurniveau. Dit is de betrouwbaardere aanpak voor waardevolle content, omdat:

  1. Het niet afhankelijk is van of de crawler robots.txt respecteert
  2. Het verkeerd geconfigureerde of oudere GPTBot-versies vangt die je robots.txt mogelijk niet correct lezen
  3. Het een log op serverniveau levert dat je kunt controleren

OpenAI's gepubliceerde IP-ranges veranderen periodiek, dus deze blocklist vereist onderhoud. Raadpleeg OpenAI's botdocumentatie voor de actuele lijst.


Waarom Het Blokkeren van GPTBot Niet Genoeg Is

Snel antwoord: GPTBot is OpenAI's trainingscrawler. Het blokkeren ervan heeft geen invloed op OpenAI Operator (de transacterende agent), OAI-SearchBot (de live browsing-assistent) of enig toekomstig agentisch systeem van OpenAI. Elk werkt onafhankelijk, met andere user-agents, IP-ranges en gedragsprofielen.

Dit is het onderscheid dat de meeste engineers missen. Een site-eigenaar die GPTBot blokkeert, gelooft doorgaans dat hij "OpenAI's toegang tot zijn content" heeft aangepakt. Hij heeft één OpenAI-systeem van de verschillende aangepakt. Operator, ChatGPT's live browsing en toekomstige agentische producten zijn aparte systemen die het blokkeren van GPTBot niet raakt.

Het diepere probleem is dat GPTBot een coöperatieve, gedeclareerde crawler is. Je kunt het blokkeren omdat OpenAI je vertelt hoe het eruitziet. De meer ontwrichtende agenten, ongedeclareerd, browsergebaseerd, transacterend, zijn juist degene die zichzelf niet identificeren en robots.txt op geen enkele zinvolle manier respecteren. Het blokkeren van GPTBot pakt de zichtbare, coöperatieve dreiging aan en laat de onzichtbare, niet-coöperatieve dreigingen ongemoeid. Dezelfde structurele kloof geldt voor andere agentische systemen, waaronder OpenAI Operator.


Wat Detectie op Browserniveau Toevoegt

Snel antwoord: GPTBot zelf vereist geen detectie op browserniveau, het is zichtbaar op netwerkniveau. Maar de agenten die voortbouwen op het werk van GPTBot (ChatGPT Operator, agentische shopping agents) zijn dat niet. Detectie op browserniveau dicht de kloof tussen de crawlers die je kunt zien en de agenten die je niet kunt zien.

cside is niet primair nodig om GPTBot te detecteren. Je kunt het blokkeren met twee regels robots.txt. cside pakt de agenten aan die binnen echte browsersessies opereren: degene die JavaScript uitvoeren, met je UI interageren en sessies aanmaken die er op netwerkniveau identiek uitzien als legitieme menselijke gebruikers.

De signalen die cside observeert (interactietiming, consistentie van fingerprints, navigatiepatronen, gedragsritme) zijn irrelevant voor een eenvoudige HTTP-crawler zoals GPTBot. Ze zijn essentieel voor het detecteren van Operator, agentische shoppers en de ongedeclareerde geautomatiseerde sessies die robots.txt niet kan tegenhouden. In cside's gecontroleerde tests misten traditionele tools AI-agenten die binnen echte browsersessies opereerden in 81 van de 100 scenario's.

cside AI-agent detectiedashboard

Bedenk hoe dit er in de praktijk uitziet. Een OpenAI Operator-sessie die op een retailsite is gericht, kondigt zichzelf in geen enkele header aan. Het start een op Chromium gebaseerde browser, laadt de pagina met volledige JavaScript-uitvoering, accepteert cookies, navigeert in een aannemelijk leestempo door de categorieboom, voegt items toe aan de winkelwagen en gaat door naar de checkout. Op netwerkniveau lijkt elk signaal op een ingelogde klant: het IP behoort tot een residential proxy-pool, de TLS-fingerprint komt overeen met een actuele browserversie en de sessiecookie is geldig.

Wat verandert, is het gedrag op de sublaag: pointer-events arriveren met machinaal nauwkeurige tussenruimte, de scrolldiepte neemt toe in consistente pixelintervallen en de verdeling van de tijd-op-pagina voor elke productpagina clustert rond een waarde die veel strakker is dan welke menselijke browsepopulatie ook produceert. cside's instrumentatie op browserniveau legt die signalen vast en markeert de sessie als geautomatiseerd voordat de checkout wordt bereikt. Een WAF, CDN-regel of user-agent-filter ziet niets ongewoons. Dezelfde aanpak geldt voor ongedeclareerde AI content scrapers en andere crawlers die echte browsers nabootsen.


Moet Je GPTBot Blokkeren?

Snel antwoord: Dat hangt af van je relatie met de producten van OpenAI. Het blokkeren van GPTBot voorkomt dat je content wordt gebruikt voor het trainen van toekomstige modellen. Het voorkomt niet dat ChatGPT via live browsing naar je site verwijst, en het voorkomt niet dat Operator transacties op je site uitvoert. Bedenk wat je daadwerkelijk probeert te bereiken voordat je beslist.

Redenen om GPTBot te blokkeren:

  • Je wilt niet dat je eigen content in OpenAI's trainingsdatasets terechtkomt
  • Je hebt concurrentieoverwegingen over je content die via ChatGPT-antwoorden naar voren komt
  • Je servicevoorwaarden beperken expliciet de geautomatiseerde gegevensverzameling voor AI-training

Redenen om het niet te blokkeren (of er eerst goed over na te denken):

  • Je content profiteert al van ChatGPT-citaties in zoekresultaten en AI-antwoorden
  • Je wilt dat je merk en producten goed vertegenwoordigd zijn in de kennisbank van ChatGPT
  • Toekomstige agentische shopping-systemen die op je productdata zijn getraind, kunnen verwijzingsverkeer genereren

De SEO- en GEO-implicaties van het blokkeren van AI-crawlers worden door de branche nog uitgewerkt. Een site die vandaag alle AI-trainingscrawlers blokkeert, kan morgen ontdekken dat zijn producten afwezig zijn in AI-gestuurde aanbevelingssystemen.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

GPTBot is OpenAI's webcrawler die publiek beschikbare webcontent verzamelt om AI-modellen te trainen, waaronder toekomstige versies van ChatGPT. Het identificeert zichzelf met een bekende user-agent-string, werkt vanuit gepubliceerde IP-ranges en is ontworpen om `robots.txt`-richtlijnen te respecteren. Het is een HTTP-crawler die geen JavaScript uitvoert en niet interageert met interfaces van webapplicaties.

Voeg `User-agent: GPTBot` toe, gevolgd door `Disallow: /` in je `robots.txt`-bestand om GPTBot van je hele site te blokkeren. Gebruik voor controle op padniveau specifieke `Disallow`-regels om de toegang tot gevoelige secties te beperken. OpenAI heeft verklaard dat GPTBot deze richtlijnen respecteert.

Nee. GPTBot en OpenAI Operator zijn aparte systemen. Het blokkeren van GPTBot voorkomt dat de trainingscrawler je site bezoekt. Het heeft geen effect op Operator, ChatGPT's live browsing-assistent of andere agentische producten van OpenAI. Die systemen werken onafhankelijk, met andere user-agents en gedragsprofielen.

Ja. OpenAI publiceert de IP-ranges van GPTBot in zijn botdocumentatie. Je kunt deze ranges toevoegen aan de deny list van je firewall of CDN voor handhaving die niet afhankelijk is van of de crawler je `robots.txt` correct leest. Deze IP-ranges veranderen periodiek en vereisen onderhoud.

Het blokkeren van GPTBot voorkomt dat je content in toekomstige trainingsruns wordt gebruikt. Het verwijdert geen content die al was geïndexeerd voordat je de blokkering toevoegde. ChatGPT's knowledge cutoff en het tijdstip van eerdere bezoeken van GPTBot aan je site bepalen wat OpenAI's modellen al over je content weten.

Monitor en Beveilig Je Third-Party Scripts

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Start gratis, of probeer Business met een proefperiode van 14 dagen.

cside dashboard interface met script monitoring en beveiligingsanalytics
Related Articles
Boek een demo