Skip to main content
Blog
Blog Attacks

Hoe Detecteer en Blokkeer Je Onbekende AI-Agenten op Je Website

Onbekende AI-agenten hebben geen user-agent en negeren robots.txt. Leer welke signalen op browserniveau ongedeclareerde agenten verraden en hoe je erop reageert.

Jun 27, 2026 8 min read
Hoe Detecteer en Blokkeer Je Onbekende AI-Agenten op Je Website

De gedeclareerde AI-crawlers (GPTBot, ClaudeBot, PerplexityBot) zijn de makkelijke. Ze identificeren zichzelf. Je kunt ze met twee regels robots.txt blokkeren als je dat wilt. Zij zijn het deel van het AI-agentprobleem dat al opgelost is.

Het lastigere probleem zijn de onbekende agenten: AI-systemen die je site bezoeken zonder hun identiteit kenbaar te maken, die binnen echte browsers draaien, standaard user-agents gebruiken en zich gedragen op een manier die op menselijk verkeer lijkt totdat je de signalen op sessieniveau zorgvuldig onderzoekt. In cside's gecontroleerde tests misten traditionele tools AI-agenten die binnen echte browsersessies opereerden in 81 van de 100 scenario's, wat laat zien hoe groot de zichtbaarheidskloof is voor ongedeclareerde agenten. Voor de bredere aanpak, zie onze gids voor het detecteren van AI-agentverkeer op je website.


Wat Maakt een AI-Agent "Onbekend"

Snel antwoord: Onbekende AI-agenten zijn geautomatiseerde systemen die hun identiteit niet kenbaar maken via user-agent-strings of andere conventionele signalen. Ze opereren via echte browsersessies, gebruiken standaard Chrome- of Firefox-user-agents en zijn functioneel onzichtbaar voor detectietools op netwerkniveau die afhankelijk zijn van header-inspectie en IP-matching.

De categorie omvat:

  • Op maat gebouwde enterprise-agenten: Bedrijven die interne AI-tools bouwen die concurrentsites bezoeken, prijzen controleren of voorraden monitoren, vaak gebouwd bovenop frameworks als LangChain, AutoGPT of Playwright zonder enige zelfidentificatie
  • Onderzoeks- en analyseagenten: AI-systemen die taken voor concurrentie-intelligentie of dataverzameling uitvoeren en bewust identificatie vermijden om niet geblokkeerd te worden
  • Kwaadaardige agenten: Fraudetools, scrapingsystemen en geautomatiseerde aanvalsinfrastructuur die AI-gestuurde browserautomatisering gebruiken om detectie te omzeilen
  • AI-producten van derden: Consumenten- en zakelijke AI-tools die echte browserautomatisering gebruiken zonder crawlerdocumentatie of IP-ranges te publiceren

De rode draad is het ontbreken van zelfdeclaratie. Er bestaat geen robots.txt-regel die een systeem stopt dat zichzelf niet identificeert.


Waarom robots.txt en IP-Blokkering Niet Helpen

Snel antwoord: robots.txt beheert alleen gedeclareerde user-agents. Een agent die een standaard Chrome user-agent presenteert, valt onder geen enkele toepasselijke robots.txt-regel. IP-blokkering op basis van gepubliceerde ranges vangt crawlers die zichzelf identificeren; het is nutteloos voor agenten die residentiële proxy's, roterende IP's of cloudinfrastructuur gebruiken die ze delen met legitieme gebruikers.

Het structurele probleem met header-gebaseerde detectie is dat ze is ontworpen voor een wereld waarin geautomatiseerde systemen zichzelf identificeerden. Crawlers van zoekmachines volgden de conventie omdat het wederzijds voordelig was. AI-agenten die opereren voor concurrentie-intelligentie, fraude of dataverzameling hebben geen reden om zichzelf te identificeren, en velen hebben sterke redenen om dat niet te doen.

Tools op netwerkniveau zien hetzelfde voor een onbekende AI-agent en een menselijke bezoeker: een Chrome-browserverzoek vanaf een plausibel IP-adres met standaard HTTP-headers. Het verschil tussen die twee is gedragsmatig, en gedrag is alleen binnen de sessie zichtbaar. Dezelfde kloof geldt zelfs voor gedeclareerde producten zodra ze agentisch worden, zoals we behandelen in onze gids voor het blokkeren van AI-agenten op je website.


De Signaalstack op Browserniveau

Snel antwoord: Onbekende AI-agenten verraden zichzelf via gedragssignalen binnen de browsersessie: interactietiming, navigatiepatronen, kenmerken van de vingerafdruk, afwijkingen in de JavaScript-uitvoering en de volgorde van netwerkverzoeken. Deze signalen zijn consistent over agenttypen heen, omdat door machines uitgevoerde browsersessies systematisch andere patronen produceren dan door mensen uitgevoerde.

Belangrijke signalen die onbekende agenten verraden:

Timingpatronen Menselijke gebruikers hebben een variabele, onnauwkeurige interactietiming. Ze pauzeren tussen handelingen, nemen onregelmatig veel tijd om content te lezen en bewegen de cursor in niet-lineaire banen. Agentsessies worden uitgevoerd met machineprecisie of bijna-precisie: consistente intervallen tussen handelingen, onmiddellijke reacties op laadgebeurtenissen van de pagina, geen leespauzes.

Kenmerken van de vingerafdruk Een echte menselijke Chrome-sessie bouwt een complexe vingerafdrukstatus op: cookies van eerdere sessies, artefacten van extensies, gecachte bronnen, variaties in lettertypeweergave afkomstig van de OS-configuratie van de gebruiker. Agentsessies presenteren doorgaans schone vingerafdrukken in standaardstatus zonder deze opgebouwde context. Een hoge schoonheid van de vingerafdruk in een nieuwe sessie is op zichzelf al een signaal.

Navigatielogica Menselijk surfgedrag is niet-lineair. Gebruikers bekijken categorieën, gaan terug, vergelijken producten en bezoeken pagina's opnieuw. Agentnavigatie volgt taaklogica: directe paden van het instappunt naar de doelpagina, geen verkenning of teruggaan tenzij de taak dat vereist, interactie alleen met de elementen die nodig zijn om de taak te voltooien.

JavaScript-uitvoeringscontext Echte browsersessies voeren JavaScript uit in een omgeving die wordt bepaald door de hardware van de gebruiker, de geïnstalleerde lettertypen, de schermresolutie en de browserconfiguratie. Automatiseringsframeworks produceren meetbare afwijkingen ten opzichte van JavaScript-uitvoering in een echte browser: subtiele inconsistenties in timing, canvas-rendering, WebGL-gedrag en audiocontext-uitvoer die fingerprinting-technieken kunnen identificeren.

Patronen in netwerkverzoeken Menselijk surfgedrag genereert netwerkverzoeken die worden bepaald door browsegeschiedenis, gecachte assets en niet-lineaire navigatie. Agentsessies genereren verzoekpatronen die door taaklogica worden bepaald, wat structureel anders is, zelfs wanneer afzonderlijke verzoeken er normaal uitzien.


Wat cside Vangt Dat Netwerktools Missen: Een Concreet Scenario

Snel antwoord: De prijsintelligentie-agent van een concurrent bezoekt elke vier uur de cataloguspagina van een retailer. Hij presenteert een standaard Chrome user-agent, komt van een residentieel IP en doorstaat alle header-controles. Netwerktools zien niets ongewoons. Dit is wat er binnen de browsersessie gebeurt, en wat cside waarneemt.

De agent laadt de categoriepagina en pauzeert 1,2 seconden, een bewuste vertraging om leestijd na te bootsen. Vervolgens scrollt hij in één lineaire beweging naar de onderkant met een constante snelheid, zonder versnelling of vertraging. De cursorpositie verandert niet tussen scrollgebeurtenissen. De agent klikt in 8 minuten door 47 productpagina's, waarbij elk bezoek hetzelfde patroon volgt: laden, 0,8 seconde pauzeren, de waarden van de prijs- en voorraadvelden verzamelen, naar de volgende URL in de reeks navigeren. Geen vergelijkingslogica, geen interactie met filters, geen teruggaan.

cside neemt drie samenvallende signalen waar: een regelmaat in scrollgebeurtenissen die buiten de menselijke variatie valt, een schone vingerafdruk in standaardstatus zonder cookies van eerdere sessies, en een navigatiegraaf die een puur sequentiële doorloop toont zonder verkennende vertakkingen. Deze signalen zijn onzichtbaar op netwerkniveau. Ze zijn alleen zichtbaar binnen de uitvoerende browsersessie, en dat is precies waar cside opereert. De sessie wordt geclassificeerd als een prijsintelligentie-agent en binnen dezelfde verzoekcyclus aan rate limiting onderworpen.

cside AI-agent detectiedashboard

cside brengt benoemde en niet-benoemde agenten naar voren in een realtime dashboard met detail op sessieniveau, inclusief het gedragssignaalprofiel dat elke classificatie heeft geactiveerd.


Gefaseerde Respons: Wat Te Doen Wanneer Je Er Een Detecteert

Snel antwoord: Het detecteren van een onbekende agent geeft je een classificatie, niet automatisch een beslissing. De juiste respons hangt af van wat de agent lijkt te doen. Een sessie met signalen met een laag risico kun je monitoren. Een sessie met fraudesignalen rechtvaardigt blokkering. Geautomatiseerde content-scraping rechtvaardigt rate limiting. Het doel is een proportionele respons, geen binaire keuze tussen blokkeren of toelaten.

Een praktisch responskader:

SignaalsetWaarschijnlijk agenttypeAanbevolen respons
Schone vingerafdruk, lineaire navigatie, geen interactie met formulierenIndexerings-/onderzoeksagentMonitoren, toegang tot catalogus aan rate limiting onderwerpen
Schone vingerafdruk, doorloop van het checkout-pad, machinetimingShopping/agentic commerceUitdaging bij checkout, markeren voor controle
Snel formulieren invullen, meerdere accounts, patronen van betalingstestsFraudeautomatiseringBlokkeren, loggen voor onderzoek
Bulk-download van content, geen interactie met UI-elementenContent-scraperAan rate limiting onderwerpen, authenticatiemuren toevoegen op waardevolle content
Patronen van accountaanmaak, snelle registratieAanmaak van nepaccountsUitdaging, telefoonverificatie vereisen

De juiste tool om deze responsen te implementeren vereist zichtbaarheid op sessieniveau. Dezelfde logica voedt meer gerichte aanpakken, zoals onze gids voor het blokkeren van OpenAI Operator, waar een gedeclareerd product alsnog surft via een echte, ongedeclareerde sessie.


Een Baseline Opbouwen

Snel antwoord: Je kunt geen ongewoon agentgedrag identificeren zonder een baseline van hoe normaal verkeer eruitziet. Begin met monitoring en classificatie voordat je blokkeerregels toevoegt. Een week aan sessiegegevens onthult het volume, de patronen en de oorsprong van agentverkeer die je nooit alleen uit serverlogs zou zien.

De meeste organisaties die voor het eerst monitoring op browserniveau inzetten, zijn verrast door hoeveel agentverkeer er al op hun sites aanwezig is. Ahrefs ontdekte dat 63% van de websites begin 2025 al verkeer zag via AI-chatbotinterfaces. Een betekenisvol deel van dat verkeer betreft geautomatiseerde systemen die zich niet zelf kenbaar maken.

Blokkeren zonder een baseline brengt het risico met zich mee dat je legitieme sessies afbreekt. Je agentverkeer begrijpen voordat je erop reageert leidt tot betere beleidsbeslissingen, en vangt patronen op die wijzen op gecoördineerde of escalerende activiteit voordat die schade aanricht. Als je beoordeelt waar deze functionaliteit thuishoort, behandelt onze vergelijking van de beste platforms voor bot- en agent-trust-management de categorie die Forrester in Q4 2025 hernoemde tot Bot and Agent Trust Management Software.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

Onbekende AI-agenten zijn geautomatiseerde systemen die hun identiteit niet kenbaar maken via user-agent-strings of andere conventionele signalen. Ze opereren via echte browsersessies met standaard user-agents, waardoor ze onzichtbaar zijn voor detectietools op netwerkniveau. Ze zijn detecteerbaar via gedragssignalen binnen de browsersessie: timingpatronen, kenmerken van de vingerafdruk, navigatielogica en afwijkingen in de JavaScript-uitvoering.

Nee. robots.txt beheert alleen agenten die hun identiteit kenbaar maken via user-agent-strings. Een onbekende agent die een standaard Chrome user-agent presenteert, valt onder geen enkele toepasselijke robots.txt-regel. Onbekende agenten zijn ontworpen om zonder zelfdeclaratie te opereren, waardoor robots.txt irrelevant is om ze te beheren.

Belangrijke signalen zijn onder meer de precisie van de interactietiming, de schoonheid van de vingerafdruk in nieuwe sessies, lineaire navigatie richting de doelcontent, afwijkingen in de JavaScript-uitvoering en de volgorde van netwerkverzoeken die door taaklogica wordt bepaald in plaats van door menselijk surfgedrag. Deze signalen verschillen consistent van menselijke sessiepatronen en zijn alleen binnen de browsersessie waarneembaar.

Een gefaseerd responskader op basis van het signaalvertrouwen vermindert valse positieven. Signalen met laag vertrouwen rechtvaardigen monitoring. Signalen met gemiddeld vertrouwen rechtvaardigen uitdagingen zoals CAPTCHA of accountverificatie. Alleen signalen met hoog vertrouwen en fraude-indicatoren rechtvaardigen harde blokkeringen. Beginnen met monitoring en classificatie voordat je blokkeerregels toevoegt, is essentieel.

Ahrefs ontdekte dat 63% van de websites begin 2025 al verkeer zag via AI-chatbotinterfaces. Een aanzienlijk deel van dat verkeer komt van geautomatiseerde sessies die zich niet zelf identificeren. De enige manier om de specifieke blootstelling van je site te kennen, is monitoring op browserniveau die sessies classificeert op basis van gedragssignalen in plaats van te vertrouwen op zelfdeclaratie.

Monitor en Beveilig Je Third-Party Scripts

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Start gratis, of probeer Business met een proefperiode van 14 dagen.

cside dashboard interface met script monitoring en beveiligingsanalytics
Related Articles
Boek een demo