Skip to main content
Blog
Blog Attacks

Hoe DeepSeekBot op Je Website te Blokkeren

DeepSeekBot crawlt je site voor een Chinees AI-bedrijf. Leer hoe je het blokkeert met robots.txt, IP-regels en de echte datasoevereiniteitsrisico's.

Jun 22, 2026 6 min read
Hoe DeepSeekBot op Je Website te Blokkeren

DeepSeekBot is de webcrawler die wordt beheerd door DeepSeek, het Chinese AI-bedrijf dat begin 2025 wijdverbreide aandacht kreeg met modellen die de prestaties van GPT-4 evenaarden of overtroffen tegen een fractie van de trainingskosten. De crawler verzamelt webinhoud om de AI-modellen van DeepSeek te trainen en te verbeteren.

Voor veel site-eigenaren is het blokkeren van DeepSeekBot evenzeer een datasoevereiniteitsbeslissing als een technische. Dezelfde robots.txt-aanpak die werkt voor GPTBot en ClaudeBot is hier van toepassing, met enkele aanvullende overwegingen.


Wat Is DeepSeekBot?

Snel antwoord: DeepSeekBot is een webcrawler die wordt beheerd door DeepSeek, een Chinees AI-onderzoeksbedrijf. Het verzamelt openbaar beschikbare webinhoud om de taalmodellen van DeepSeek te trainen. Het identificeert zichzelf met een gedeclareerde user-agent-string en is een HTTP-crawler die geen JavaScript uitvoert en niet interageert met de interfaces van webapplicaties.

De crawler van DeepSeek gebruikt user-agent-identificaties in de DeepSeek-familie. Net als andere gedeclareerde AI-trainingscrawlers doet het HTTP GET-verzoeken, leest het tekstinhoud en is het ontworpen om robots.txt-richtlijnen te respecteren.

DeepSeek opereert onder Chinese wetgeving en dataregelgeving, wat een ander risicoprofiel creëert dan crawlers die worden beheerd door in de VS gevestigde bedrijven. Inhoud die door DeepSeekBot wordt verzameld, kan onderworpen zijn aan datatoegangsvereisten die gelden voor Chinese techbedrijven onder Chinese jurisdictie. Dit is relevante context voor organisaties met wettelijke verplichtingen, gevoelig intellectueel eigendom of datagovernancebeleid dat de oorsprong van data in overweging neemt.


Hoe DeepSeekBot te Blokkeren met robots.txt

Snel antwoord: Voeg DeepSeekBot toe aan je robots.txt met een Disallow: /-richtlijn. Als de crawler van DeepSeek robots.txt respecteert (waarvoor het is ontworpen), blokkeert dit alle verzameling van je site. Gebruik regels op padniveau voor meer granulaire controle.

Om DeepSeekBot van je volledige site te blokkeren:

User-agent: DeepSeekBot
Disallow: /

Als je indexering op sommige inhoud wilt toestaan terwijl je gevoelige gebieden beschermt:

User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/

In tegenstelling tot GPTBot en ClaudeBot, die goed gedocumenteerde nalevingsverledens hebben, is het robots.txt-nalevingsverleden van DeepSeekBot minder grondig gedocumenteerd in openbare berichtgeving. Als handhavingsbetrouwbaarheid van belang is, overweeg dan om robots.txt aan te vullen met blokkering op IP-niveau. Dezelfde kloof geldt voor andere minder goed gedocumenteerde trainingscrawlers, zoals ByteDance's Bytespider en Common Crawl's CCBot.


Overwegingen Rond Datasoevereiniteit

Snel antwoord: DeepSeek is gevestigd in China en opereert onder Chinese wetgeving. Inhoud die door zijn crawler wordt verzameld, kan onderworpen zijn aan datatoegangsvereisten die gelden voor Chinese technologiebedrijven. Voor organisaties in gereguleerde sectoren of met expliciet datagovernancebeleid weegt dit onderscheid zwaarder op het gebied van naleving dan voor een in de VS gevestigde crawler.

Dit is geen bewering dat DeepSeek actief data misbruikt. Het is een uitspraak over jurisdictie en het juridische kader waaronder verzamelde data bestaat. Organisaties die beleid hanteren dat dataoverdracht naar bepaalde jurisdicties beperkt, of die zorgen hebben over de oorsprong van IP in AI-trainingsdata, hebben legitieme technische en juridische redenen om specifiek DeepSeekBot te blokkeren in plaats van als onderdeel van een algemeen AI-crawlerbeleid.

Securityteams in financiële dienstverlening, de gezondheidszorg, bij overheidsleveranciers en bij technologiebedrijven met eigen IP behoren tot de eersten die DeepSeekBot om precies deze reden aan hun crawler-blokkeerlijsten hebben toegevoegd.


Blokkering op IP-Niveau voor DeepSeekBot

Snel antwoord: DeepSeek publiceert de IP-reeksen van zijn crawler in zijn documentatie. Het toevoegen van deze reeksen aan je firewall of CDN biedt handhaving die niet afhankelijk is van robots.txt-naleving. Gezien de lagere nalevingszekerheid vergeleken met in de VS gevestigde crawlers, is IP-blokkering de betrouwbaardere aanpak voor organisaties met strikte vereisten.

Om blokkering op IP-niveau te implementeren:

  1. Zoek de huidige gepubliceerde IP-reeksen van DeepSeek op in hun officiële documentatie
  2. Voeg deze reeksen toe aan de blokkeerlijst van je firewall, CDN of reverse proxy
  3. Stel een evaluatiecyclus in voor updates, aangezien IP-reeksen uitbreiden naarmate de crawl-infrastructuur groeit

Zoals bij alle crawler-IP-lijsten vereist dit voortdurend onderhoud. Een kwartaalevaluatiecyclus is voldoende voor de meeste organisaties.


DeepSeekBot vs. DeepSeek-Aangedreven Agenten

Snel antwoord: Het blokkeren van DeepSeekBot pakt de trainingsdatapijplijn van DeepSeek aan. Als DeepSeek agentische AI-producten bouwt of mogelijk maakt die het web namens gebruikers doorbladeren, zouden die sessies geen DeepSeekBot zijn en niet worden beïnvloed door je robots.txt-regels.

De publieke productfocus van DeepSeek ligt op de mogelijkheden van taalmodellen in plaats van op agentische browsertools, maar dit is een evoluerend gebied. De structurele kloof geldt hier net zoals bij OpenAI en Anthropic: de gedeclareerde crawler en eventuele toekomstige interactieve agenten zijn aparte systemen.

Organisaties die uitgebreide bescherming willen tegen alle DeepSeek-gerelateerde geautomatiseerde toegang tot hun sites, zouden de productaankondigingen van DeepSeek moeten volgen op agentische producten, met name eventuele browser-use- of computer-use-mogelijkheden die ongedeclareerde browsersessies zouden creëren. Detectie op browserniveau dekt die scenario's; robots.txt niet.


Detectie op Browserniveau: Verder dan de Gedeclareerde Crawler

Snel antwoord: Het blokkeren van DeepSeekBot pakt de gedeclareerde trainingscrawler van DeepSeek aan. Het pakt geen DeepSeek-aangedreven agenten of applicaties aan die je site doorbladeren in echte browsersessies namens gebruikers. Die sessies vereisen gedragsmatige detectie op browserniveau, geen robots.txt-regels.

De publieke productroadmap van DeepSeek heeft zich gericht op de mogelijkheden van taalmodellen in plaats van op agentische browsertools, maar de categorie evolueert. Elke DeepSeek-aangedreven tool die echte browserautomatisering gebruikt, zou zich presenteren als een standaard browsersessie zonder enige verbinding met de gedeclareerde user-agent van DeepSeekBot. Je robots.txt-blokkering zou irrelevant zijn voor dat verkeer. Dezelfde blinde vlek treft inhoudsbescherming in bredere zin, en daarom hangt het blokkeren van AI-content scrapers steeds meer af van gedrag dan van zelfdeclaratie.

Om te begrijpen hoe die kloof er in de praktijk uitziet: stel je een DeepSeek-aangedreven onderzoeksagent voor met de taak om concurrentie-informatie over een SaaS-leverancier te verzamelen. Het opent een headless Chromium-sessie, navigeert achtereenvolgens door de prijs- en documentatiepagina's van de site en haalt gestructureerde data eruit. De sessie presenteert een legitieme Chrome-vingerafdruk afkomstig uit een datacenter in een niet-Chinese jurisdictie, dus noch de IP-oorsprong noch de user-agent triggert enig filter. De agent voltooit een volledige audit van zes pagina's in minder dan 40 seconden, met nul verblijftijd op afbeeldingen en geen terugscrollgedrag. Die interactie-anomalieën zijn alleen zichtbaar op de browserlaag. In de gecontroleerde tests van cside misten traditionele tools AI-agenten die binnen echte browsersessies opereerden in 81 van de 100 scenario's, juist omdat netwerklaagtools een schoon verzoek zien en daar stoppen.

cside AI-agent detectiedashboard

Meer in het algemeen geldt de datasoevereiniteitszorg die DeepSeekBot het blokkeren waard maakt evenzeer voor elke AI-aangedreven sessie die je site benadert vanuit infrastructuur in jurisdicties met andere datagovernancekaders. De monitoring op browserniveau van cside legt benoemde en onbenoemde agenten bloot op basis van gedragssignalen in plaats van zelfdeclaratie, inclusief sessies die helemaal geen identificerende informatie presenteren.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

DeepSeekBot is de webcrawler die wordt beheerd door DeepSeek, een Chinees AI-bedrijf dat grote taalmodellen ontwikkelt. Het verzamelt openbaar beschikbare webinhoud om de AI-systemen van DeepSeek te trainen. Het gebruikt een gedeclareerde user-agent-string en is ontworpen om robots.txt-richtlijnen te respecteren. DeepSeek opereert onder Chinese wetgeving en dataregelgeving.

Voeg User-agent: DeepSeekBot toe, gevolgd door Disallow: / aan je robots.txt-bestand om het van je volledige site te blokkeren. Voor controle op padniveau gebruik je specifieke Disallow-regels. Gezien het minder goed gedocumenteerde nalevingsverleden van DeepSeekBot vergeleken met GPTBot of ClaudeBot, is het de moeite waard om robots.txt aan te vullen met blokkering op IP-niveau.

DeepSeek is een Chinees bedrijf dat opereert onder Chinese jurisdictie en datawetgeving. Organisaties met beleid dat dataoverdracht naar bepaalde jurisdicties beperkt, of met wettelijke vereisten die bepalen waar hun data toegankelijk mag zijn, hebben specifieke nalevingsredenen om DeepSeekBot te blokkeren, los van een algemeen AI-crawlerbeleid.

Het blokkeren van DeepSeekBot voorkomt dat je inhoud wordt verzameld bij toekomstige trainingscrawls. Inhoud die al was verzameld voordat je blokkering werd toegevoegd, blijft in bestaande modelgewichten staan. Het blokkeren van de crawler heeft geen invloed op DeepSeek-aangedreven producten of agenten die het web doorbladeren via browsersessies in plaats van via de gedeclareerde crawler.

DeepSeekBot is ontworpen om robots.txt-richtlijnen te respecteren, maar het nalevingsverleden is in onafhankelijke berichtgeving minder grondig gedocumenteerd dan dat van GPTBot (OpenAI) of ClaudeBot (Anthropic). Organisaties met strikte vereisten zouden blokkering op IP-niveau moeten overwegen als aanvulling op de handhaving van robots.txt. Een kwartaalevaluatie van de gepubliceerde IP-reeksen van DeepSeek houdt die handhavingslaag actueel.

Monitor en Beveilig Je Third-Party Scripts

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Start gratis, of probeer Business met een proefperiode van 14 dagen.

cside dashboard interface met script monitoring en beveiligingsanalytics
Related Articles
Boek een demo