Blog Attacks

Hoe DeepSeekBot op Je Website te Blokkeren

DeepSeekBot crawlt je site voor een Chinees AI-bedrijf. Leer hoe je het blokkeert met robots.txt, IP-regels en de echte datasoevereiniteitsrisico's.

Jun 22, 2026 • 8 min read

Mike Kutlu Client-Side Security Consultant

Hoe DeepSeekBot op Je Website te Blokkeren

Kort samengevat: DeepSeekBot blokkeren op grond van datasoevereiniteit

Het datasoevereiniteitsrisico: De standaardhouding is dat elke gedeclareerde crawler die robots.txt respecteert veilig is om toe te staan. DeepSeeks nalevingsstaat is in onafhankelijke berichtgeving minder grondig gedocumenteerd dan die van GPTBot of ClaudeBot, wat de risicoberekening voor gereguleerde data verandert.
Handhaving op twee lagen: DeepSeekBot gebruikt een gedeclareerde user-agent in de DeepSeek-familie en DeepSeek publiceert IP-reeksen; een Disallow: / in robots.txt gecombineerd met een kwartaalevaluatie van IP-reeksen bij de firewall geeft je handhaving die niet afhangt van zelfregulering door de crawler.
De beslissing: Draai je in een gereguleerde sector, houd je gevoelig IP vast of heb je een expliciet beleid over datatransfer naar Chinese jurisdictie, blokkeer DeepSeekBot dan op beide lagen vóór de volgende crawl. Zonder zo'n beleid is robots.txt alleen een proportioneel antwoord.

Weinig tijd? Bekijk cside's AI-agentdetectie. Dit dekt alles hieronder in één deployment.

DeepSeekBot is de webcrawler die wordt beheerd door DeepSeek, het Chinese AI-bedrijf dat begin 2025 wijdverbreide aandacht kreeg met modellen die de prestaties van GPT-4 evenaarden of overtroffen tegen een fractie van de trainingskosten. De crawler verzamelt webinhoud om de AI-modellen van DeepSeek te trainen en te verbeteren.

Voor veel site-eigenaren is het blokkeren van DeepSeekBot evenzeer een datasoevereiniteitsbeslissing als een technische. Dezelfde robots.txt-aanpak die werkt voor GPTBot en ClaudeBot is hier van toepassing, met enkele aanvullende overwegingen.

Wat is DeepSeekBot?

Snel antwoord: DeepSeekBot is een webcrawler die wordt beheerd door DeepSeek, een Chinees AI-onderzoeksbedrijf. Het verzamelt openbaar beschikbare webinhoud om de taalmodellen van DeepSeek te trainen. Het identificeert zichzelf met een gedeclareerde user-agent-string en is een HTTP-crawler die geen JavaScript uitvoert en niet interageert met de interfaces van webapplicaties.

De crawler van DeepSeek gebruikt user-agent-identificaties in de DeepSeek-familie. Net als andere gedeclareerde AI-trainingscrawlers doet het HTTP GET-verzoeken, leest het tekstinhoud en is het ontworpen om robots.txt-richtlijnen te respecteren.

DeepSeek opereert onder Chinese wetgeving en dataregelgeving, wat een ander risicoprofiel creëert dan crawlers die worden beheerd door in de VS gevestigde bedrijven. Inhoud die door DeepSeekBot wordt verzameld, kan onderworpen zijn aan datatoegangsvereisten die gelden voor Chinese techbedrijven onder Chinese jurisdictie. Dit is relevante context voor organisaties met wettelijke verplichtingen, gevoelig intellectueel eigendom of datagovernancebeleid dat de oorsprong van data in overweging neemt.

Hoe DeepSeekBot te blokkeren met robots.txt

Snel antwoord: Voeg DeepSeekBot toe aan je robots.txt met een Disallow: /-richtlijn. Als de crawler van DeepSeek robots.txt respecteert (waarvoor het is ontworpen), blokkeert dit alle verzameling van je site. Gebruik regels op padniveau voor meer granulaire controle.

Om DeepSeekBot van je volledige site te blokkeren:

User-agent: DeepSeekBot
Disallow: /

Als je indexering op sommige inhoud wilt toestaan terwijl je gevoelige gebieden beschermt:

User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/

In tegenstelling tot GPTBot en ClaudeBot, die goed gedocumenteerde nalevingsverledens hebben, is het robots.txt-nalevingsverleden van DeepSeekBot minder grondig gedocumenteerd in openbare berichtgeving. Als handhavingsbetrouwbaarheid van belang is, overweeg dan om robots.txt aan te vullen met blokkering op IP-niveau. Dezelfde kloof geldt voor andere minder goed gedocumenteerde trainingscrawlers, zoals ByteDance's Bytespider en Common Crawl's CCBot.

Overwegingen rond datasoevereiniteit

Snel antwoord: DeepSeek is gevestigd in China en opereert onder Chinese wetgeving. Inhoud die door zijn crawler wordt verzameld, kan onderworpen zijn aan datatoegangsvereisten die gelden voor Chinese technologiebedrijven. Voor organisaties in gereguleerde sectoren of met expliciet datagovernancebeleid weegt dit onderscheid zwaarder op het gebied van naleving dan voor een in de VS gevestigde crawler.

Dit is geen bewering dat DeepSeek actief data misbruikt. Het is een uitspraak over jurisdictie en het juridische kader waaronder verzamelde data bestaat. Organisaties die beleid hanteren dat dataoverdracht naar bepaalde jurisdicties beperkt, of die zorgen hebben over de oorsprong van IP in AI-trainingsdata, hebben legitieme technische en juridische redenen om specifiek DeepSeekBot te blokkeren in plaats van als onderdeel van een algemeen AI-crawlerbeleid.

Securityteams in financiële dienstverlening, de gezondheidszorg, bij overheidsleveranciers en bij technologiebedrijven met eigen IP behoren tot de eersten die DeepSeekBot om precies deze reden aan hun crawler-blokkeerlijsten hebben toegevoegd.

Blokkering op IP-niveau voor DeepSeekBot

Snel antwoord: DeepSeek publiceert de IP-reeksen van zijn crawler in zijn documentatie. Het toevoegen van deze reeksen aan je firewall of CDN biedt handhaving die niet afhankelijk is van robots.txt-naleving. Gezien de lagere nalevingszekerheid vergeleken met in de VS gevestigde crawlers, is IP-blokkering de betrouwbaardere aanpak voor organisaties met strikte vereisten.

Om blokkering op IP-niveau te implementeren:

Zoek de huidige gepubliceerde IP-reeksen van DeepSeek op in hun officiële documentatie
Voeg deze reeksen toe aan de blokkeerlijst van je firewall, CDN of reverse proxy
Stel een evaluatiecyclus in voor updates, aangezien IP-reeksen uitbreiden naarmate de crawl-infrastructuur groeit

Zoals bij alle crawler-IP-lijsten vereist dit voortdurend onderhoud. Een kwartaalevaluatiecyclus is voldoende voor de meeste organisaties.

Gelaagd handhavingsdiagram voor DeepSeekBot dat robots.txt toont als intentsignaal voor de crawler, IP-reeksblokkering als netwerkhandhaving en detectie op browserniveau als controle voor niet-gedeclareerde DeepSeek-aangedreven agentsessies die zich niet als de crawler identificeren

Handhavingslaag	Stopt de gedeclareerde DeepSeekBot-crawler	Stopt een DeepSeek-aangedreven agent in een echte browsersessie
`robots.txt`-regel	Ja (indien gerespecteerd)	Nee
IP-reeksblokkeerlijst (firewall / CDN)	Ja	Nee
cside gedragsdetectie op browserniveau	Ja	Ja

Een agent die een headless Chromium-sessie opent, presenteert een legitieme Chrome-user-agent en een datacenter-IP, dus noch robots.txt noch een IP-blokkeerlijst is van toepassing; alleen gedragsdetectie op browserniveau ziet het.

DeepSeekBot vs. DeepSeek-aangedreven agenten

Snel antwoord: Het blokkeren van DeepSeekBot pakt de trainingsdatapijplijn van DeepSeek aan. Als DeepSeek agentische AI-producten bouwt of mogelijk maakt die het web namens gebruikers doorbladeren, zouden die sessies geen DeepSeekBot zijn en niet worden beïnvloed door je robots.txt-regels.

De publieke productfocus van DeepSeek ligt op de mogelijkheden van taalmodellen in plaats van op agentische browsertools, maar dit is een evoluerend gebied. De structurele kloof geldt hier net zoals bij OpenAI en Anthropic: de gedeclareerde crawler en eventuele toekomstige interactieve agenten zijn aparte systemen.

Stroomdiagram van een DeepSeek-aangedreven agent die een headless Chromium-sessie uitvoert met een legitieme Chrome-user-agent, in minder dan 40 seconden zes pagina's doorbladert met gedragsafwijkingen die tools op netwerkniveau missen maar die detectie op browserniveau wel markeert

De sessie van een DeepSeek-aangedreven onderzoeksagent laat een vingerafdruk op browserniveau achter die netwerktools missen. Hij draait als headless Chromium met een legitieme Chrome-user-agent, vanaf een datacenter-IP in een niet-Chinese jurisdictie, dus wordt geen IP- of user-agentfilter geactiveerd. Hij doorloopt 6 pagina's (Home, Prijzen, Prijsdetail, Docs, Docs API, Changelog) in minder dan 40 seconden, met nul verblijftijd op afbeeldingen, geen terugscrollen en strikt sequentiële navigatie. Tools op netwerkniveau zien een schoon verzoek en stoppen daar; in de gecontroleerde tests van cside misten traditionele tools AI-agenten in echte browsersessies in 81 van de 100 scenario's.

Organisaties die uitgebreide bescherming willen tegen alle DeepSeek-gerelateerde geautomatiseerde toegang tot hun sites, zouden de productaankondigingen van DeepSeek moeten volgen op agentische producten, met name eventuele browser-use- of computer-use-mogelijkheden die ongedeclareerde browsersessies zouden creëren. Detectie op browserniveau dekt die scenario's; robots.txt niet.

Detectie op browserniveau: verder dan de gedeclareerde crawler

Snel antwoord: Het blokkeren van DeepSeekBot pakt de gedeclareerde trainingscrawler van DeepSeek aan. Het pakt geen DeepSeek-aangedreven agenten of applicaties aan die je site doorbladeren in echte browsersessies namens gebruikers. Die sessies vereisen gedragsmatige detectie op browserniveau, geen robots.txt-regels.

De publieke productroadmap van DeepSeek heeft zich gericht op de mogelijkheden van taalmodellen in plaats van op agentische browsertools, maar de categorie evolueert. Elke DeepSeek-aangedreven tool die echte browserautomatisering gebruikt, zou zich presenteren als een standaard browsersessie zonder enige verbinding met de gedeclareerde user-agent van DeepSeekBot. Je robots.txt-blokkering zou irrelevant zijn voor dat verkeer. Dezelfde blinde vlek treft inhoudsbescherming in bredere zin, en daarom hangt het blokkeren van AI-content scrapers steeds meer af van gedrag dan van zelfdeclaratie.

Om te begrijpen hoe die kloof er in de praktijk uitziet: stel je een DeepSeek-aangedreven onderzoeksagent voor met de taak om concurrentie-informatie over een SaaS-leverancier te verzamelen. Het opent een headless Chromium-sessie, navigeert achtereenvolgens door de prijs- en documentatiepagina's van de site en haalt gestructureerde data eruit. De sessie presenteert een legitieme Chrome-vingerafdruk afkomstig uit een datacenter in een niet-Chinese jurisdictie, dus noch de IP-oorsprong noch de user-agent triggert enig filter. De agent voltooit een volledige audit van zes pagina's in minder dan 40 seconden, met nul verblijftijd op afbeeldingen en geen terugscrollgedrag. Die interactie-anomalieën zijn alleen zichtbaar op de browserlaag. In de gecontroleerde tests van cside misten traditionele tools AI-agenten die binnen echte browsersessies opereerden in 81 van de 100 scenario's, juist omdat netwerklaagtools een schoon verzoek zien en daar stoppen.

cside AI-agent detectiedashboard

Meer in het algemeen geldt de datasoevereiniteitszorg die het blokkeren van DeepSeekBot de moeite waard maakt evenzeer voor elke AI-aangedreven sessie die je site benadert vanuit infrastructuur in jurisdicties met andere datagovernancekaders. De monitoring op browserniveau van cside legt benoemde en onbenoemde agenten bloot op basis van gedragssignalen in plaats van zelfdeclaratie, inclusief sessies die helemaal geen identificerende informatie presenteren.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

DeepSeekBot is de webcrawler die wordt beheerd door DeepSeek, een Chinees AI-bedrijf dat grote taalmodellen ontwikkelt. Het verzamelt openbaar beschikbare webinhoud om de AI-systemen van DeepSeek te trainen. Het gebruikt een gedeclareerde user-agent-string en is ontworpen om robots.txt-richtlijnen te respecteren. DeepSeek opereert onder Chinese wetgeving en dataregelgeving.

Voeg User-agent: DeepSeekBot toe, gevolgd door Disallow: / aan je robots.txt-bestand om het van je volledige site te blokkeren. Voor controle op padniveau gebruik je specifieke Disallow-regels. Gezien het minder goed gedocumenteerde nalevingsverleden van DeepSeekBot vergeleken met GPTBot of ClaudeBot, is het de moeite waard om robots.txt aan te vullen met blokkering op IP-niveau.

DeepSeek is een Chinees bedrijf dat opereert onder Chinese jurisdictie en datawetgeving. Organisaties met beleid dat dataoverdracht naar bepaalde jurisdicties beperkt, of met wettelijke vereisten die bepalen waar hun data toegankelijk mag zijn, hebben specifieke nalevingsredenen om DeepSeekBot te blokkeren, los van een algemeen AI-crawlerbeleid.

Het blokkeren van DeepSeekBot voorkomt dat je inhoud wordt verzameld bij toekomstige trainingscrawls. Inhoud die al was verzameld voordat je blokkering werd toegevoegd, blijft in bestaande modelgewichten staan. Het blokkeren van de crawler heeft geen invloed op DeepSeek-aangedreven producten of agenten die het web doorbladeren via browsersessies in plaats van via de gedeclareerde crawler.

DeepSeekBot is ontworpen om robots.txt-richtlijnen te respecteren, maar het nalevingsverleden is in onafhankelijke berichtgeving minder grondig gedocumenteerd dan dat van GPTBot (OpenAI) of ClaudeBot (Anthropic). Organisaties met strikte vereisten zouden blokkering op IP-niveau moeten overwegen als aanvulling op de handhaving van robots.txt. Een kwartaalevaluatie van de gepubliceerde IP-reeksen van DeepSeek houdt die handhavingslaag actueel.

Monitor en beveilig je third-party scripts

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Boek een demo

Start gratis

Start gratis, of probeer Business met een proefperiode van 14 dagen.

cside-dashboardinterface met scriptmonitoring en beveiligingsanalyses

Botbescherming in 2026: waarom detectie in de browserlaag vangt wat WAF's missen

AI-agents draaien in echte Chromium-browsers en glippen langs WAF's. Detectie in de browserlaag leest canvas-entropie en sessieritme om ze te vangen.

Chargebackfraude voorkomen: hoe apparaatbewijs geschillen wint in 2026

Chargebackfraude voorkomen draait om apparaatbewijs dat je bij het afrekenen vastlegt, wat Visa CE 3.0 accepteert bij een card-not-present-geschil.

Accountovername-oplossingen: begrijp de categorie voordat je een shortlist opstelt

Accountovername-oplossingen kennen vier lagen: WAF, MFA, browser-device-intelligence en gedragsanalyse. Geen enkele leverancier dekt ze allemaal.

Beste software voor detectie van accountdeling 2026: een eerlijke vergelijking

Device-fingerprinting telt hoeveel verschillende apparaten achter één login zitten en vangt het zetelmisbruik dat IP-tools en MFA missen.

Detectie van nepaccounts: waarom e-mailverificatie in 2026 niet genoeg is

E-mailverificatie en CAPTCHA bevestigen een endpoint, geen persoon. Device fingerprinting vangt nepaccount-aanmeldingen bij registratie.

Beste VPN-detectiesoftware 2026: TLS handshake fingerprint TLS-fingerprinting vs IP-blocklists

De beste VPN-detectietools gebruiken TLS handshake fingerprint TLS-fingerprinting om de residentiële proxy's en VPN-configuraties te vangen die IP-blocklists volledig missen.

PCI DSS-compliancechecklist 2026: vereisten 6.4.3 en 11.6.1 uitgelegd

Vereisten 6.4.3 en 11.6.1 werden verplicht in maart 2025. Dit hoort op een moderne PCI DSS-compliancechecklist, en zo automatiseer je het.

Software om card testing-fraude te voorkomen: geautomatiseerde kaartvalidatie bij de checkout stoppen

Zie hoe browserlaag-detectie geautomatiseerde card testing bij de checkout stopt via sessiegedrag, AI-agentsignalen en device fingerprinting.

Wat is formjacking? Hoe het werkt en hoe je het detecteert

Formjacking injecteert kwaadaardige JavaScript in afrekenpagina's om kaartdata te stelen tijdens het typen, onzichtbaar voor WAF's en CSP's. Zo detecteer je het.

Wat is credential stuffing? Definitie, voorbeelden en detectie

Credential stuffing test gestolen inloggegevens uit datalekken op andere sites. Ontdek hoe het werkt en hoe apparaatsignalen het betrappen.