DeepSeekBot is de webcrawler die wordt beheerd door DeepSeek, het Chinese AI-bedrijf dat begin 2025 wijdverbreide aandacht kreeg met modellen die de prestaties van GPT-4 evenaarden of overtroffen tegen een fractie van de trainingskosten. De crawler verzamelt webinhoud om de AI-modellen van DeepSeek te trainen en te verbeteren.
Voor veel site-eigenaren is het blokkeren van DeepSeekBot evenzeer een datasoevereiniteitsbeslissing als een technische. Dezelfde robots.txt-aanpak die werkt voor GPTBot en ClaudeBot is hier van toepassing, met enkele aanvullende overwegingen.
Wat Is DeepSeekBot?
Snel antwoord: DeepSeekBot is een webcrawler die wordt beheerd door DeepSeek, een Chinees AI-onderzoeksbedrijf. Het verzamelt openbaar beschikbare webinhoud om de taalmodellen van DeepSeek te trainen. Het identificeert zichzelf met een gedeclareerde user-agent-string en is een HTTP-crawler die geen JavaScript uitvoert en niet interageert met de interfaces van webapplicaties.
De crawler van DeepSeek gebruikt user-agent-identificaties in de DeepSeek-familie. Net als andere gedeclareerde AI-trainingscrawlers doet het HTTP GET-verzoeken, leest het tekstinhoud en is het ontworpen om robots.txt-richtlijnen te respecteren.
DeepSeek opereert onder Chinese wetgeving en dataregelgeving, wat een ander risicoprofiel creëert dan crawlers die worden beheerd door in de VS gevestigde bedrijven. Inhoud die door DeepSeekBot wordt verzameld, kan onderworpen zijn aan datatoegangsvereisten die gelden voor Chinese techbedrijven onder Chinese jurisdictie. Dit is relevante context voor organisaties met wettelijke verplichtingen, gevoelig intellectueel eigendom of datagovernancebeleid dat de oorsprong van data in overweging neemt.
Hoe DeepSeekBot te Blokkeren met robots.txt
Snel antwoord: Voeg
DeepSeekBottoe aan jerobots.txtmet eenDisallow: /-richtlijn. Als de crawler van DeepSeekrobots.txtrespecteert (waarvoor het is ontworpen), blokkeert dit alle verzameling van je site. Gebruik regels op padniveau voor meer granulaire controle.
Om DeepSeekBot van je volledige site te blokkeren:
User-agent: DeepSeekBot
Disallow: /
Als je indexering op sommige inhoud wilt toestaan terwijl je gevoelige gebieden beschermt:
User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/
In tegenstelling tot GPTBot en ClaudeBot, die goed gedocumenteerde nalevingsverledens hebben, is het robots.txt-nalevingsverleden van DeepSeekBot minder grondig gedocumenteerd in openbare berichtgeving. Als handhavingsbetrouwbaarheid van belang is, overweeg dan om robots.txt aan te vullen met blokkering op IP-niveau. Dezelfde kloof geldt voor andere minder goed gedocumenteerde trainingscrawlers, zoals ByteDance's Bytespider en Common Crawl's CCBot.
Overwegingen Rond Datasoevereiniteit
Snel antwoord: DeepSeek is gevestigd in China en opereert onder Chinese wetgeving. Inhoud die door zijn crawler wordt verzameld, kan onderworpen zijn aan datatoegangsvereisten die gelden voor Chinese technologiebedrijven. Voor organisaties in gereguleerde sectoren of met expliciet datagovernancebeleid weegt dit onderscheid zwaarder op het gebied van naleving dan voor een in de VS gevestigde crawler.
Dit is geen bewering dat DeepSeek actief data misbruikt. Het is een uitspraak over jurisdictie en het juridische kader waaronder verzamelde data bestaat. Organisaties die beleid hanteren dat dataoverdracht naar bepaalde jurisdicties beperkt, of die zorgen hebben over de oorsprong van IP in AI-trainingsdata, hebben legitieme technische en juridische redenen om specifiek DeepSeekBot te blokkeren in plaats van als onderdeel van een algemeen AI-crawlerbeleid.
Securityteams in financiële dienstverlening, de gezondheidszorg, bij overheidsleveranciers en bij technologiebedrijven met eigen IP behoren tot de eersten die DeepSeekBot om precies deze reden aan hun crawler-blokkeerlijsten hebben toegevoegd.
Blokkering op IP-Niveau voor DeepSeekBot
Snel antwoord: DeepSeek publiceert de IP-reeksen van zijn crawler in zijn documentatie. Het toevoegen van deze reeksen aan je firewall of CDN biedt handhaving die niet afhankelijk is van
robots.txt-naleving. Gezien de lagere nalevingszekerheid vergeleken met in de VS gevestigde crawlers, is IP-blokkering de betrouwbaardere aanpak voor organisaties met strikte vereisten.
Om blokkering op IP-niveau te implementeren:
- Zoek de huidige gepubliceerde IP-reeksen van DeepSeek op in hun officiële documentatie
- Voeg deze reeksen toe aan de blokkeerlijst van je firewall, CDN of reverse proxy
- Stel een evaluatiecyclus in voor updates, aangezien IP-reeksen uitbreiden naarmate de crawl-infrastructuur groeit
Zoals bij alle crawler-IP-lijsten vereist dit voortdurend onderhoud. Een kwartaalevaluatiecyclus is voldoende voor de meeste organisaties.
DeepSeekBot vs. DeepSeek-Aangedreven Agenten
Snel antwoord: Het blokkeren van DeepSeekBot pakt de trainingsdatapijplijn van DeepSeek aan. Als DeepSeek agentische AI-producten bouwt of mogelijk maakt die het web namens gebruikers doorbladeren, zouden die sessies geen DeepSeekBot zijn en niet worden beïnvloed door je
robots.txt-regels.
De publieke productfocus van DeepSeek ligt op de mogelijkheden van taalmodellen in plaats van op agentische browsertools, maar dit is een evoluerend gebied. De structurele kloof geldt hier net zoals bij OpenAI en Anthropic: de gedeclareerde crawler en eventuele toekomstige interactieve agenten zijn aparte systemen.
Organisaties die uitgebreide bescherming willen tegen alle DeepSeek-gerelateerde geautomatiseerde toegang tot hun sites, zouden de productaankondigingen van DeepSeek moeten volgen op agentische producten, met name eventuele browser-use- of computer-use-mogelijkheden die ongedeclareerde browsersessies zouden creëren. Detectie op browserniveau dekt die scenario's; robots.txt niet.
Detectie op Browserniveau: Verder dan de Gedeclareerde Crawler
Snel antwoord: Het blokkeren van DeepSeekBot pakt de gedeclareerde trainingscrawler van DeepSeek aan. Het pakt geen DeepSeek-aangedreven agenten of applicaties aan die je site doorbladeren in echte browsersessies namens gebruikers. Die sessies vereisen gedragsmatige detectie op browserniveau, geen
robots.txt-regels.
De publieke productroadmap van DeepSeek heeft zich gericht op de mogelijkheden van taalmodellen in plaats van op agentische browsertools, maar de categorie evolueert. Elke DeepSeek-aangedreven tool die echte browserautomatisering gebruikt, zou zich presenteren als een standaard browsersessie zonder enige verbinding met de gedeclareerde user-agent van DeepSeekBot. Je robots.txt-blokkering zou irrelevant zijn voor dat verkeer. Dezelfde blinde vlek treft inhoudsbescherming in bredere zin, en daarom hangt het blokkeren van AI-content scrapers steeds meer af van gedrag dan van zelfdeclaratie.
Om te begrijpen hoe die kloof er in de praktijk uitziet: stel je een DeepSeek-aangedreven onderzoeksagent voor met de taak om concurrentie-informatie over een SaaS-leverancier te verzamelen. Het opent een headless Chromium-sessie, navigeert achtereenvolgens door de prijs- en documentatiepagina's van de site en haalt gestructureerde data eruit. De sessie presenteert een legitieme Chrome-vingerafdruk afkomstig uit een datacenter in een niet-Chinese jurisdictie, dus noch de IP-oorsprong noch de user-agent triggert enig filter. De agent voltooit een volledige audit van zes pagina's in minder dan 40 seconden, met nul verblijftijd op afbeeldingen en geen terugscrollgedrag. Die interactie-anomalieën zijn alleen zichtbaar op de browserlaag. In de gecontroleerde tests van cside misten traditionele tools AI-agenten die binnen echte browsersessies opereerden in 81 van de 100 scenario's, juist omdat netwerklaagtools een schoon verzoek zien en daar stoppen.

Meer in het algemeen geldt de datasoevereiniteitszorg die DeepSeekBot het blokkeren waard maakt evenzeer voor elke AI-aangedreven sessie die je site benadert vanuit infrastructuur in jurisdicties met andere datagovernancekaders. De monitoring op browserniveau van cside legt benoemde en onbenoemde agenten bloot op basis van gedragssignalen in plaats van zelfdeclaratie, inclusief sessies die helemaal geen identificerende informatie presenteren.








