Blog Attacks

Comment Bloquer DeepSeekBot sur Votre Site Web

DeepSeekBot explore votre site pour une entreprise d'IA chinoise. Découvrez comment le bloquer avec robots.txt, des règles d'IP, et les vrais risques de souveraineté des données qu'il pose.

Jun 22, 2026 • 7 min read

Mike Kutlu Client-Side Security Consultant

Comment Bloquer DeepSeekBot sur Votre Site Web

DeepSeekBot est le robot d'exploration web exploité par DeepSeek, l'entreprise d'IA chinoise qui a attiré une large attention début 2025 avec des modèles égalant ou dépassant les performances de GPT-4 pour une fraction du coût d'entraînement. Le robot d'exploration collecte du contenu web pour entraîner et améliorer les modèles d'IA de DeepSeek.

Pour de nombreux propriétaires de sites, bloquer DeepSeekBot est autant une décision de souveraineté des données qu'une décision technique. La même approche robots.txt qui fonctionne pour GPTBot et ClaudeBot s'applique ici, avec quelques considérations supplémentaires.

Qu'est-ce que DeepSeekBot ?

Réponse rapide : DeepSeekBot est un robot d'exploration web exploité par DeepSeek, une entreprise chinoise de recherche en IA. Il collecte du contenu web accessible publiquement pour entraîner les modèles de langage de DeepSeek. Il s'identifie avec une chaîne d'agent utilisateur déclarée et est un robot HTTP qui n'exécute pas de JavaScript et n'interagit pas avec les interfaces d'application web.

Le robot d'exploration de DeepSeek utilise des identifiants d'agent utilisateur de la famille DeepSeek. Comme les autres robots d'exploration d'entraînement IA déclarés, il effectue des requêtes HTTP GET, lit le contenu textuel et est conçu pour respecter les directives robots.txt.

DeepSeek opère sous la loi et les réglementations chinoises sur les données, ce qui crée un profil de risque différent de celui des robots d'exploration exploités par des entreprises basées aux États-Unis. Le contenu collecté par DeepSeekBot peut être soumis aux exigences d'accès aux données qui s'appliquent aux entreprises technologiques chinoises sous la juridiction chinoise. C'est un contexte pertinent pour les organisations ayant des obligations réglementaires, une propriété intellectuelle sensible ou des politiques de gouvernance des données qui prennent en compte l'origine des données.

Comment Bloquer DeepSeekBot avec robots.txt

Réponse rapide : Ajoutez DeepSeekBot à votre robots.txt avec une directive Disallow: /. Si le robot d'exploration de DeepSeek respecte robots.txt (ce pour quoi il est conçu), cela bloque toute collecte depuis votre site. Utilisez des règles au niveau des chemins pour un contrôle plus granulaire.

Pour bloquer DeepSeekBot sur l'ensemble de votre site :

User-agent: DeepSeekBot
Disallow: /

Si vous souhaitez autoriser l'indexation de certains contenus tout en protégeant les zones sensibles :

User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/

Contrairement à GPTBot et ClaudeBot, qui ont des bilans de conformité bien documentés, l'historique de conformité de DeepSeekBot à robots.txt est moins minutieusement documenté dans les rapports publics. Si la fiabilité de l'application compte, envisagez de compléter robots.txt par un blocage au niveau de l'IP. La même lacune s'applique à d'autres robots d'exploration d'entraînement moins documentés, comme Bytespider de ByteDance et CCBot de Common Crawl.

Considérations de Souveraineté des Données

Réponse rapide : DeepSeek est constituée en Chine et opère sous la loi chinoise. Le contenu collecté par son robot d'exploration peut être soumis aux exigences d'accès aux données qui s'appliquent aux entreprises technologiques chinoises. Pour les organisations dans des secteurs réglementés ou avec des politiques explicites de gouvernance des données, cette distinction a un poids de conformité supérieur à celui qu'elle aurait pour un robot d'exploration basé aux États-Unis.

Ce n'est pas une affirmation que DeepSeek détourne activement les données. C'est une déclaration sur la juridiction et le cadre juridique sous lequel les données collectées existent. Les organisations qui maintiennent des politiques restreignant le transfert de données vers certaines juridictions, ou qui ont des préoccupations de PI quant à l'origine des données d'entraînement de l'IA, ont des raisons techniques et juridiques légitimes pour bloquer DeepSeekBot spécifiquement plutôt que dans le cadre d'une politique générale sur les robots d'exploration IA.

Les équipes de sécurité des services financiers, de la santé, des contractants gouvernementaux et des entreprises technologiques avec une PI propriétaire ont été parmi les premières à ajouter DeepSeekBot à leurs listes de blocage de robots d'exploration pour exactement cette raison.

Blocage au Niveau de l'IP pour DeepSeekBot

Réponse rapide : DeepSeek publie les plages d'IP de son robot d'exploration dans sa documentation. Ajouter ces plages à votre pare-feu ou CDN fournit une application qui ne dépend pas de la conformité à robots.txt. Étant donné la certitude de conformité plus faible par rapport aux robots d'exploration basés aux États-Unis, le blocage d'IP est l'approche la plus fiable pour les organisations ayant des exigences strictes.

Pour mettre en œuvre un blocage au niveau de l'IP :

Localisez les plages d'IP actuellement publiées par DeepSeek depuis sa documentation officielle
Ajoutez ces plages à la liste de refus de votre pare-feu, CDN ou proxy inverse
Définissez un cycle de revue pour les mises à jour, car les plages d'IP s'étendent avec la croissance de l'infrastructure d'exploration

Comme pour toutes les listes d'IP de robots d'exploration, cela nécessite une maintenance continue. Un cycle de revue trimestriel est suffisant pour la plupart des organisations.

DeepSeekBot vs. Agents Propulsés par DeepSeek

Réponse rapide : Bloquer DeepSeekBot traite le pipeline de données d'entraînement de DeepSeek. Si DeepSeek construit ou active des produits d'IA agentiques qui naviguent sur le web pour le compte des utilisateurs, ces sessions ne seraient pas DeepSeekBot et ne seraient pas affectées par vos règles robots.txt.

L'orientation produit publique de DeepSeek a porté sur les capacités des modèles de langage plutôt que sur les outils de navigation agentique, mais c'est un domaine en évolution. La lacune structurelle s'applique ici comme pour OpenAI et Anthropic : le robot d'exploration déclaré et tout futur agent interactif sont des systèmes distincts.

Les organisations qui veulent une protection complète contre tout accès automatisé lié à DeepSeek à leurs sites devraient surveiller les annonces de produits de DeepSeek concernant les produits agentiques, en particulier toute capacité d'utilisation de navigateur ou d'ordinateur qui créerait des sessions de navigateur non déclarées. La détection au niveau du navigateur couvre ces scénarios ; robots.txt ne le fait pas.

Détection au Niveau du Navigateur : Au-delà du Robot d'Exploration Déclaré

Réponse rapide : Bloquer DeepSeekBot traite le robot d'exploration d'entraînement déclaré de DeepSeek. Cela ne traite pas les agents ou applications propulsés par DeepSeek qui naviguent sur votre site dans de vraies sessions de navigateur pour le compte des utilisateurs. Ces sessions nécessitent une détection comportementale au niveau du navigateur, pas des règles robots.txt.

La feuille de route produit publique de DeepSeek s'est concentrée sur les capacités des modèles de langage plutôt que sur les outils de navigation agentique, mais la catégorie évolue. Tout outil propulsé par DeepSeek qui utilise une véritable automatisation de navigateur se présenterait comme une session de navigateur standard sans aucun lien avec l'agent utilisateur déclaré de DeepSeekBot. Votre blocage robots.txt serait sans effet sur ce trafic. Le même angle mort affecte plus largement la protection du contenu, c'est pourquoi bloquer les scrapers de contenu IA dépend de plus en plus du comportement plutôt que de l'auto-déclaration.

Pour comprendre à quoi ressemble cette lacune en pratique : imaginez un agent de recherche propulsé par DeepSeek chargé de compiler des renseignements sur un concurrent fournisseur de SaaS. Il ouvre une session Chromium headless, parcourt les pages de tarification et de documentation du site en séquence, et extrait des données structurées. La session présente une empreinte digitale Chrome légitime provenant d'un centre de données dans une juridiction non chinoise, de sorte que ni l'origine de l'IP ni l'agent utilisateur ne déclenchent de filtre. L'agent complète un audit complet de six pages en moins de 40 secondes, sans temps de présence sur les images et sans comportement de retour en arrière par défilement. Ces anomalies d'interaction ne sont visibles qu'au niveau du navigateur. Lors des tests contrôlés de cside, les outils traditionnels ont manqué les agents IA opérant à l'intérieur de vraies sessions de navigateur dans 81 scénarios sur 100, précisément parce que les outils de la couche réseau voient une requête propre et s'arrêtent là.

Tableau de bord de détection d'agents IA de cside

Plus largement, la préoccupation de souveraineté des données qui justifie le blocage de DeepSeekBot s'applique tout autant à toute session propulsée par l'IA accédant à votre site depuis une infrastructure située dans des juridictions ayant des cadres de gouvernance des données différents. La surveillance au niveau du navigateur de cside fait remonter les agents nommés et non nommés par signal comportemental plutôt que par auto-déclaration, y compris les sessions qui ne présentent aucune information d'identification.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

DeepSeekBot est le robot d'exploration web exploité par DeepSeek, une entreprise d'IA chinoise qui développe de grands modèles de langage. Il collecte du contenu web accessible publiquement pour entraîner les systèmes d'IA de DeepSeek. Il utilise une chaîne d'agent utilisateur déclarée et est conçu pour respecter les directives robots.txt. DeepSeek opère sous la loi et les réglementations chinoises sur les données.

Ajoutez User-agent : DeepSeekBot suivi de Disallow : / à votre fichier robots.txt pour le bloquer sur l'ensemble de votre site. Pour un contrôle au niveau des chemins, utilisez des règles Disallow spécifiques. Étant donné le bilan de conformité moins documenté de DeepSeekBot par rapport à GPTBot ou ClaudeBot, il vaut la peine d'envisager de compléter robots.txt par un blocage au niveau de l'IP.

DeepSeek est une entreprise chinoise opérant sous la juridiction et la loi chinoises sur les données. Les organisations dont les politiques restreignent le transfert de données vers certaines juridictions, ou soumises à des exigences réglementaires qui régissent les lieux d'accès à leurs données, ont des raisons de conformité spécifiques pour bloquer DeepSeekBot indépendamment d'une politique générale sur les robots d'exploration IA.

Bloquer DeepSeekBot empêche votre contenu d'être collecté lors des futures explorations d'entraînement. Le contenu déjà collecté avant l'ajout de votre blocage demeure dans les poids des modèles existants. Bloquer le robot d'exploration n'affecte aucun produit ou agent propulsé par DeepSeek qui navigue sur le web via des sessions de navigateur plutôt que via le robot d'exploration déclaré.

DeepSeekBot est conçu pour respecter les directives robots.txt, mais son bilan de conformité est moins minutieusement documenté dans les rapports indépendants comparé à GPTBot (OpenAI) ou ClaudeBot (Anthropic). Les organisations ayant des exigences strictes devraient envisager le blocage au niveau de l'IP comme complément d'application à robots.txt. Une revue trimestrielle des plages d'IP publiées par DeepSeek maintient cette couche d'application à jour.

Surveillez et sécurisez vos scripts tiers

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Réserver une démonstration

Commencez gratuitement

Commencez gratuitement, ou essayez Business avec un essai de 14 jours.

cside Interface du tableau de bord affichant la surveillance des scripts et les analyses de sécurité

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur les pixels non autorisés dans les jeux et la responsabilité RGPD

GDPR et jeux d'argent en ligne : pourquoi les pixels non autorisés créent un problème de double responsabilité

Les pixels non autorisés sur les sites de jeux d'argent créent une responsabilité GDPR et des suspensions de comptes publicitaires à la fois.

Comment Bloquer Bytespider (le Crawler IA de TikTok)

Bytespider explore votre site pour les systèmes IA de Bytedance. Découvrez comment le bloquer via robots.txt et plages d'IP, et les enjeux de souveraineté des données.

Couverture sombre du blog montrant trois méthodes d'attaque de scripts malveillants : redirections déclenchées depuis le navigateur, containers GTM fantômes avec tags malveillants et payloads mobiles géociblés

Comment les scripts malveillants détournent les parcours des joueurs de casino

Des scripts injectés redirigent les joueurs de casino avant le lobby. Les outils réseau ne les voient pas. Voici comment la détection doit fonctionner.

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur la sécurité des scripts pour les opérateurs de jeux en APAC

Sécurité des scripts côté client pour les opérateurs de jeux d'argent en ligne en APAC

Comment les opérateurs de jeux d'argent APAC (Japon, Singapour, Philippines, Australie) surveillent les scripts tiers sur des sessions réelles.

Comment Bloquer Amazon Buy for Me sur Votre Site Web

Amazon Buy for Me fait ses achats sur votre site pour les membres Prime. Découvrez comment il collecte vos données de prix et de produits et comment la détection au niveau du navigateur vous redonne le contrôle.

Prévention des prises de contrôle de compte : le guide complet 2026

Le guide opérationnel ATO 2026 : un modèle de bout en bout pour défendre connexion, récupération, session et post-authentification contre les prises de contrôle pilotées par agents IA et bots.

Couverture sombre du blog cside avec une vague de pixels bleus et une liste sur les scripts affiliés compromis qui volent les revenus des casinos

Comment les scripts d'affiliation compromis volent les revenus des casinos en ligne

Les scripts d'affiliation compromis redirigent joueurs et volent commissions sur les pages de casino, silencieusement et à grande échelle.

Couverture sombre du blog montrant trois vecteurs d'attaque par extension de navigateur : redirections vers des clones de phishing, vol de token de session et réécriture des champs de paiement dans le DOM

Comment les extensions de navigateur attaquent les joueurs de casino en ligne : ce que les opérateurs peuvent faire

Les extensions de navigateur volent des tokens de session et détournent des paiements sur des sites de casino. Voici comment les détecter.

Comment Bloquer la Création de Faux Comptes Alimentée par l'IA

Les agents IA créent de faux comptes avec un comportement humain qui déjoue les CAPTCHA. Découvrez les signaux navigateur qui révèlent les inscriptions automatisées.

Comment Bloquer CCBot (le Robot d'Indexation IA de Common Crawl)

CCBot alimente les jeux de données Common Crawl utilisés pour entraîner GPT-3, BLOOM, LLaMA et bien d'autres modèles d'IA. Découvrez comment le bloquer et ce que le blocage fait réellement.