DeepSeekBot est le robot d'exploration web exploité par DeepSeek, l'entreprise d'IA chinoise qui a attiré une large attention début 2025 avec des modèles égalant ou dépassant les performances de GPT-4 pour une fraction du coût d'entraînement. Le robot d'exploration collecte du contenu web pour entraîner et améliorer les modèles d'IA de DeepSeek.
Pour de nombreux propriétaires de sites, bloquer DeepSeekBot est autant une décision de souveraineté des données qu'une décision technique. La même approche robots.txt qui fonctionne pour GPTBot et ClaudeBot s'applique ici, avec quelques considérations supplémentaires.
Qu'est-ce que DeepSeekBot ?
Réponse rapide : DeepSeekBot est un robot d'exploration web exploité par DeepSeek, une entreprise chinoise de recherche en IA. Il collecte du contenu web accessible publiquement pour entraîner les modèles de langage de DeepSeek. Il s'identifie avec une chaîne d'agent utilisateur déclarée et est un robot HTTP qui n'exécute pas de JavaScript et n'interagit pas avec les interfaces d'application web.
Le robot d'exploration de DeepSeek utilise des identifiants d'agent utilisateur de la famille DeepSeek. Comme les autres robots d'exploration d'entraînement IA déclarés, il effectue des requêtes HTTP GET, lit le contenu textuel et est conçu pour respecter les directives robots.txt.
DeepSeek opère sous la loi et les réglementations chinoises sur les données, ce qui crée un profil de risque différent de celui des robots d'exploration exploités par des entreprises basées aux États-Unis. Le contenu collecté par DeepSeekBot peut être soumis aux exigences d'accès aux données qui s'appliquent aux entreprises technologiques chinoises sous la juridiction chinoise. C'est un contexte pertinent pour les organisations ayant des obligations réglementaires, une propriété intellectuelle sensible ou des politiques de gouvernance des données qui prennent en compte l'origine des données.
Comment Bloquer DeepSeekBot avec robots.txt
Réponse rapide : Ajoutez
DeepSeekBotà votrerobots.txtavec une directiveDisallow: /. Si le robot d'exploration de DeepSeek respecterobots.txt(ce pour quoi il est conçu), cela bloque toute collecte depuis votre site. Utilisez des règles au niveau des chemins pour un contrôle plus granulaire.
Pour bloquer DeepSeekBot sur l'ensemble de votre site :
User-agent: DeepSeekBot
Disallow: /
Si vous souhaitez autoriser l'indexation de certains contenus tout en protégeant les zones sensibles :
User-agent: DeepSeekBot
Disallow: /account/
Disallow: /checkout/
Disallow: /api/
Allow: /blog/
Contrairement à GPTBot et ClaudeBot, qui ont des bilans de conformité bien documentés, l'historique de conformité de DeepSeekBot à robots.txt est moins minutieusement documenté dans les rapports publics. Si la fiabilité de l'application compte, envisagez de compléter robots.txt par un blocage au niveau de l'IP. La même lacune s'applique à d'autres robots d'exploration d'entraînement moins documentés, comme Bytespider de ByteDance et CCBot de Common Crawl.
Considérations de Souveraineté des Données
Réponse rapide : DeepSeek est constituée en Chine et opère sous la loi chinoise. Le contenu collecté par son robot d'exploration peut être soumis aux exigences d'accès aux données qui s'appliquent aux entreprises technologiques chinoises. Pour les organisations dans des secteurs réglementés ou avec des politiques explicites de gouvernance des données, cette distinction a un poids de conformité supérieur à celui qu'elle aurait pour un robot d'exploration basé aux États-Unis.
Ce n'est pas une affirmation que DeepSeek détourne activement les données. C'est une déclaration sur la juridiction et le cadre juridique sous lequel les données collectées existent. Les organisations qui maintiennent des politiques restreignant le transfert de données vers certaines juridictions, ou qui ont des préoccupations de PI quant à l'origine des données d'entraînement de l'IA, ont des raisons techniques et juridiques légitimes pour bloquer DeepSeekBot spécifiquement plutôt que dans le cadre d'une politique générale sur les robots d'exploration IA.
Les équipes de sécurité des services financiers, de la santé, des contractants gouvernementaux et des entreprises technologiques avec une PI propriétaire ont été parmi les premières à ajouter DeepSeekBot à leurs listes de blocage de robots d'exploration pour exactement cette raison.
Blocage au Niveau de l'IP pour DeepSeekBot
Réponse rapide : DeepSeek publie les plages d'IP de son robot d'exploration dans sa documentation. Ajouter ces plages à votre pare-feu ou CDN fournit une application qui ne dépend pas de la conformité à
robots.txt. Étant donné la certitude de conformité plus faible par rapport aux robots d'exploration basés aux États-Unis, le blocage d'IP est l'approche la plus fiable pour les organisations ayant des exigences strictes.
Pour mettre en œuvre un blocage au niveau de l'IP :
- Localisez les plages d'IP actuellement publiées par DeepSeek depuis sa documentation officielle
- Ajoutez ces plages à la liste de refus de votre pare-feu, CDN ou proxy inverse
- Définissez un cycle de revue pour les mises à jour, car les plages d'IP s'étendent avec la croissance de l'infrastructure d'exploration
Comme pour toutes les listes d'IP de robots d'exploration, cela nécessite une maintenance continue. Un cycle de revue trimestriel est suffisant pour la plupart des organisations.
DeepSeekBot vs. Agents Propulsés par DeepSeek
Réponse rapide : Bloquer DeepSeekBot traite le pipeline de données d'entraînement de DeepSeek. Si DeepSeek construit ou active des produits d'IA agentiques qui naviguent sur le web pour le compte des utilisateurs, ces sessions ne seraient pas DeepSeekBot et ne seraient pas affectées par vos règles
robots.txt.
L'orientation produit publique de DeepSeek a porté sur les capacités des modèles de langage plutôt que sur les outils de navigation agentique, mais c'est un domaine en évolution. La lacune structurelle s'applique ici comme pour OpenAI et Anthropic : le robot d'exploration déclaré et tout futur agent interactif sont des systèmes distincts.
Les organisations qui veulent une protection complète contre tout accès automatisé lié à DeepSeek à leurs sites devraient surveiller les annonces de produits de DeepSeek concernant les produits agentiques, en particulier toute capacité d'utilisation de navigateur ou d'ordinateur qui créerait des sessions de navigateur non déclarées. La détection au niveau du navigateur couvre ces scénarios ; robots.txt ne le fait pas.
Détection au Niveau du Navigateur : Au-delà du Robot d'Exploration Déclaré
Réponse rapide : Bloquer DeepSeekBot traite le robot d'exploration d'entraînement déclaré de DeepSeek. Cela ne traite pas les agents ou applications propulsés par DeepSeek qui naviguent sur votre site dans de vraies sessions de navigateur pour le compte des utilisateurs. Ces sessions nécessitent une détection comportementale au niveau du navigateur, pas des règles
robots.txt.
La feuille de route produit publique de DeepSeek s'est concentrée sur les capacités des modèles de langage plutôt que sur les outils de navigation agentique, mais la catégorie évolue. Tout outil propulsé par DeepSeek qui utilise une véritable automatisation de navigateur se présenterait comme une session de navigateur standard sans aucun lien avec l'agent utilisateur déclaré de DeepSeekBot. Votre blocage robots.txt serait sans effet sur ce trafic. Le même angle mort affecte plus largement la protection du contenu, c'est pourquoi bloquer les scrapers de contenu IA dépend de plus en plus du comportement plutôt que de l'auto-déclaration.
Pour comprendre à quoi ressemble cette lacune en pratique : imaginez un agent de recherche propulsé par DeepSeek chargé de compiler des renseignements sur un concurrent fournisseur de SaaS. Il ouvre une session Chromium headless, parcourt les pages de tarification et de documentation du site en séquence, et extrait des données structurées. La session présente une empreinte digitale Chrome légitime provenant d'un centre de données dans une juridiction non chinoise, de sorte que ni l'origine de l'IP ni l'agent utilisateur ne déclenchent de filtre. L'agent complète un audit complet de six pages en moins de 40 secondes, sans temps de présence sur les images et sans comportement de retour en arrière par défilement. Ces anomalies d'interaction ne sont visibles qu'au niveau du navigateur. Lors des tests contrôlés de cside, les outils traditionnels ont manqué les agents IA opérant à l'intérieur de vraies sessions de navigateur dans 81 scénarios sur 100, précisément parce que les outils de la couche réseau voient une requête propre et s'arrêtent là.

Plus largement, la préoccupation de souveraineté des données qui justifie le blocage de DeepSeekBot s'applique tout autant à toute session propulsée par l'IA accédant à votre site depuis une infrastructure située dans des juridictions ayant des cadres de gouvernance des données différents. La surveillance au niveau du navigateur de cside fait remonter les agents nommés et non nommés par signal comportemental plutôt que par auto-déclaration, y compris les sessions qui ne présentent aucune information d'identification.




