Blog Attacks

Cómo Bloquear CCBot (el Rastreador de IA de Common Crawl)

CCBot alimenta los conjuntos de datos de Common Crawl usados para entrenar GPT-3, BLOOM, LLaMA y muchos otros modelos de IA. Aprende cómo bloquearlo y qué consigue realmente bloquearlo.

Jun 18, 2026 • 9 min read

Mike Kutlu Client-Side Security Consultant

Cómo Bloquear CCBot (el Rastreador de IA de Common Crawl)

Resumen: bloquear CCBot con el multiplicador aguas abajo de Common Crawl en mente

El multiplicador aguas abajo: Todos tratan a CCBot como un rastreador de IA más, pero Common Crawl es una organización sin ánimo de lucro 501(c)(3) cuyo archivo de petabytes entrenó GPT-3, BLOOM, LLaMA y decenas de otros modelos. Una línea de robots.txt llega a cada proyecto aguas abajo que extrae de ese dataset.
El bloqueo por robots.txt: CCBot se identifica como CCBot/2.0 (https://commoncrawl.org/faq/), respeta robots.txt de forma fiable según la propia documentación de Common Crawl, y un Disallow: / bajo su user-agent quita tu sitio de los futuros snapshots sin tocar los rankings de Googlebot ni Bingbot.
La decisión: Si tu objetivo es el control máximo sobre los datos de entrenamiento de IA, bloquea CCBot primero porque el multiplicador es real. Si quieres que tu experiencia se cite en ChatGPT, Claude y productos basados en LLaMA por razones de GEO, dejar a CCBot permitido hace el trabajo contrario.

¿Poco tiempo? Consulta la detección de agentes de IA de cside. Cubre todo lo de abajo en un solo despliegue.

CCBot está operado por Common Crawl, una organización sin ánimo de lucro que mantiene un archivo de contenido web a escala de petabytes y lo pone a disposición libremente como un conjunto de datos público. El conjunto de datos de Common Crawl se ha usado para entrenar GPT-3, BLOOM, LLaMA y docenas de otros modelos de IA importantes. Bloquear CCBot tiene efectos posteriores más amplios que bloquear el rastreador de cualquier empresa concreta.

Este es también uno de los pocos rastreadores de IA donde la decisión de bloqueo implica un compromiso claro: tu contenido fuera de los conjuntos de datos de entrenamiento de IA por completo frente a tu contenido contribuyendo a modelos fundacionales que impulsan una amplia gama de productos de IA. Si estás abordando el conjunto más amplio de rastreadores de IA, nuestra guía para bloquear bots de IA que rastrean y extraen contenido cubre todo el panorama.

¿Qué es CCBot y por qué importa?

Respuesta rápida: CCBot es el rastreador operado por Common Crawl, una organización sin ánimo de lucro que construye un archivo web libre y abierto. El archivo está disponible públicamente y se usa ampliamente para entrenar modelos de IA. Modelos importantes como GPT-3, BLOOM (BigScience) y LLaMA de Meta se entrenaron con conjuntos de datos derivados de Common Crawl. Bloquear CCBot elimina tu contenido de esta canalización, aguas arriba de muchos sistemas de IA específicos.

Common Crawl rastrea la web aproximadamente cada mes, construyendo un corpus de miles de millones de páginas. Estos datos se alojan en Amazon Web Services y están disponibles libremente para investigadores, empresas y organizaciones que construyen sistemas de IA. Como es un recurso público compartido y no propiedad exclusiva de una sola empresa, un bloqueo de CCBot llega más lejos que bloquear GPTBot o ClaudeBot: afecta a cualquier proyecto de IA que use Common Crawl como fuente de entrenamiento.

El encuadre como organización sin ánimo de lucro también es relevante: Common Crawl no es un intermediario comercial de datos. Su misión es democratizar los datos web para la investigación en IA. Ese contexto da forma al encuadre ético de la decisión de bloqueo de manera distinta a como lo hace para los rastreadores operados por empresas comerciales de IA que construyen productos propietarios.

Cómo bloquear CCBot con robots.txt

Respuesta rápida: Añade CCBot a tu robots.txt. Common Crawl documenta el proceso de forma explícita y declara que CCBot respeta las directivas de robots.txt. Las tasas de cumplimiento se consideran generalmente fiables para CCBot en comparación con algunos rastreadores comerciales de IA.

Para bloquear CCBot en todo tu sitio:

User-agent: CCBot
Disallow: /

Para control a nivel de ruta:

User-agent: CCBot
Disallow: /proprietary/
Disallow: /licensed/
Allow: /public/

El agente de usuario de CCBot es CCBot/2.0 (https://commoncrawl.org/faq/). Common Crawl lo documenta con claridad y ofrece orientación explícita para los propietarios de sitios que quieran excluirse.

El efecto posterior de bloquear CCBot

Respuesta rápida: Bloquear CCBot elimina tu contenido del conjunto de datos público de Common Crawl. Como muchos modelos de IA se entrenan con datos de Common Crawl, este único bloqueo tiene mayor alcance que bloquear el rastreador de cualquier empresa concreta. Tu contenido queda menos representado en los modelos fundacionales que impulsan ChatGPT, Claude, productos basados en LLaMA y docenas de otros sistemas de IA.

Esto tiene implicaciones tanto de privacidad como de GEO. Para las organizaciones que quieren el máximo control sobre los datos de entrenamiento de IA, bloquear CCBot tiene un gran apalancamiento por este efecto multiplicador. Para las organizaciones que quieren que su contenido esté bien representado en los sistemas de IA con fines de descubrimiento, recomendación o búsqueda, bloquear CCBot funciona en la dirección opuesta.

Conviene dejar clara la consideración de GEO: los sistemas de IA entrenados con más de tu contenido tienen más probabilidades de resumir, citar y recomendar con precisión tus productos, servicios o experiencia en respuestas generadas por IA. Esta es una dinámica en fase temprana y su magnitud no está establecida de forma definitiva, pero es una consideración real que debería informar la decisión de bloqueo.

¿Quién debería bloquear CCBot?

Respuesta rápida: Las organizaciones con requisitos sólidos de protección de datos, contenido licenciado o propietario, o políticas explícitas sobre el uso de datos de entrenamiento de IA tienen las razones más claras para bloquear CCBot. Las organizaciones que se benefician del descubrimiento de contenido impulsado por IA pueden tener razones para permitirlo. La mayoría debería empezar con monitorización y una comprensión clara de qué consigue bloquearlo.

Razones de peso para bloquear CCBot:

Contenido licenciado que no puede incluirse legalmente en conjuntos de datos de entrenamiento de terceros
Investigación, informes o datos propietarios que quieres proteger de las canalizaciones públicas de entrenamiento de IA
Política organizativa explícita en contra de la recopilación de datos de entrenamiento de IA
Requisitos legales o regulatorios que restringen la recopilación automatizada de datos

Razones para proceder con cautela antes de bloquear:

Bloquear CCBot elimina tu contenido del entrenamiento de modelos fundacionales de forma amplia, no solo de un producto
El contenido bien representado en los datos de entrenamiento de IA tiende a estar mejor referenciado en los sistemas de búsqueda y recomendación basados en IA
La naturaleza sin ánimo de lucro y de investigación abierta de Common Crawl es distinta de la extracción comercial de datos

Bloqueo a nivel de IP

Respuesta rápida: Common Crawl publica los rangos de IP de CCBot. Para una aplicación estricta, añade estos rangos a la lista de denegación de tu firewall o CDN. El historial de cumplimiento de CCBot es bueno, por lo que robots.txt suele ser suficiente, aunque el bloqueo por IP está disponible como complemento para requisitos de alta garantía.

La documentación y la información pública de Common Crawl enumeran los rangos de IP usados por CCBot. Para las organizaciones que necesitan una aplicación independiente de la autoidentificación del rastreador, añadir estos rangos a una lista de denegación del firewall aporta esa capa.

Detección en la capa del navegador y el ecosistema de scraping de IA

Respuesta rápida: CCBot es el extremo cooperativo del espectro de recopilación de datos de IA. Bloquearlo es sencillo porque Common Crawl opera de forma transparente y respeta robots.txt. El extremo más difícil del espectro es el scraper de IA no declarado que opera en una sesión de navegador real, recopilando los mismos datos, invisible para cualquier herramienta de capa de red que tengas.

El conjunto de datos abierto de Common Crawl entrena los modelos fundacionales que impulsan muchos scrapers comerciales de IA. Las organizaciones que bloquean CCBot por razones de protección de contenido a menudo también se enfrentan a agentes de scraping no declarados que usan navegadores reales, rotan a través de proxies residenciales y operan a intervalos de velocidad humana. Esas sesiones no producen ninguna señal de agente de usuario, ninguna coincidencia de IP y ninguna relevancia para robots.txt. Los rastreadores comerciales como ClaudeBot y Bytespider se sitúan entre estos dos extremos; si también quieres gestionar los rastreadores comerciales declarados, consulta nuestras guías sobre cómo bloquear ClaudeBot y cómo bloquear Bytespider.

La monitorización en la capa del navegador de cside revela estas sesiones a través de señales de comportamiento: patrones de eficiencia de navegación, regularidad de la interacción, estado de la huella digital y secuenciación de la extracción de contenido. En las pruebas controladas de cside, las herramientas de detección tradicionales no detectaron agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios.

Panel de detección de agentes de IA de cside

Cómo se ve esto en la práctica: un agente no declarado de extracción de contenido que apunta a un medio de comunicación carga la página de inicio en una sesión real de Chromium, acepta el banner de consentimiento de cookies, navega a la sección de archivo y abre artículos en secuencia. La IP de la sesión es residencial, la huella digital del navegador es coherente y actual, y desde la perspectiva de un WAF o un CDN la sesión es indistinguible de un suscriptor poniéndose al día con su lectura.

Lo que difiere es la capa de comportamiento: los eventos de desplazamiento llegan exactamente al final de cada artículo dentro de una ventana de tiempo fija, la navegación entre piezas sigue un intervalo coherente entre páginas y nunca se sigue ningún enlace de la barra lateral, porque el objetivo del agente es el texto del artículo, no la navegación exploratoria. La instrumentación de cside captura la regularidad de estos patrones de interacción y clasifica la sesión como automatizada. Para las organizaciones que han gestionado los rastreadores cooperativos con robots.txt y quieren abordar el resto del espectro de scraping, la detección en la capa del navegador es el siguiente paso.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

CCBot es el rastreador web de Common Crawl. Common Crawl es una organización sin ánimo de lucro que mantiene un archivo libre y abierto de contenido web usado para entrenar muchos modelos de IA importantes, incluidos GPT-3, LLaMA de Meta y BLOOM. Bloquear CCBot elimina tu contenido de esta canalización compartida, lo que tiene efectos posteriores más amplios que bloquear el rastreador de una sola empresa.

Añade `User-agent: CCBot` seguido de `Disallow: /` a tu archivo robots.txt. CCBot utiliza la cadena de agente de usuario `CCBot/2.0`. Common Crawl documenta este proceso y declara que CCBot respeta las directivas de robots.txt. Su cumplimiento se considera generalmente fiable.

Bloquear CCBot impide que tu contenido entre en futuras instantáneas de Common Crawl, lo que lo elimina de los conjuntos de datos de entrenamiento derivados de esas instantáneas en adelante. El contenido que ya está en los conjuntos de datos de entrenamiento existentes no se elimina de los modelos ya desplegados. El efecto es prospectivo, no retroactivo.

No. Common Crawl es una organización sin ánimo de lucro 501(c)(3) que construye un archivo web libre y abierto para la investigación en IA. No vende acceso a sus datos ni opera productos comerciales de IA. Los datos que recopila están disponibles libremente para cualquier organización, incluidos investigadores académicos, startups y grandes empresas de IA.

CCBot no es un rastreador de motores de búsqueda y bloquearlo no tiene ningún impacto directo en el SEO. Google, Bing y otros motores de búsqueda usan sus propios rastreadores (Googlebot, Bingbot), que son sistemas independientes. Bloquear CCBot no afecta a tu posicionamiento en los resultados de búsqueda tradicionales.

Monitoriza y protege tus scripts de terceros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Reserva una demo

Empieza gratis

Empieza gratis o prueba Business con una versión de prueba de 14 días.

Interfaz del panel de cside que muestra la monitorización de scripts y el análisis de seguridad

Protección contra bots en 2026: por qué la detección en la capa del navegador atrapa lo que los WAF no ven

Los agentes de IA corren en Chromium real y se cuelan por los WAF. La detección en la capa del navegador los atrapa con la entropía del canvas y la cadencia de sesión.

Prevención del fraude por contracargos: cómo la evidencia de dispositivo gana disputas en 2026

La prevención del fraude por contracargos depende de la evidencia de dispositivo capturada en el checkout, la prueba que Visa CE 3.0 acepta para contestar una disputa sin tarjeta presente.

Soluciones contra el account takeover: entiende la categoría antes de armar tu lista de candidatos

Las soluciones contra el account takeover abarcan cuatro capas: WAF, MFA, inteligencia de dispositivo en el navegador y analítica de comportamiento. Ningún proveedor las cubre todas.

El mejor software de detección de cuentas compartidas 2026: una comparación honesta

El fingerprinting de dispositivos cuenta cuántos dispositivos hay tras un inicio de sesión y detecta el abuso de plazas que la IP y el MFA no ven.

Detección de cuentas falsas: por qué la verificación por correo no basta en 2026

La verificación por correo y el CAPTCHA confirman un endpoint, no a una persona. El fingerprinting de dispositivos detecta cuentas falsas en el registro.

El mejor software de detección de VPN 2026: fingerprinting TLS TLS handshake fingerprint frente a listas de bloqueo de IP

Las mejores herramientas de detección de VPN usan fingerprinting TLS TLS handshake fingerprint para detectar los proxies residenciales y VPN que las listas de IP no ven.

Lista de comprobación de cumplimiento de PCI DSS 2026: requisitos 6.4.3 y 11.6.1 explicados

Los requisitos 6.4.3 y 11.6.1 son obligatorios desde marzo de 2025. Esto es lo que incluye una lista de comprobación de PCI DSS actual y cómo automatizarla.

Software de prevención de fraude por card testing: cómo detener la validación automatizada de tarjetas en el checkout

Cómo la detección en la capa del navegador frena el card testing en el checkout con comportamiento de sesión, agentes IA y device fingerprinting.

¿Qué es el formjacking? Cómo funciona y cómo detectarlo

El formjacking inyecta JavaScript malicioso en páginas de pago para robar datos de tarjeta según se escriben, invisible para WAF y CSP. Así se detecta.

¿Qué es el credential stuffing? Definición, ejemplos y detección

El credential stuffing prueba pares de usuario y contraseña robados en brechas contra otros sitios. Descubre cómo funciona y cómo lo detectan las señales de dispositivo.