Skip to main content
Blog
Blog Attacks

Como Bloquear o CCBot (o Crawler de IA da Common Crawl)

O CCBot alimenta os conjuntos de dados da Common Crawl usados para treinar o GPT-3, o BLOOM, o LLaMA e muitos outros modelos de IA. Saiba como bloqueá-lo e o que o bloqueio realmente faz.

Jun 18, 2026 8 min read
Como Bloquear o CCBot (o Crawler de IA da Common Crawl)

O CCBot é operado pela Common Crawl, uma organização sem fins lucrativos que mantém um arquivo à escala de petabytes de conteúdo web e o disponibiliza gratuitamente como um conjunto de dados público. O conjunto de dados da Common Crawl tem sido usado para treinar o GPT-3, o BLOOM, o LLaMA e dezenas de outros grandes modelos de IA. Bloquear o CCBot tem efeitos a jusante mais amplos do que bloquear o crawler de qualquer empresa individual.

Este é também um dos poucos crawlers de IA em que a decisão de bloqueio envolve um compromisso direto: o seu conteúdo totalmente fora dos conjuntos de dados de treino de IA versus o seu conteúdo a contribuir para os modelos de base que alimentam uma vasta gama de produtos de IA. Se está a trabalhar no conjunto mais amplo de crawlers de IA, o nosso guia para bloquear bots de IA que fazem scraping de conteúdo cobre todo o panorama.


O que É o CCBot e Por Que Importa?

Resposta rápida: O CCBot é o crawler operado pela Common Crawl, uma organização sem fins lucrativos que constrói um arquivo web aberto e gratuito. O arquivo está disponível publicamente e é amplamente usado para o treino de modelos de IA. Grandes modelos, incluindo o GPT-3, o BLOOM (BigScience) e o LLaMA da Meta, foram treinados em conjuntos de dados derivados da Common Crawl. Bloquear o CCBot remove o seu conteúdo deste pipeline a montante de muitos sistemas de IA específicos.

A Common Crawl rastreia a web aproximadamente uma vez por mês, construindo um corpus de milhares de milhões de páginas. Estes dados estão alojados na Amazon Web Services e disponíveis gratuitamente para investigadores, empresas e organizações que constroem sistemas de IA. Por ser um recurso público partilhado em vez de proprietário de uma única empresa, um bloqueio ao CCBot tem maior alcance do que bloquear o GPTBot ou o ClaudeBot: afeta qualquer projeto de IA que use a Common Crawl como fonte de treino.

O enquadramento de organização sem fins lucrativos também é relevante: a Common Crawl não é um corretor de dados comercial. A sua missão é democratizar os dados da web para a investigação em IA. Esse contexto enquadra a ética da decisão de bloqueio de forma diferente do que acontece com crawlers operados por empresas de IA comerciais que constroem produtos proprietários.


Como Bloquear o CCBot com o robots.txt

Resposta rápida: Adicione CCBot ao seu robots.txt. A Common Crawl documenta o processo explicitamente e afirma que o CCBot respeita as diretivas do robots.txt. As taxas de conformidade são geralmente consideradas fiáveis para o CCBot em comparação com alguns crawlers de IA comerciais.

Para bloquear o CCBot de todo o seu site:

User-agent: CCBot
Disallow: /

Para controlo ao nível do caminho:

User-agent: CCBot
Disallow: /proprietary/
Disallow: /licensed/
Allow: /public/

O user-agent do CCBot é CCBot/2.0 (https://commoncrawl.org/faq/). A Common Crawl documenta isto claramente e fornece orientações explícitas para os proprietários de sites que pretendem optar por não participar.


O Efeito a Jusante de Bloquear o CCBot

Resposta rápida: Bloquear o CCBot remove o seu conteúdo do conjunto de dados público da Common Crawl. Como muitos modelos de IA são treinados em dados da Common Crawl, este único bloqueio tem maior alcance do que bloquear o crawler de qualquer empresa individual. O seu conteúdo passa a estar menos representado nos modelos de base que alimentam o ChatGPT, o Claude, os produtos baseados em LLaMA e dezenas de outros sistemas de IA.

Isto tem implicações tanto de privacidade como de GEO. Para organizações que querem o máximo controlo sobre os dados de treino de IA, bloquear o CCBot tem grande alavancagem devido a este efeito multiplicador. Para organizações que querem que o seu conteúdo esteja bem representado nos sistemas de IA para fins de descoberta, recomendação ou busca, bloquear o CCBot funciona na direção oposta.

A consideração de GEO merece ser dita com clareza: os sistemas de IA treinados com mais do seu conteúdo têm maior probabilidade de resumir, citar e recomendar com precisão os seus produtos, serviços ou competências nas respostas geradas por IA. Esta é uma dinâmica em fase inicial e a sua magnitude ainda não está definitivamente estabelecida, mas é uma consideração real que deve informar a decisão de bloqueio.


Quem Deve Bloquear o CCBot?

Resposta rápida: As organizações com requisitos rigorosos de proteção de dados, conteúdo licenciado ou proprietário, ou políticas explícitas sobre o uso de dados para treino de IA têm as razões mais claras para bloquear o CCBot. As organizações que beneficiam da descoberta de conteúdo impulsionada por IA podem ter razões para o permitir. A maioria deve começar pela monitorização e por uma compreensão clara do que o bloqueio alcança.

Razões fortes para bloquear o CCBot:

  • Conteúdo licenciado que não pode legalmente ser incluído em conjuntos de dados de treino de terceiros
  • Investigação, relatórios ou dados proprietários que pretende proteger de pipelines públicos de treino de IA
  • Política organizacional explícita contra a recolha de dados para treino de IA
  • Requisitos legais ou regulatórios que restringem a recolha automatizada de dados

Razões para proceder com cuidado antes de bloquear:

  • Bloquear o CCBot remove o seu conteúdo do treino de modelos de base de forma ampla, não apenas de um produto
  • O conteúdo bem representado nos dados de treino de IA tende a ser melhor referenciado nos sistemas de busca e recomendação por IA
  • A natureza sem fins lucrativos e de investigação aberta da Common Crawl é diferente da extração comercial de dados

Bloqueio ao Nível do IP

Resposta rápida: A Common Crawl publica os intervalos de IP do CCBot. Para uma aplicação rigorosa, adicione estes intervalos à lista de bloqueio da sua firewall ou CDN. O historial de conformidade do CCBot é bom, por isso o robots.txt é geralmente suficiente, embora o bloqueio de IP esteja disponível como complemento para requisitos de elevada garantia.

A documentação e a informação pública da Common Crawl listam os intervalos de IP usados pelo CCBot. Para organizações que precisam de uma aplicação independente da auto-identificação do crawler, adicionar estes intervalos a uma lista de bloqueio de firewall fornece essa camada.


Deteção na Camada do Navegador e o Ecossistema de Scraping de IA

Resposta rápida: O CCBot está na extremidade cooperativa do espectro de recolha de dados de IA. Bloqueá-lo é simples porque a Common Crawl opera de forma transparente e respeita o robots.txt. A extremidade mais difícil do espectro é o scraper de IA não declarado que opera numa sessão de navegador real, recolhendo os mesmos dados, invisível para todas as ferramentas da camada de rede que possui.

O conjunto de dados aberto da Common Crawl treina os modelos de base que alimentam muitos scrapers de IA comerciais. As organizações que bloqueiam o CCBot por razões de proteção de conteúdo enfrentam frequentemente também agentes de scraping não declarados que usam navegadores reais, rotacionam entre proxies residenciais e operam em intervalos à velocidade humana. Essas sessões não produzem sinal de user-agent, correspondência de IP nem relevância de robots.txt. Os crawlers comerciais como o ClaudeBot e o Bytespider situam-se entre estas duas extremidades; se também quiser lidar com os crawlers comerciais declarados, consulte os nossos guias sobre como bloquear o ClaudeBot e como bloquear o Bytespider.

A monitorização na camada do navegador da cside revela estas sessões através de sinais comportamentais: padrões de eficiência de navegação, regularidade de interação, estado da impressão digital e sequenciamento de extração de conteúdo. Nos testes controlados da cside, as ferramentas de deteção tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários.

Painel de deteção de agentes de IA da cside

O que isto parece na prática: um agente não declarado de scraping de conteúdo que tem como alvo um editor de média carrega a página inicial numa sessão Chromium real, aceita o banner de consentimento de cookies, navega até à secção de arquivo e abre artigos em sequência. O IP da sessão é residencial, a impressão digital do navegador é consistente e atual, e da perspetiva de um WAF ou CDN a sessão é indistinguível de um assinante a pôr a leitura em dia.

O que difere é a camada comportamental: os eventos de scroll completam-se até ao fundo exato de cada artigo dentro de uma janela de tempo fixa, a navegação entre peças segue um intervalo entre páginas consistente e nunca é seguido qualquer link da barra lateral, porque o objetivo do agente é o texto do artigo, não a navegação exploratória. A instrumentação da cside capta a regularidade destes padrões de interação e classifica a sessão como automatizada. Para organizações que lidaram com crawlers cooperativos através do robots.txt e querem abordar o resto do espectro de scraping, a deteção na camada do navegador é o próximo passo.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

O CCBot é o crawler web da Common Crawl. A Common Crawl é uma organização sem fins lucrativos que mantém um arquivo aberto e gratuito de conteúdo web usado para treinar muitos dos principais modelos de IA, incluindo o GPT-3, o LLaMA da Meta e o BLOOM. Bloquear o CCBot remove o seu conteúdo deste pipeline partilhado, o que tem efeitos a jusante mais amplos do que bloquear o crawler de uma única empresa.

Adicione `User-agent: CCBot` seguido de `Disallow: /` ao seu ficheiro robots.txt. O CCBot usa a string de user-agent `CCBot/2.0`. A Common Crawl documenta este processo e afirma que o CCBot respeita as diretivas do robots.txt. A conformidade é geralmente considerada fiável.

Bloquear o CCBot impede que o seu conteúdo entre em futuros snapshots da Common Crawl, o que o remove dos conjuntos de dados de treino derivados desses snapshots daqui em diante. O conteúdo já presente em conjuntos de dados de treino existentes não é removido dos modelos já implantados. O efeito é prospetivo, não retroativo.

Não. A Common Crawl é uma organização sem fins lucrativos 501(c)(3) que constrói um arquivo web aberto e gratuito para investigação em IA. Não vende acesso aos seus dados nem opera produtos de IA comerciais. Os dados que recolhe estão disponíveis gratuitamente para qualquer organização, incluindo investigadores académicos, startups e grandes empresas de IA.

O CCBot não é um crawler de motor de busca e bloqueá-lo não tem impacto direto no SEO. O Google, o Bing e outros motores de busca usam os seus próprios crawlers (Googlebot, Bingbot), que são sistemas separados. Bloquear o CCBot não afeta a sua classificação nos resultados de busca tradicionais.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança
Related Articles
Agende uma demonstração