Blog Attacks

Como Bloquear o GPTBot (e Porque Talvez Não Queira)

O GPTBot rastreia o seu site para treinar os modelos da OpenAI. Eis como bloqueá-lo com robots.txt e intervalos de IP, e o que o bloqueio ainda não cobre.

Jun 24, 2026 • 8 min read

Mike Kutlu Client-Side Security Consultant

Como Bloquear o GPTBot (e Porque Talvez Não Queira)

O GPTBot é o crawler de treino da OpenAI. Visita páginas web públicas, recolhe conteúdo e usa esse conteúdo para treinar versões futuras do ChatGPT e outros modelos da OpenAI. É distinto do OpenAI Operator (que faz transações) e do OAI-SearchBot (que alimenta a navegação ao vivo do ChatGPT). Perceber qual o sistema da OpenAI que está a visitar o seu site determina a resposta certa.

Bloquear o GPTBot com o robots.txt é simples e está amplamente documentado. A questão mais importante é se bloquear o crawler altera o que os agentes da OpenAI conseguem fazer no seu site, e a resposta, para agentes que fazem transações como o Operator, é não. Para o padrão mais amplo entre os scrapers de IA, consulte o nosso guia para bloquear bots de scraping de conteúdo com agentes de IA.

O que É o GPTBot?

Resposta rápida: O GPTBot é um crawler web declarado, operado pela OpenAI. O seu propósito é recolher conteúdo web publicamente disponível para usar no treino de modelos de IA. Identifica-se com uma string de user-agent conhecida e opera a partir de intervalos de IP publicados. A OpenAI afirma que o GPTBot respeita as diretivas do robots.txt.

A string de user-agent do GPTBot:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot)

A OpenAI publica os intervalos de IP atuais do GPTBot na sua documentação de bots. O crawler visita páginas, lê o conteúdo de texto e não executa JavaScript da mesma forma que um navegador real. É um crawler HTTP tradicional, não um agente interativo.

Como Bloquear o GPTBot com o robots.txt

Resposta rápida: Adicione o GPTBot ao seu robots.txt com uma diretiva Disallow: / para o bloquear em todo o seu site. A OpenAI afirma que ele respeita estas diretivas. Para controlo ao nível dos caminhos, use regras Disallow específicas para restringir o acesso a secções sensíveis enquanto permite o GPTBot no conteúdo público.

Para bloquear o GPTBot em todo o seu site:

User-agent: GPTBot
Disallow: /

Para bloquear o GPTBot apenas em caminhos específicos:

User-agent: GPTBot
Disallow: /private/
Disallow: /checkout/
Disallow: /account/
Allow: /blog/
Allow: /products/

A OpenAI cumpre estas diretivas para o crawler GPTBot declarado. Não existe um mecanismo de aplicação técnica; o robots.txt é uma declaração que os crawlers em conformidade optam por seguir. Mas o GPTBot tem um forte historial de conformidade comparado com alguns outros crawlers de IA que foram publicamente criticados por ignorarem as diretivas do robots.txt. A mesma abordagem com o robots.txt funciona para outros crawlers declarados, incluindo o CCBot.

Bloqueio ao Nível de IP para o GPTBot

Resposta rápida: A OpenAI publica os intervalos de IP do GPTBot, que pode negar na sua firewall ou CDN. Isto fornece uma camada de aplicação para além do robots.txt. Não exige que o crawler se autoidentifique, o que o torna mais fiável do que a correspondência por user-agent isolada.

Se precisar de uma aplicação rígida em vez de uma declaração, adicione os intervalos de IP publicados do GPTBot à sua blocklist ao nível da infraestrutura. Esta é a abordagem mais fiável para conteúdo de elevado valor porque:

Não depende de o crawler cumprir o robots.txt
Apanha versões do GPTBot mal configuradas ou mais antigas que podem não ler corretamente o seu robots.txt
Fornece um registo ao nível do servidor que pode auditar

Os intervalos de IP publicados pela OpenAI mudam periodicamente, por isso esta blocklist requer manutenção. Verifique a documentação de bots da OpenAI para obter a lista atual.

Porque Bloquear o GPTBot Não É Suficiente

Resposta rápida: O GPTBot é o crawler de treino da OpenAI. Bloqueá-lo não afeta o OpenAI Operator (o agente que faz transações), o OAI-SearchBot (o assistente de navegação ao vivo), nem qualquer futuro sistema agêntico da OpenAI. Cada um opera de forma independente, com user-agents, intervalos de IP e perfis comportamentais diferentes.

Esta é a distinção que a maioria dos engenheiros não percebe. Um proprietário de site que bloqueia o GPTBot acredita normalmente que tratou do "acesso da OpenAI ao seu conteúdo". Tratou de um sistema da OpenAI entre vários. O Operator, a navegação ao vivo do ChatGPT e os futuros produtos agênticos são sistemas separados que o bloqueio do GPTBot não toca.

O problema mais profundo é que o GPTBot é um crawler cooperativo e declarado. Pode bloqueá-lo porque a OpenAI lhe diz qual o seu aspeto. Os agentes mais disruptivos, não declarados, baseados em navegador, que fazem transações, são aqueles que não se identificam e não respeitam o robots.txt em nenhum sentido significativo. Bloquear o GPTBot trata da ameaça visível e cooperativa, deixando por resolver as invisíveis e não cooperativas. A mesma lacuna estrutural aplica-se a outros sistemas agênticos, incluindo o OpenAI Operator.

O que a Deteção na Camada do Navegador Acrescenta

Resposta rápida: O próprio GPTBot não exige deteção na camada do navegador, é visível na camada de rede. Mas os agentes que dão continuidade ao trabalho do GPTBot (o ChatGPT Operator, os shopping agents agênticos) não são. A deteção na camada do navegador fecha a lacuna entre os crawlers que consegue ver e os agentes que não consegue.

A cside não é necessária, em primeiro lugar, para detetar o GPTBot. Pode bloqueá-lo com duas linhas de robots.txt. A cside trata dos agentes que operam dentro de sessões de navegador reais: aqueles que executam JavaScript, interagem com a sua UI e criam sessões que parecem idênticas a utilizadores humanos legítimos na camada de rede.

Os sinais que a cside observa (tempo de interação, consistência da impressão digital, padrões de navegação, cadência comportamental) são irrelevantes para um simples crawler HTTP como o GPTBot. São essenciais para detetar o Operator, os shopping agents agênticos e as sessões automatizadas não declaradas que o robots.txt não consegue travar. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários.

Painel de deteção de agentes de IA da cside

Considere o que isto parece na prática. Uma sessão do OpenAI Operator dirigida a um site de retalho não se anuncia em nenhum cabeçalho. Inicia um navegador baseado em Chromium, carrega a página com execução completa de JavaScript, aceita cookies, navega pela árvore de categorias a um ritmo de leitura plausível, adiciona artigos ao carrinho e avança para o checkout. Na camada de rede, todos os sinais parecem os de um cliente com sessão iniciada: o IP pertence a um pool de residential proxy, a impressão digital TLS corresponde a uma versão de navegador atual e o cookie de sessão é válido.

O que muda é o comportamento na subcamada: os eventos de ponteiro chegam com um espaçamento de precisão de máquina, a profundidade de scroll aumenta em intervalos de pixéis consistentes e a distribuição do tempo em página para cada página de produto agrupa-se num valor muito mais fechado do que qualquer população de navegação humana produz. A instrumentação na camada do navegador da cside captura esses sinais e expõe a sessão como automatizada antes de chegar ao checkout. Uma WAF, regra de CDN ou filtro de user-agent não vê nada de invulgar. A mesma abordagem aplica-se a scrapers de conteúdo de IA não declarados e a outros crawlers que imitam navegadores reais.

Deve Bloquear o GPTBot?

Resposta rápida: Isso depende da sua relação com os produtos da OpenAI. Bloquear o GPTBot impede que o seu conteúdo seja usado no treino de futuros modelos. Não impede que o ChatGPT faça referência ao seu site através da navegação ao vivo, e não impede que o Operator faça transações no seu site. Pondere o que está realmente a tentar alcançar antes de decidir.

Razões para bloquear o GPTBot:

Não quer o seu conteúdo proprietário nos conjuntos de dados de treino da OpenAI
Tem preocupações concorrenciais quanto a ter o seu conteúdo exposto através das respostas do ChatGPT
Os seus termos de serviço restringem explicitamente a recolha automatizada de dados para treino de IA

Razões para não o bloquear (ou para pensar bem primeiro):

O seu conteúdo já beneficia de citações do ChatGPT nos resultados de pesquisa e nas respostas de IA
Quer que a sua marca e os seus produtos estejam bem representados na base de conhecimento do ChatGPT
Os futuros sistemas de shopping agents agênticos treinados com os dados dos seus produtos podem gerar tráfego de referência

As implicações de SEO e GEO de bloquear crawlers de IA ainda estão a ser resolvidas pela indústria. Um site que hoje bloqueia todos os crawlers de treino de IA pode amanhã descobrir que os seus produtos estão ausentes dos sistemas de recomendação baseados em IA.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

O GPTBot é o crawler web da OpenAI, que recolhe conteúdo web publicamente disponível para treinar modelos de IA, incluindo versões futuras do ChatGPT. Identifica-se com uma string de user-agent conhecida, opera a partir de intervalos de IP publicados e foi concebido para respeitar as diretivas do `robots.txt`. É um crawler HTTP que não executa JavaScript nem interage com interfaces de aplicações web.

Adicione `User-agent: GPTBot` seguido de `Disallow: /` ao seu ficheiro `robots.txt` para bloquear o GPTBot em todo o seu site. Para controlo ao nível dos caminhos, use regras `Disallow` específicas para restringir o acesso a secções sensíveis. A OpenAI afirmou que o GPTBot respeita estas diretivas.

Não. O GPTBot e o OpenAI Operator são sistemas separados. Bloquear o GPTBot impede que o crawler de treino visite o seu site. Não tem qualquer efeito sobre o Operator, o assistente de navegação ao vivo do ChatGPT, ou outros produtos agênticos da OpenAI. Esses sistemas operam de forma independente, com user-agents e perfis comportamentais diferentes.

Sim. A OpenAI publica os intervalos de IP do GPTBot na sua documentação de bots. Pode adicionar estes intervalos à deny list da sua firewall ou CDN para uma aplicação que não depende de o crawler ler corretamente o seu `robots.txt`. Estes intervalos de IP mudam periodicamente e requerem manutenção.

Bloquear o GPTBot impede que o seu conteúdo seja usado em futuras execuções de treino. Não remove o conteúdo que já foi indexado antes de adicionar o bloqueio. O knowledge cutoff do ChatGPT e o momento das visitas anteriores do GPTBot ao seu site determinam o que os modelos da OpenAI já sabem sobre o seu conteúdo.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Agende uma demonstração

Comece gratuitamente

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança

Como detectar e prevenir a partilha de conta sem prejudicar utilizadores legítimos

A maior objecção à detecção de partilha de conta são os falsos positivos: e se sinalizarmos um subscritor que está simplesmente a usar múltiplos…

Como Bloquear o GPTBot (e Porque Talvez Não Queira)

O GPTBot rastreia o seu site para treinar os modelos da OpenAI. Eis como bloqueá-lo com robots.txt e intervalos de IP, e o que o bloqueio ainda não cobre.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre ferramentas de gravação de sessão e risco de exfiltração de PII

Ferramentas de Session Recording em Sites de Jogo: O Risco de Exfiltração de PII que os Operadores Estão a Ignorar

Ferramentas de session recording em sites de jogo podem exfiltrar PII de jogadores quando mal configuradas ou comprometidas. Eis as três formas.

Detecção de partilha de conta: como fechar a lacuna de execução que os limites de sessões simultâneas não cobrem

Os limites de sessões simultâneas sinalizam o caso óbvio.

Uma trajetória de cursor azul brilhante e fluida ao lado de uma trajetória de bot vermelha e angular sobre um plano escuro.

Pegar bots pelo jeito como se movem: detecção comportamental de cursor

Como o modelo cursor_v2 da cside pontua o movimento do mouse para pegar os bots furtivos que já passam pelos controles de fingerprint e IP.

Como Bloquear o Applebot-Extended no Seu Site

O Applebot-Extended é o crawler de treino de IA da Apple que alimenta o Apple Intelligence. Saiba como difere do Applebot e como recusar via robots.txt.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre monitoramento de scripts de terceiros em domínios de cassino

Como monitorar scripts de terceiros em 100 ou mais domínios de cassino

Guia prático para monitorar scripts de terceiros em 100+ domínios de cassino: expansão de scripts, alertas entre domínios e escalabilidade cside.

Riscos de segurança da IA agêntica para sites: privacidade, conformidade e detecção

Navegadores de IA agêntica ignoram o consentimento de cookies, executam JavaScript real e criam lacunas de conformidade com o RGPD que a detecção de bots em nível CDN não consegue ver.

Ilustração de um sistema neural de detecção de bots em duas etapas que separa sessões de navegador humanas e de bots

Apanhar bots que não querem ser apanhados: por dentro de uma stack de deteção neural de duas fases

Como uma stack neural de duas fases apanha stealth browsers, scrapers com proxy residencial e agentes LLM que passam as verificações de fingerprint.

Como Bloquear o DeepSeekBot no Seu Website

O DeepSeekBot rastreia o seu site para uma empresa chinesa de IA. Saiba como bloqueá-lo com robots.txt, regras de IP e os reais riscos de soberania de dados que ele levanta.