Skip to main content
Blog
Blog Attacks

Como Bloquear o Bytespider (o Crawler de IA do TikTok)

O Bytespider rastreia o seu site para os sistemas de IA da Bytedance. Saiba como bloqueá-lo com robots.txt e intervalos de IP, e as principais preocupações de soberania de dados.

Jun 20, 2026 7 min read
Como Bloquear o Bytespider (o Crawler de IA do TikTok)

O Bytespider é o crawler web operado pela Bytedance, a empresa-mãe do TikTok. Recolhe conteúdo da web para treino de IA em todo o portefólio de produtos da Bytedance. Ao contrário da maioria dos grandes crawlers de treino de IA, o Bytespider atraiu uma atenção pública significativa em 2023 quando surgiram relatos de que estava a ignorar as diretivas robots.txt num conjunto de sites. Esse historial de conformidade torna-o um alvo de bloqueio de maior prioridade do que a maioria dos outros crawlers de IA declarados, incluindo alguns como o crawler por detrás do ClaudeBot que têm reputações de conformidade mais sólidas.


O que É o Bytespider?

Resposta rápida: O Bytespider é o crawler de treino de IA da Bytedance. É usado para recolher conteúdo da web para treinar modelos de IA que alimentam produtos em todo o portefólio da Bytedance, incluindo o TikTok. Usa uma string de user-agent declarada, mas atraiu escrutínio público por alegadamente contornar restrições do robots.txt em alguns sites em 2023.

O Bytespider usa uma string de user-agent na família Bytespider, com referências à documentação de crawler da Bytedance. Tal como outros crawlers de treino de IA, é uma ferramenta baseada em HTTP que faz requisições GET, lê o conteúdo das páginas e não executa JavaScript num contexto de navegador real.

A diferença fundamental entre o Bytespider e crawlers como o GPTBot ou o ClaudeBot é o historial de conformidade. Relatos de investigadores de segurança e proprietários de sites em 2023 documentaram casos em que o Bytespider ignorava as regras disallow do robots.txt. A Bytedance atualizou desde então as práticas do seu crawler, mas o incidente estabeleceu um nível de confiança diferente em comparação com os crawlers de IA sediados nos EUA, com reputações de conformidade mais sólidas.


Como Bloquear o Bytespider com o robots.txt

Resposta rápida: Adicione o Bytespider ao seu robots.txt. Dados os seus problemas de conformidade no passado, trate o robots.txt como um ponto de partida e não como uma solução completa. Complemente-o com bloqueio ao nível do IP para sites onde o acesso de crawlers precisa de uma aplicação rígida.

Para bloquear o Bytespider em todo o seu site:

User-agent: Bytespider
Disallow: /

Dado o historial de conformidade documentado, isto por si só pode não ser suficiente se o Bytespider retomar o comportamento de rastreio observado em 2023. O bloqueio ao nível do IP fornece a camada de aplicação que o robots.txt não consegue garantir. A mesma lógica aplica-se a qualquer crawler declarado bem-comportado que adicione ao lado dele, como o bot CCBot do Common Crawl.


Bloqueio ao Nível do IP para o Bytespider

Resposta rápida: A Bytedance publica os intervalos de IP do Bytespider na sua documentação de crawler. Negar estes intervalos na sua firewall ou CDN fornece uma aplicação independente da conformidade com o robots.txt. Para organizações com preocupações de governação de dados ou competitivas relativamente ao acesso da Bytedance, o bloqueio de IP é a abordagem mais fiável.

Passos do bloqueio ao nível do IP:

  1. Localize os intervalos de IP atuais publicados pela Bytedance para o Bytespider na documentação oficial
  2. Adicione-os à sua firewall, às regras de edge da CDN ou à configuração do reverse proxy
  3. Defina um ciclo de revisão, trimestral é suficiente para a maioria das organizações

A abordagem de bloqueio de IP apanha o Bytespider independentemente de ele ler ou não o seu robots.txt, o que aborda a preocupação central levantada pelos relatos de conformidade de 2023.


Preocupações de Soberania de Dados

Resposta rápida: A Bytedance é uma empresa chinesa que opera sob a lei chinesa. O conteúdo recolhido pelo Bytespider pode estar sujeito ao mesmo enquadramento de acesso a dados que se aplica a outras empresas tecnológicas chinesas que operam sob jurisdição chinesa. Para setores regulados ou organizações com políticas geopolíticas de dados explícitas, isto tem relevância específica em matéria de conformidade.

A preocupação aqui reflete o raciocínio por detrás do bloqueio do DeepSeekBot. Não é uma alegação de uso indevido específico de dados: é uma constatação sobre a exposição jurisdicional. As organizações que têm políticas explícitas sobre a transferência de dados para determinadas jurisdições, ou que lidam com conteúdo sujeito a requisitos regulatórios, têm razões documentadas para tratar os crawlers operados pela Bytedance de forma diferente dos crawlers operados por empresas sediadas nos EUA.

Empreiteiros governamentais, empresas de serviços financeiros, organizações de saúde e empresas tecnológicas com preocupações competitivas de propriedade intelectual têm estado ativos a adicionar o Bytespider às suas listas de bloqueio de crawlers com base nesta lógica.


Risco de Inteligência Competitiva

Resposta rápida: Para além dos dados de treino, o rastreio do Bytespider em sites de retalho, media e tecnologia cria um risco de inteligência competitiva para o roteiro de produtos da Bytedance. O TikTok Shop e as ambições de comércio eletrónico da Bytedance tornam os dados detalhados de catálogo de produtos e de preços dos concorrentes comercialmente valiosos, e não apenas úteis como dados de treino.

Esta é a preocupação de segunda ordem que torna o Bytespider diferente dos crawlers de IA puramente orientados para a investigação. A Bytedance opera o TikTok Shop e tem ambições significativas de infraestrutura de comércio eletrónico. Um crawler que recolhe sistematicamente preços, inventário e dados de catálogo de produtos de sites de retalho serve simultaneamente fins de treino e de inteligência competitiva.

Para retalhistas, empresas de media e qualquer site com dados proprietários de produtos ou conteúdo, esta natureza de uso duplo da recolha do Bytespider vale a pena ter em conta na decisão de bloqueio.


Deteção na Camada do Navegador: O que o robots.txt Deixa por Cobrir

Resposta rápida: Bloquear o Bytespider aborda o crawler de treino declarado da Bytedance. A controvérsia de conformidade de 2023 mostra que mesmo crawlers declarados podem operar fora dos parâmetros que declaram. Os agentes não declarados próximos da Bytedance que operam em sessões de navegador reais são totalmente invisíveis para as ferramentas de deteção baseadas em cabeçalhos e em regras.

O historial de conformidade do Bytespider torna a monitorização na camada do navegador especialmente relevante para as organizações que o bloqueiam. Se o crawler declarado contornou o robots.txt no passado, qualquer agente não declarado futuro que navegue no seu site numa sessão de navegador real não deixa nada para inspecionar na camada de rede. A lacuna é arquitetónica, não é algo que se possa configurar e eliminar, e é a mesma lacuna que permite que scrapers de conteúdo de IA não declarados escapem aos controlos baseados em regras.

A cside observa os sinais comportamentais dentro das sessões de navegador que distinguem as sessões automatizadas dos visitantes humanos: o tempo das interações, a consistência da impressão digital, os padrões de navegação e as características de execução de JavaScript. Nos testes controlados da cside, as ferramentas tradicionais não detetaram os agentes de IA que operavam dentro de sessões de navegador reais em 81 de cada 100 cenários.

Painel de deteção de agentes de IA da cside

Considere o aspeto de um agente não declarado próximo da Bytedance na camada do navegador. Uma sessão abre uma página de categoria de retalho num navegador completo, renderiza JavaScript e começa a extrair dados de preços e inventário de produtos. O IP está limpo, o user-agent é uma compilação atual do Chrome e a sessão apresenta uma impressão digital TLS válida. Nada na camada de rede aciona um alerta.

O que a cside observa é diferente: o agente abre cada página de detalhe de produto numa sequência fixa que corresponde à ordem da listagem da categoria, os eventos de hover sobre as imagens dos produtos estão ausentes e o tempo entre carregamentos de página é estável dentro de dezenas de milissegundos ao longo de dezenas de requisições. Nenhuma sessão de navegação humana produz essa combinação de sinais. A cside classifica a sessão como automatizada e expõe-na para revisão antes que dados significativos tenham sido extraídos. Para as organizações que adicionaram o Bytespider ao seu robots.txt e à lista de bloqueio de IP, a monitorização na camada do navegador fecha a lacuna que esses controlos deixam em aberto.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

O Bytespider é o crawler de treino de IA da Bytedance. A Bytedance é a empresa-mãe chinesa do TikTok. O Bytespider recolhe conteúdo da web para treinar modelos de IA usados em todos os produtos da Bytedance. Atraiu escrutínio público em 2023 por alegadamente ignorar restrições do robots.txt em alguns sites, o que o distingue de crawlers com historiais de conformidade mais sólidos.

Adicione `User-agent: Bytespider` seguido de `Disallow: /` ao seu ficheiro robots.txt. Dados os problemas de conformidade documentados do Bytespider em 2023, complemente isto com bloqueio ao nível do IP. Localize os intervalos de IP publicados pela Bytedance e adicione-os à lista de bloqueio da sua firewall ou CDN para uma aplicação rígida.

Relatos de 2023 documentaram casos em que o Bytespider rastreava páginas apesar das diretivas disallow do robots.txt. A Bytedance resolveu estes problemas e atualizou as práticas do seu crawler. Os incidentes estão documentados em relatórios públicos de segurança. Se as versões atuais do Bytespider respeitam plenamente o robots.txt é uma questão de monitorização contínua por parte da comunidade de proprietários de sites.

A Bytedance é uma empresa chinesa sujeita à lei chinesa, incluindo requisitos de acesso a dados que podem aplicar-se a empresas tecnológicas chinesas. As organizações com políticas regulatórias que restringem a transferência de dados para jurisdições específicas, ou com preocupações de propriedade intelectual sobre a origem dos dados de treino de IA, têm razões de conformidade específicas para bloquear o Bytespider, para além de uma política geral de bloqueio de crawlers.

O Bytespider é um agente de rastreio que recolhe sistematicamente o conteúdo das páginas para fins de treino. Não é representativo dos utilizadores que visitam o seu site a partir do TikTok. O tráfego de utilizadores do TikTok que chega através de ligações ou referências é tráfego de navegador normal. O Bytespider é um sistema distinto e automatizado, operado ao nível da infraestrutura para recolher dados em escala.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança
Related Articles
Agende uma demonstração