Blog Attacks

Como Bloquear o Bytespider (o Crawler de IA do TikTok)

O Bytespider rastreia o seu site para os sistemas de IA da Bytedance. Saiba como bloqueá-lo com robots.txt e intervalos de IP, e as preocupações de soberania de dados.

Jun 20, 2026 • 8 min read

Mike Kutlu Client-Side Security Consultant

Como Bloquear o Bytespider (o Crawler de IA do TikTok)

Resumo: bloquear o Bytespider depois dos relatos de não conformidade com o robots.txt em 2023

O problema de confiança de 2023: Uma linha Disallow: Bytespider parece um problema resolvido até nos lembrarmos de 2023. O reporting público de segurança documentou o Bytespider a rastrear páginas com diretivas disallow explícitas no robots.txt, o que estabelece uma base de confiança diferente da do GPTBot ou do ClaudeBot.
Bloqueio ao nível de IP: A ByteDance publica os intervalos de IP do Bytespider na sua documentação de crawler, pelo que uma lista de bloqueio na firewall ou CDN apanha o crawler independentemente de este ler ou não o robots.txt, e uma revisão trimestral mantém a lista atualizada à medida que os intervalos se expandem.
A decisão: Se é um contratante governamental, uma empresa de serviços financeiros, uma organização de saúde ou detém propriedade intelectual competitiva, trate o Bytespider como um alvo de bloqueio por IP, com o robots.txt como sinal secundário. Se a sua política de governação de dados nada diz sobre a jurisdição chinesa, a linha do robots.txt sozinha pode ser suficiente.

Sem tempo? Veja a deteção de agentes de IA da cside. Cobre tudo o que se segue numa única implementação.

O Bytespider é o crawler web operado pela Bytedance, a empresa-mãe do TikTok. Recolhe conteúdo da web para treino de IA em todo o portefólio de produtos da Bytedance. Ao contrário da maioria dos grandes crawlers de treino de IA, o Bytespider atraiu uma atenção pública significativa em 2023, quando surgiram relatos de que estava a ignorar as diretivas robots.txt num número de sites. Esse historial de conformidade torna-o um alvo de bloqueio de maior prioridade do que a maioria dos outros crawlers de IA declarados, incluindo alguns como o crawler por detrás do ClaudeBot, que têm reputações de conformidade mais sólidas.

O que é o Bytespider?

Resposta rápida: o Bytespider é o crawler de treino de IA da Bytedance. É usado para recolher conteúdo da web para treinar modelos de IA que alimentam produtos em todo o portefólio da Bytedance, incluindo o TikTok. Usa uma string de user-agent declarada, mas atraiu escrutínio público por alegadamente contornar restrições do robots.txt em alguns sites em 2023.

O Bytespider usa uma string de user-agent da família Bytespider, com referências à documentação de crawler da Bytedance. Tal como outros crawlers de treino de IA, é uma ferramenta baseada em HTTP que faz pedidos GET, lê o conteúdo das páginas e não executa JavaScript num contexto de navegador real.

A diferença fundamental entre o Bytespider e crawlers como o GPTBot ou o ClaudeBot é o historial de conformidade. Relatos de investigadores de segurança e proprietários de sites em 2023 documentaram casos em que o Bytespider ignorava as regras disallow do robots.txt. A Bytedance atualizou desde então as práticas do seu crawler, mas o incidente estabeleceu um nível de confiança diferente em comparação com crawlers de IA sediados nos EUA com reputações de conformidade mais sólidas.

Como bloquear o Bytespider com o robots.txt

Resposta rápida: adicione o Bytespider ao seu robots.txt. Dados os seus problemas de conformidade no passado, trate o robots.txt como um ponto de partida e não como uma solução completa. Complemente-o com bloqueio ao nível do IP para sites onde o acesso de crawlers precisa de uma aplicação rígida.

Para bloquear o Bytespider em todo o seu site:

User-agent: Bytespider
Disallow: /

Dado o historial de conformidade documentado, isto por si só pode não ser suficiente se o Bytespider retomar o comportamento de rastreio observado em 2023. O bloqueio ao nível do IP fornece a camada de aplicação que o robots.txt não consegue garantir. A mesma lógica aplica-se a qualquer crawler declarado bem-comportado que adicione ao lado dele, como o bot CCBot do Common Crawl.

Bloqueio ao nível do IP para o Bytespider

Resposta rápida: a Bytedance publica os intervalos de IP do Bytespider na sua documentação de crawler. Negar estes intervalos na firewall ou CDN fornece uma aplicação independente da conformidade com o robots.txt. Para organizações com preocupações de governação de dados ou competitivas relativamente ao acesso da Bytedance, o bloqueio de IP é a abordagem mais fiável.

Passos do bloqueio ao nível do IP:

Localize os intervalos de IP atuais publicados pela Bytedance para o Bytespider na documentação oficial
Adicione-os à sua firewall, às regras de edge da CDN ou à configuração do reverse proxy
Defina um ciclo de revisão; trimestral é suficiente para a maioria das organizações

A abordagem de bloqueio de IP apanha o Bytespider independentemente de este ler ou não o seu robots.txt, o que aborda a preocupação central levantada pelos relatos de conformidade de 2023.

Preocupações de soberania de dados

Resposta rápida: a Bytedance é uma empresa chinesa que opera sob a lei chinesa. O conteúdo recolhido pelo Bytespider pode estar sujeito ao mesmo enquadramento de acesso a dados que se aplica a outras empresas tecnológicas chinesas que operam sob jurisdição chinesa. Para setores regulados ou organizações com políticas geopolíticas de dados explícitas, isto tem relevância específica em matéria de conformidade.

A preocupação aqui reflete o raciocínio por detrás do bloqueio do DeepSeekBot. Não é uma alegação de utilização indevida específica de dados: é uma constatação sobre a exposição jurisdicional. As organizações que têm políticas explícitas sobre a transferência de dados para determinadas jurisdições, ou que lidam com conteúdo sujeito a requisitos regulatórios, têm razões documentadas para tratar os crawlers operados pela Bytedance de forma diferente dos crawlers operados por empresas sediadas nos EUA.

Contratantes governamentais, empresas de serviços financeiros, organizações de saúde e empresas tecnológicas com preocupações competitivas de propriedade intelectual têm estado ativos a adicionar o Bytespider às suas listas de bloqueio de crawlers com base nesta lógica.

Risco de inteligência competitiva

Resposta rápida: para além dos dados de treino, o rastreio do Bytespider em sites de retalho, media e tecnologia cria um risco de inteligência competitiva para o roteiro de produtos da Bytedance. O TikTok Shop e as ambições de comércio eletrónico da Bytedance tornam os dados detalhados de catálogo de produtos e de preços dos concorrentes comercialmente valiosos.

Esta é a preocupação de segunda ordem que torna o Bytespider diferente dos crawlers de IA puramente orientados para a investigação. A Bytedance opera o TikTok Shop e tem ambições significativas de infraestrutura de comércio eletrónico. Um crawler que recolhe sistematicamente preços, inventário e dados de catálogo de produtos de sites de retalho serve simultaneamente fins de treino e de inteligência competitiva.

Para retalhistas, empresas de media e qualquer site com dados proprietários de produtos ou conteúdo, esta natureza de duplo uso da recolha do Bytespider vale a pena ter em conta na decisão de bloqueio.

Deteção na camada do navegador: o que o robots.txt deixa por cobrir

Resposta rápida: bloquear o Bytespider aborda o crawler de treino declarado da Bytedance. A controvérsia de conformidade de 2023 mostra que mesmo crawlers declarados podem operar fora dos parâmetros que declaram. Os agentes não declarados próximos da Bytedance que operam em sessões de navegador reais são totalmente invisíveis para as ferramentas de deteção baseadas em cabeçalhos e em regras.

O historial de conformidade do Bytespider torna a monitorização na camada do navegador especialmente relevante para as organizações que o bloqueiam. Se o crawler declarado contornou o robots.txt no passado, qualquer agente não declarado futuro que navegue no seu site numa sessão de navegador real não deixa nada para inspecionar na camada de rede. A lacuna é arquitetónica, não é algo que se possa configurar e eliminar, e é a mesma lacuna que permite que scrapers de conteúdo de IA não declarados escapem aos controlos baseados em regras.

A cside observa os sinais comportamentais dentro das sessões de navegador que distinguem as sessões automatizadas dos visitantes humanos: o tempo das interações, a consistência da impressão digital, os padrões de navegação e as características de execução de JavaScript. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários.

Painel de deteção de agentes de IA da cside

Considere o aspeto de um agente não declarado próximo da Bytedance na camada do navegador. Uma sessão abre uma página de categoria de retalho num navegador completo, renderiza JavaScript e começa a extrair dados de preços e inventário de produtos. O IP está limpo, o user-agent é uma compilação atual do Chrome e a sessão apresenta uma impressão digital TLS válida. Nada na camada de rede aciona um alerta.

O que a cside observa é diferente: o agente abre cada página de detalhe de produto numa sequência fixa que corresponde à ordem da listagem da categoria, os eventos de hover sobre as imagens dos produtos estão ausentes e o tempo entre carregamentos de página é estável dentro de dezenas de milissegundos ao longo de dezenas de pedidos. Nenhuma sessão de navegação humana produz esta combinação de sinais. A cside classifica a sessão como automatizada e sinaliza-a para revisão antes de dados significativos terem sido extraídos. Para as organizações que adicionaram o Bytespider ao seu robots.txt e à lista de bloqueio de IP, a monitorização na camada do navegador fecha a lacuna que esses controlos deixam em aberto.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

O Bytespider é o crawler de treino de IA da Bytedance. A Bytedance é a empresa-mãe chinesa do TikTok. O Bytespider recolhe conteúdo da web para treinar modelos de IA usados em todos os produtos da Bytedance. Atraiu escrutínio público em 2023 por alegadamente ignorar restrições do robots.txt em alguns sites, o que o distingue de crawlers com historiais de conformidade mais sólidos.

Adicione `User-agent: Bytespider` seguido de `Disallow: /` ao seu ficheiro robots.txt. Dados os problemas de conformidade documentados do Bytespider em 2023, complemente isto com bloqueio ao nível do IP. Localize os intervalos de IP publicados pela Bytedance e adicione-os à lista de bloqueio da sua firewall ou CDN para uma aplicação rígida.

Relatos de 2023 documentaram casos em que o Bytespider rastreava páginas apesar das diretivas disallow do robots.txt. A Bytedance resolveu estes problemas e atualizou as práticas do seu crawler. Os incidentes estão documentados em relatórios públicos de segurança. Se as versões atuais do Bytespider respeitam plenamente o robots.txt é uma questão de monitorização contínua por parte da comunidade de proprietários de sites.

A Bytedance é uma empresa chinesa sujeita à lei chinesa, incluindo requisitos de acesso a dados que podem aplicar-se a empresas tecnológicas chinesas. As organizações com políticas regulatórias que restringem a transferência de dados para jurisdições específicas, ou com preocupações de propriedade intelectual sobre a origem dos dados de treino de IA, têm razões de conformidade específicas para bloquear o Bytespider, para além de uma política geral de bloqueio de crawlers.

O Bytespider é um agente de rastreio que recolhe sistematicamente o conteúdo das páginas para fins de treino. Não é representativo dos utilizadores que visitam o seu site a partir do TikTok. O tráfego de utilizadores do TikTok que chega através de ligações ou referências é tráfego de navegador normal. O Bytespider é um sistema distinto e automatizado, operado ao nível da infraestrutura para recolher dados em escala.

Monitore e proteja seus scripts de terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Agende uma demonstração

Comece gratuitamente

Comece grátis ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança

Proteção contra bots em 2026: porque a deteção na camada do navegador apanha o que os WAF não veem

Os agentes de IA correm em navegadores Chromium reais e contornam os WAF. A deteção na camada do navegador lê a entropia do canvas e a cadência da sessão para os apanhar.

Prevenção de fraude de chargeback: como as provas de dispositivo ganham disputas em 2026

Prevenir a fraude de chargeback depende de provas de dispositivo captadas no checkout, o que a Visa CE 3.0 aceita numa disputa de cartão não presente.

Soluções contra apropriação de contas: compreender a categoria antes de construir uma lista restrita

As soluções contra apropriação de contas têm quatro camadas: WAF, MFA, inteligência de dispositivo no navegador e análise comportamental. Nenhum fornecedor as cobre todas.

Melhor software de deteção de partilha de contas 2026: uma comparação honesta

A impressão digital de dispositivo conta quantos aparelhos distintos usam um login, apanhando o abuso de licenças que o IP e a MFA não veem.

Deteção de contas falsas: porque a verificação de email não chega em 2026

A verificação de email e o CAPTCHA confirmam um ponto de acesso, não uma pessoa. O fingerprinting de dispositivo é o que apanha registos falsos.

Melhor software de deteção de VPN 2026: fingerprinting TLS TLS handshake fingerprint vs listas de bloqueio de IP

As melhores ferramentas de deteção de VPN usam fingerprinting TLS TLS handshake fingerprint para apanhar proxies residenciais e VPNs que as listas de IP ignoram.

Checklist de conformidade PCI DSS 2026: requisitos 6.4.3 e 11.6.1 explicados

Os requisitos 6.4.3 e 11.6.1 tornaram-se obrigatórios em março de 2025. Eis o que integra uma checklist moderna de conformidade PCI DSS e como automatizá-la.

Software de prevenção de fraude por teste de cartões: como travar a validação automática de cartões no checkout

Veja como a deteção no browser trava o teste automático de cartões no checkout com comportamento da sessão, sinais de IA e fingerprinting de dispositivo.

O que é formjacking? Como funciona e como detetá-lo

O formjacking injeta JavaScript malicioso em páginas de pagamento para roubar dados de cartão à medida que são introduzidos, invisível a WAFs e CSPs. Eis como detetá-lo.

O que é credential stuffing? Definição, exemplos e deteção

O credential stuffing testa pares de utilizador e palavra-passe roubados de fugas contra outros sites. Veja como funciona e como os sinais de dispositivo o detetam.