Blog Attacks

Como Bloquear o Applebot-Extended no Seu Site

O Applebot-Extended é o crawler de treino de IA da Apple que alimenta o Apple Intelligence. Saiba como difere do Applebot e como recusar via robots.txt.

Jun 23, 2026 • 7 min read

Mike Kutlu Client-Side Security Consultant

Como Bloquear o Applebot-Extended no Seu Site

A Apple opera dois crawlers web distintos. O Applebot padrão alimenta o Siri, a Pesquisa do Spotlight e as sugestões de conteúdo do Safari. Existe há anos e comporta-se como um crawler de motor de pesquisa convencional. O Applebot-Extended é mais recente, introduzido juntamente com o Apple Intelligence, e recolhe conteúdo da web especificamente para treino de modelos de IA e funcionalidades generativas.

Bloquear o Applebot padrão afeta o desempenho do seu site nos produtos de pesquisa e descoberta da Apple. Bloquear especificamente o Applebot-Extended recusa o pipeline de treino de IA da Apple sem afetar as funcionalidades padrão de pesquisa da Apple. Os dois requerem regras de robots.txt separadas. Se está a trabalhar na lista mais ampla de crawlers de IA, a mesma abordagem aplica-se a outros, como o ClaudeBot da Anthropic e o CCBot da Common Crawl.

Applebot Padrão vs. Applebot-Extended

Resposta rápida: O Applebot padrão é o crawler de pesquisa e descoberta da Apple. O Applebot-Extended é o crawler de treino de IA da Apple, usado para recolher conteúdo para o Apple Intelligence e o desenvolvimento de modelos fundamentais. Usam strings de user-agent diferentes. Bloquear um não bloqueia o outro.

Crawler	Propósito	User-agent
Applebot	Sugestões do Siri, Spotlight, Safari, indexação de pesquisa	`Applebot/0.1`
Applebot-Extended	Treino de IA do Apple Intelligence, funcionalidades generativas	`Applebot-Extended/0.1`

Esta distinção é importante porque a maioria dos proprietários de sites que querem bloquear a recolha de dados de treino de IA não quer prejudicar a sua relação com as funcionalidades de pesquisa e descoberta da Apple. O bloqueio do Applebot-Extended é cirúrgico: recusa o treino de IA sem remover o seu site das sugestões do Siri, dos resultados de pesquisa do Spotlight ou das funcionalidades de conteúdo do Safari.

O que É o Apple Intelligence e Por Que o Applebot-Extended o Alimenta?

Resposta rápida: O Apple Intelligence é o sistema de IA da Apple, anunciado na WWDC 2024, integrado no iOS 18, iPadOS 18 e macOS Sequoia. Alimenta assistência de escrita, geração de imagens, melhorias no Siri e funcionalidades generativas em todo o ecossistema de dispositivos da Apple. O Applebot-Extended recolhe conteúdo da web que treina e melhora estas capacidades de IA.

O Apple Intelligence funciona no dispositivo para muitas funcionalidades e usa a infraestrutura de servidores da Apple para tarefas mais complexas. Os modelos que alimentam estas funcionalidades requerem dados de treino da web, que é o que o Applebot-Extended recolhe. À medida que a Apple expande as capacidades do Apple Intelligence (mais profundidade no Siri, melhores sugestões de escrita, funcionalidades generativas mais ricas), é provável que a atividade de rastreio do Applebot-Extended aumente.

Como Bloquear o Applebot-Extended (Sem Bloquear o Applebot Padrão)

Resposta rápida: Use entradas de robots.txt separadas para Applebot-Extended e Applebot. Um Disallow: / sob Applebot-Extended bloqueia a recolha de treino de IA. Deixar o Applebot sem restrições preserva a presença do seu site nas funcionalidades do Siri, do Spotlight e do Safari.

Para bloquear o Applebot-Extended mantendo o acesso do Applebot padrão:

User-agent: Applebot-Extended
Disallow: /

User-agent: Applebot
Allow: /

Ou com restrições ao nível do caminho no Applebot padrão:

User-agent: Applebot-Extended
Disallow: /

User-agent: Applebot
Disallow: /account/
Disallow: /checkout/
Allow: /

A Apple documenta este processo na sua documentação oficial do Applebot. A documentação descreve explicitamente o Applebot-Extended e fornece o mecanismo de recusa.

Como Bloquear Ambas as Variantes do Applebot

Resposta rápida: Se quiser restringir todo o acesso automatizado da Apple, tanto a pesquisa padrão como o treino de IA, adicione ambos os user-agents ao seu robots.txt. Isto remove o seu site das sugestões do Siri e dos resultados do Spotlight, bem como do treino do Apple Intelligence.

User-agent: Applebot-Extended
Disallow: /

User-agent: Applebot
Disallow: /

A maioria dos proprietários de sites recusa apenas o Applebot-Extended. Bloquear o Applebot padrão é uma decisão significativa que reduz a capacidade de descoberta do seu conteúdo nos dispositivos Apple. Vale a pena limitar o bloqueio ao crawler específico que suscita preocupações com dados.

Por Que Poderá Querer Bloquear o Applebot-Extended

Resposta rápida: As razões para bloquear o Applebot-Extended são semelhantes às razões para bloquear outros crawlers de treino de IA: conteúdo proprietário, material licenciado, preocupações com PI ou política organizacional explícita sobre dados de treino de IA. O argumento a favor do bloqueio é um pouco mais simples porque pode fazê-lo sem prejudicar as funcionalidades de pesquisa da Apple.

Razões específicas pelas quais as organizações bloqueiam o Applebot-Extended:

Conteúdo licenciado: Os editores com conteúdo licenciado para usos específicos não podem legalmente permitir que esse conteúdo entre em pipelines de treino de IA sem autorização separada
Conteúdo competitivo: As empresas com dados proprietários de preços, produtos ou investigação não querem esses dados no corpus de treino de IA da Apple
Conformidade com políticas: Organizações com políticas explícitas de governação de dados que restringem a recolha de dados de treino de IA
Preferência de controlo: Uma preferência geral por recusar programas de dados de treino de IA antes de compreender plenamente as implicações da inclusão

O mecanismo de recusa que a Apple fornece é mais limpo do que o que a maioria dos crawlers de IA oferece: user-agents separados com comportamento documentado, documentação explícita da Apple e um registo de conformidade alinhado com a abordagem mais ampla da Apple às relações com programadores e editores. O mesmo padrão de robots.txt estende-se ao problema mais amplo de bloquear scrapers de conteúdo de IA em todos os crawlers declarados que respeitam o padrão.

Deteção na Camada do Navegador: O que o Bloqueio do Applebot-Extended Não Cobre

Resposta rápida: Bloquear o Applebot-Extended controla o pipeline de dados de treino da Apple. Não controla quaisquer futuros produtos agênticos do Apple Intelligence que naveguem no seu site em nome dos utilizadores, nem qualquer outro agente de IA não declarado a operar numa sessão de navegador real. Esses requerem deteção na camada do navegador.

O foco atual da Apple com o Apple Intelligence é o processamento no dispositivo e as funcionalidades assistidas por IA. Mas a direção do desenvolvimento da IA é em direção a produtos agênticos que navegam e realizam transações em nome dos utilizadores. Se a Apple construir ou ativar agentes que concluam tarefas através de sessões de navegador reais, essas sessões não transportarão o user-agent Applebot-Extended e não serão afetadas pelo seu bloqueio no robots.txt.

A cside opera dentro da sessão do navegador e revela os sinais comportamentais que distinguem as sessões executadas por máquinas da navegação humana: o tempo de interação, a linearidade da navegação, as características da impressão digital e os padrões de execução de JavaScript. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários. Para organizações que querem cobertura tanto de crawlers declarados como de agentes de navegador não declarados, o robots.txt e a monitorização na camada do navegador, em conjunto, fornecem a postura completa.

Painel de deteção de agentes de IA da cside

Considere como é uma tarefa agêntica do Apple Intelligence na camada do navegador. Um utilizador num iPhone pede ao Siri para comparar planos de subscrição entre dois fornecedores SaaS e recomendar a opção anual mais barata. O Siri delega num agente que abre uma sessão WebKit, navega em cada página de preços e extrai os dados das tabelas. O pedido chega com um user-agent padrão do Safari e uma impressão digital de dispositivo iOS legítima. Não há cabeçalho Applebot-Extended porque isto não é um rastreio de treino, é uma sessão de produto agêntico. O agente completa ambas as páginas de preços em menos de 20 segundos, faz scroll programaticamente até à secção de preços sem qualquer navegação exploratória e não submete interações de formulário. Esses sinais comportamentais (caminho de scroll estreito, variância de permanência nula, ausência de navegação de retorno) são invisíveis na camada de rede e só são revelados por instrumentação a correr dentro da sessão do navegador. Para uma análise mais aprofundada de como as sessões agênticas contornam totalmente o robots.txt, consulte o nosso guia para bloquear bots de scraping de conteúdo com agentes de IA.

Client-Side Security Consultant Mike Kutlu

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

Back to top

Don't just take our word for it, ask AI

FAQ

Frequently Asked Questions

O Applebot-Extended é o crawler de treino de IA da Apple, introduzido para o Apple Intelligence. O Applebot padrão é o crawler de pesquisa e descoberta da Apple usado para funcionalidades de conteúdo do Siri, Spotlight e Safari. Usam user-agents diferentes e servem propósitos diferentes. Bloquear o Applebot-Extended recusa o treino de IA sem afetar as funcionalidades padrão de pesquisa e descoberta da Apple.

Adicione `User-agent: Applebot-Extended` seguido de `Disallow: /` ao seu ficheiro robots.txt. Deixe o Applebot padrão sem restrições ou apenas com as restrições ao nível do caminho que pretende. A documentação da Apple descreve o processo e confirma que os dois crawlers são controlados de forma independente.

A Apple documenta explicitamente o mecanismo de recusa do Applebot-Extended e afirma que respeita as diretivas do robots.txt para este crawler. O historial de conformidade da Apple para os seus crawlers é geralmente considerado sólido, de acordo com o seu posicionamento mais amplo em torno da privacidade e das relações com editores. As strings de user-agent separadas tornam o bloqueio direcionado fiável e verificável de forma independente.

O Apple Intelligence é o sistema de IA da Apple integrado no iOS 18, iPadOS 18 e macOS Sequoia, anunciado na WWDC 2024. Alimenta assistência de escrita, geração de imagens, melhorias no Siri e funcionalidades generativas em todos os dispositivos Apple. O conteúdo da web recolhido pelo Applebot-Extended treina e melhora estas capacidades de IA.

Não. Bloquear o Applebot-Extended afeta apenas o crawler de treino de IA da Apple. O Applebot padrão, que alimenta as sugestões do Siri, do Spotlight e do Safari, continua a funcionar a menos que bloqueie separadamente o user-agent Applebot. Os dois crawlers são sistemas independentes com controlos de robots.txt separados.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Agende uma demonstração

Comece gratuitamente

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança

Detecção de partilha de conta: como fechar a lacuna de execução que os limites de sessões simultâneas não cobrem

Os limites de sessões simultâneas sinalizam o caso óbvio.

Como Bloquear o Applebot-Extended no Seu Site

O Applebot-Extended é o crawler de treino de IA da Apple que alimenta o Apple Intelligence. Saiba como difere do Applebot e como recusar via robots.txt.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre monitoramento de scripts de terceiros em domínios de cassino

Como monitorar scripts de terceiros em 100 ou mais domínios de cassino

Guia prático para monitorar scripts de terceiros em 100+ domínios de cassino: expansão de scripts, alertas entre domínios e escalabilidade cside.

Riscos de segurança da IA agêntica para sites: privacidade, conformidade e detecção

Navegadores de IA agêntica ignoram o consentimento de cookies, executam JavaScript real e criam lacunas de conformidade com o RGPD que a detecção de bots em nível CDN não consegue ver.

Ilustração de um sistema neural de detecção de bots em duas etapas que separa sessões de navegador humanas e de bots

Apanhar bots que não querem ser apanhados: por dentro de uma stack de deteção neural de duas fases

Como uma stack neural de duas fases apanha stealth browsers, scrapers com proxy residencial e agentes LLM que passam as verificações de fingerprint.

Como Bloquear o DeepSeekBot no Seu Website

O DeepSeekBot rastreia o seu site para uma empresa chinesa de IA. Saiba como bloqueá-lo com robots.txt, regras de IP e os reais riscos de soberania de dados que ele levanta.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre conformidade de scripts perante a Malta Gaming Authority

Conformidade com a Malta Gaming Authority e Segurança de Scripts Client-Side: O Que os Operadores Licenciados pela MGA Precisam de Cobrir

As regras da MGA exigem uma plataforma segura e auditável. O JavaScript de terceiros é uma lacuna de conformidade que poucos auditaram.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre ataques de scripts de terceiros em plataformas de iGaming

Ataques de script de terceiros em plataformas iGaming em 2026: a nova superfície de ataque que os operadores ignoram

JavaScript de terceiros é a principal superfície de ataque não monitorada no iGaming. Sete classes de ataque e por que as ferramentas as ignoram.

Capa escura do blog da cside com uma onda de pixels azuis e uma lista sobre pixels não autorizados em sites de jogos e responsabilidade pelo GDPR

GDPR e Jogo Online: Por Que Razão os Pixels Não Autorizados Criam um Problema de Responsabilidade Dupla

Pixels não autorizados em sites de jogo criam responsabilidade GDPR e suspensão de contas de anúncios ao mesmo tempo, mesmo sem instalação.

Conformidade HIPAA com tecnologias de rastreamento web: o guia para organizações de saúde

O OCR do HHS determinou que pixels de rastreamento e scripts de terceiros em sites de saúde podem expor PHI. O que as entidades cobertas precisam fazer para estar em conformidade.