Skip to main content
Blog
Blog Attacks

Como Bloquear o Applebot-Extended no Seu Site

O Applebot-Extended é o crawler de treino de IA da Apple que alimenta o Apple Intelligence. Saiba como difere do Applebot e como recusar via robots.txt.

Jun 23, 2026 7 min read
Como Bloquear o Applebot-Extended no Seu Site

A Apple opera dois crawlers web distintos. O Applebot padrão alimenta o Siri, a Pesquisa do Spotlight e as sugestões de conteúdo do Safari. Existe há anos e comporta-se como um crawler de motor de pesquisa convencional. O Applebot-Extended é mais recente, introduzido juntamente com o Apple Intelligence, e recolhe conteúdo da web especificamente para treino de modelos de IA e funcionalidades generativas.

Bloquear o Applebot padrão afeta o desempenho do seu site nos produtos de pesquisa e descoberta da Apple. Bloquear especificamente o Applebot-Extended recusa o pipeline de treino de IA da Apple sem afetar as funcionalidades padrão de pesquisa da Apple. Os dois requerem regras de robots.txt separadas. Se está a trabalhar na lista mais ampla de crawlers de IA, a mesma abordagem aplica-se a outros, como o ClaudeBot da Anthropic e o CCBot da Common Crawl.


Applebot Padrão vs. Applebot-Extended

Resposta rápida: O Applebot padrão é o crawler de pesquisa e descoberta da Apple. O Applebot-Extended é o crawler de treino de IA da Apple, usado para recolher conteúdo para o Apple Intelligence e o desenvolvimento de modelos fundamentais. Usam strings de user-agent diferentes. Bloquear um não bloqueia o outro.

CrawlerPropósitoUser-agent
ApplebotSugestões do Siri, Spotlight, Safari, indexação de pesquisaApplebot/0.1
Applebot-ExtendedTreino de IA do Apple Intelligence, funcionalidades generativasApplebot-Extended/0.1

Esta distinção é importante porque a maioria dos proprietários de sites que querem bloquear a recolha de dados de treino de IA não quer prejudicar a sua relação com as funcionalidades de pesquisa e descoberta da Apple. O bloqueio do Applebot-Extended é cirúrgico: recusa o treino de IA sem remover o seu site das sugestões do Siri, dos resultados de pesquisa do Spotlight ou das funcionalidades de conteúdo do Safari.


O que É o Apple Intelligence e Por Que o Applebot-Extended o Alimenta?

Resposta rápida: O Apple Intelligence é o sistema de IA da Apple, anunciado na WWDC 2024, integrado no iOS 18, iPadOS 18 e macOS Sequoia. Alimenta assistência de escrita, geração de imagens, melhorias no Siri e funcionalidades generativas em todo o ecossistema de dispositivos da Apple. O Applebot-Extended recolhe conteúdo da web que treina e melhora estas capacidades de IA.

O Apple Intelligence funciona no dispositivo para muitas funcionalidades e usa a infraestrutura de servidores da Apple para tarefas mais complexas. Os modelos que alimentam estas funcionalidades requerem dados de treino da web, que é o que o Applebot-Extended recolhe. À medida que a Apple expande as capacidades do Apple Intelligence (mais profundidade no Siri, melhores sugestões de escrita, funcionalidades generativas mais ricas), é provável que a atividade de rastreio do Applebot-Extended aumente.


Como Bloquear o Applebot-Extended (Sem Bloquear o Applebot Padrão)

Resposta rápida: Use entradas de robots.txt separadas para Applebot-Extended e Applebot. Um Disallow: / sob Applebot-Extended bloqueia a recolha de treino de IA. Deixar o Applebot sem restrições preserva a presença do seu site nas funcionalidades do Siri, do Spotlight e do Safari.

Para bloquear o Applebot-Extended mantendo o acesso do Applebot padrão:

User-agent: Applebot-Extended
Disallow: /

User-agent: Applebot
Allow: /

Ou com restrições ao nível do caminho no Applebot padrão:

User-agent: Applebot-Extended
Disallow: /

User-agent: Applebot
Disallow: /account/
Disallow: /checkout/
Allow: /

A Apple documenta este processo na sua documentação oficial do Applebot. A documentação descreve explicitamente o Applebot-Extended e fornece o mecanismo de recusa.


Como Bloquear Ambas as Variantes do Applebot

Resposta rápida: Se quiser restringir todo o acesso automatizado da Apple, tanto a pesquisa padrão como o treino de IA, adicione ambos os user-agents ao seu robots.txt. Isto remove o seu site das sugestões do Siri e dos resultados do Spotlight, bem como do treino do Apple Intelligence.

User-agent: Applebot-Extended
Disallow: /

User-agent: Applebot
Disallow: /

A maioria dos proprietários de sites recusa apenas o Applebot-Extended. Bloquear o Applebot padrão é uma decisão significativa que reduz a capacidade de descoberta do seu conteúdo nos dispositivos Apple. Vale a pena limitar o bloqueio ao crawler específico que suscita preocupações com dados.


Por Que Poderá Querer Bloquear o Applebot-Extended

Resposta rápida: As razões para bloquear o Applebot-Extended são semelhantes às razões para bloquear outros crawlers de treino de IA: conteúdo proprietário, material licenciado, preocupações com PI ou política organizacional explícita sobre dados de treino de IA. O argumento a favor do bloqueio é um pouco mais simples porque pode fazê-lo sem prejudicar as funcionalidades de pesquisa da Apple.

Razões específicas pelas quais as organizações bloqueiam o Applebot-Extended:

  • Conteúdo licenciado: Os editores com conteúdo licenciado para usos específicos não podem legalmente permitir que esse conteúdo entre em pipelines de treino de IA sem autorização separada
  • Conteúdo competitivo: As empresas com dados proprietários de preços, produtos ou investigação não querem esses dados no corpus de treino de IA da Apple
  • Conformidade com políticas: Organizações com políticas explícitas de governação de dados que restringem a recolha de dados de treino de IA
  • Preferência de controlo: Uma preferência geral por recusar programas de dados de treino de IA antes de compreender plenamente as implicações da inclusão

O mecanismo de recusa que a Apple fornece é mais limpo do que o que a maioria dos crawlers de IA oferece: user-agents separados com comportamento documentado, documentação explícita da Apple e um registo de conformidade alinhado com a abordagem mais ampla da Apple às relações com programadores e editores. O mesmo padrão de robots.txt estende-se ao problema mais amplo de bloquear scrapers de conteúdo de IA em todos os crawlers declarados que respeitam o padrão.


Deteção na Camada do Navegador: O que o Bloqueio do Applebot-Extended Não Cobre

Resposta rápida: Bloquear o Applebot-Extended controla o pipeline de dados de treino da Apple. Não controla quaisquer futuros produtos agênticos do Apple Intelligence que naveguem no seu site em nome dos utilizadores, nem qualquer outro agente de IA não declarado a operar numa sessão de navegador real. Esses requerem deteção na camada do navegador.

O foco atual da Apple com o Apple Intelligence é o processamento no dispositivo e as funcionalidades assistidas por IA. Mas a direção do desenvolvimento da IA é em direção a produtos agênticos que navegam e realizam transações em nome dos utilizadores. Se a Apple construir ou ativar agentes que concluam tarefas através de sessões de navegador reais, essas sessões não transportarão o user-agent Applebot-Extended e não serão afetadas pelo seu bloqueio no robots.txt.

A cside opera dentro da sessão do navegador e revela os sinais comportamentais que distinguem as sessões executadas por máquinas da navegação humana: o tempo de interação, a linearidade da navegação, as características da impressão digital e os padrões de execução de JavaScript. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários. Para organizações que querem cobertura tanto de crawlers declarados como de agentes de navegador não declarados, o robots.txt e a monitorização na camada do navegador, em conjunto, fornecem a postura completa.

Painel de deteção de agentes de IA da cside

Considere como é uma tarefa agêntica do Apple Intelligence na camada do navegador. Um utilizador num iPhone pede ao Siri para comparar planos de subscrição entre dois fornecedores SaaS e recomendar a opção anual mais barata. O Siri delega num agente que abre uma sessão WebKit, navega em cada página de preços e extrai os dados das tabelas. O pedido chega com um user-agent padrão do Safari e uma impressão digital de dispositivo iOS legítima. Não há cabeçalho Applebot-Extended porque isto não é um rastreio de treino, é uma sessão de produto agêntico. O agente completa ambas as páginas de preços em menos de 20 segundos, faz scroll programaticamente até à secção de preços sem qualquer navegação exploratória e não submete interações de formulário. Esses sinais comportamentais (caminho de scroll estreito, variância de permanência nula, ausência de navegação de retorno) são invisíveis na camada de rede e só são revelados por instrumentação a correr dentro da sessão do navegador. Para uma análise mais aprofundada de como as sessões agênticas contornam totalmente o robots.txt, consulte o nosso guia para bloquear bots de scraping de conteúdo com agentes de IA.

Mike Kutlu
Client-Side Security Consultant

Client-side security consultant at cside. 10+ years of experience implementing technology solutions for enterprises (previously at Oracle, Cloudflare, and Splunk). Now helping teams use client-side intelligence to catch & reduce fraud.

FAQ

Frequently Asked Questions

O Applebot-Extended é o crawler de treino de IA da Apple, introduzido para o Apple Intelligence. O Applebot padrão é o crawler de pesquisa e descoberta da Apple usado para funcionalidades de conteúdo do Siri, Spotlight e Safari. Usam user-agents diferentes e servem propósitos diferentes. Bloquear o Applebot-Extended recusa o treino de IA sem afetar as funcionalidades padrão de pesquisa e descoberta da Apple.

Adicione `User-agent: Applebot-Extended` seguido de `Disallow: /` ao seu ficheiro robots.txt. Deixe o Applebot padrão sem restrições ou apenas com as restrições ao nível do caminho que pretende. A documentação da Apple descreve o processo e confirma que os dois crawlers são controlados de forma independente.

A Apple documenta explicitamente o mecanismo de recusa do Applebot-Extended e afirma que respeita as diretivas do robots.txt para este crawler. O historial de conformidade da Apple para os seus crawlers é geralmente considerado sólido, de acordo com o seu posicionamento mais amplo em torno da privacidade e das relações com editores. As strings de user-agent separadas tornam o bloqueio direcionado fiável e verificável de forma independente.

O Apple Intelligence é o sistema de IA da Apple integrado no iOS 18, iPadOS 18 e macOS Sequoia, anunciado na WWDC 2024. Alimenta assistência de escrita, geração de imagens, melhorias no Siri e funcionalidades generativas em todos os dispositivos Apple. O conteúdo da web recolhido pelo Applebot-Extended treina e melhora estas capacidades de IA.

Não. Bloquear o Applebot-Extended afeta apenas o crawler de treino de IA da Apple. O Applebot padrão, que alimenta as sugestões do Siri, do Spotlight e do Safari, continua a funcionar a menos que bloqueie separadamente o user-agent Applebot. Os dois crawlers são sistemas independentes com controlos de robots.txt separados.

Monitore e Proteja Seus Scripts de Terceiros

Gain full visibility and control over every script delivered to your users to enhance site security and performance.

Comece grátis, ou experimente o Business com um teste de 14 dias.

Interface do painel cside mostrando monitoramento de scripts e análises de segurança
Related Articles
Agende uma demonstração