A Apple opera dois crawlers web distintos. O Applebot padrão alimenta o Siri, a Pesquisa do Spotlight e as sugestões de conteúdo do Safari. Existe há anos e comporta-se como um crawler de motor de pesquisa convencional. O Applebot-Extended é mais recente, introduzido juntamente com o Apple Intelligence, e recolhe conteúdo da web especificamente para treino de modelos de IA e funcionalidades generativas.
Bloquear o Applebot padrão afeta o desempenho do seu site nos produtos de pesquisa e descoberta da Apple. Bloquear especificamente o Applebot-Extended recusa o pipeline de treino de IA da Apple sem afetar as funcionalidades padrão de pesquisa da Apple. Os dois requerem regras de robots.txt separadas. Se está a trabalhar na lista mais ampla de crawlers de IA, a mesma abordagem aplica-se a outros, como o ClaudeBot da Anthropic e o CCBot da Common Crawl.
Applebot Padrão vs. Applebot-Extended
Resposta rápida: O Applebot padrão é o crawler de pesquisa e descoberta da Apple. O Applebot-Extended é o crawler de treino de IA da Apple, usado para recolher conteúdo para o Apple Intelligence e o desenvolvimento de modelos fundamentais. Usam strings de user-agent diferentes. Bloquear um não bloqueia o outro.
| Crawler | Propósito | User-agent |
|---|---|---|
| Applebot | Sugestões do Siri, Spotlight, Safari, indexação de pesquisa | Applebot/0.1 |
| Applebot-Extended | Treino de IA do Apple Intelligence, funcionalidades generativas | Applebot-Extended/0.1 |
Esta distinção é importante porque a maioria dos proprietários de sites que querem bloquear a recolha de dados de treino de IA não quer prejudicar a sua relação com as funcionalidades de pesquisa e descoberta da Apple. O bloqueio do Applebot-Extended é cirúrgico: recusa o treino de IA sem remover o seu site das sugestões do Siri, dos resultados de pesquisa do Spotlight ou das funcionalidades de conteúdo do Safari.
O que É o Apple Intelligence e Por Que o Applebot-Extended o Alimenta?
Resposta rápida: O Apple Intelligence é o sistema de IA da Apple, anunciado na WWDC 2024, integrado no iOS 18, iPadOS 18 e macOS Sequoia. Alimenta assistência de escrita, geração de imagens, melhorias no Siri e funcionalidades generativas em todo o ecossistema de dispositivos da Apple. O Applebot-Extended recolhe conteúdo da web que treina e melhora estas capacidades de IA.
O Apple Intelligence funciona no dispositivo para muitas funcionalidades e usa a infraestrutura de servidores da Apple para tarefas mais complexas. Os modelos que alimentam estas funcionalidades requerem dados de treino da web, que é o que o Applebot-Extended recolhe. À medida que a Apple expande as capacidades do Apple Intelligence (mais profundidade no Siri, melhores sugestões de escrita, funcionalidades generativas mais ricas), é provável que a atividade de rastreio do Applebot-Extended aumente.
Como Bloquear o Applebot-Extended (Sem Bloquear o Applebot Padrão)
Resposta rápida: Use entradas de
robots.txtseparadas paraApplebot-ExtendedeApplebot. UmDisallow: /sobApplebot-Extendedbloqueia a recolha de treino de IA. Deixar oApplebotsem restrições preserva a presença do seu site nas funcionalidades do Siri, do Spotlight e do Safari.
Para bloquear o Applebot-Extended mantendo o acesso do Applebot padrão:
User-agent: Applebot-Extended
Disallow: /
User-agent: Applebot
Allow: /
Ou com restrições ao nível do caminho no Applebot padrão:
User-agent: Applebot-Extended
Disallow: /
User-agent: Applebot
Disallow: /account/
Disallow: /checkout/
Allow: /
A Apple documenta este processo na sua documentação oficial do Applebot. A documentação descreve explicitamente o Applebot-Extended e fornece o mecanismo de recusa.
Como Bloquear Ambas as Variantes do Applebot
Resposta rápida: Se quiser restringir todo o acesso automatizado da Apple, tanto a pesquisa padrão como o treino de IA, adicione ambos os user-agents ao seu
robots.txt. Isto remove o seu site das sugestões do Siri e dos resultados do Spotlight, bem como do treino do Apple Intelligence.
User-agent: Applebot-Extended
Disallow: /
User-agent: Applebot
Disallow: /
A maioria dos proprietários de sites recusa apenas o Applebot-Extended. Bloquear o Applebot padrão é uma decisão significativa que reduz a capacidade de descoberta do seu conteúdo nos dispositivos Apple. Vale a pena limitar o bloqueio ao crawler específico que suscita preocupações com dados.
Por Que Poderá Querer Bloquear o Applebot-Extended
Resposta rápida: As razões para bloquear o Applebot-Extended são semelhantes às razões para bloquear outros crawlers de treino de IA: conteúdo proprietário, material licenciado, preocupações com PI ou política organizacional explícita sobre dados de treino de IA. O argumento a favor do bloqueio é um pouco mais simples porque pode fazê-lo sem prejudicar as funcionalidades de pesquisa da Apple.
Razões específicas pelas quais as organizações bloqueiam o Applebot-Extended:
- Conteúdo licenciado: Os editores com conteúdo licenciado para usos específicos não podem legalmente permitir que esse conteúdo entre em pipelines de treino de IA sem autorização separada
- Conteúdo competitivo: As empresas com dados proprietários de preços, produtos ou investigação não querem esses dados no corpus de treino de IA da Apple
- Conformidade com políticas: Organizações com políticas explícitas de governação de dados que restringem a recolha de dados de treino de IA
- Preferência de controlo: Uma preferência geral por recusar programas de dados de treino de IA antes de compreender plenamente as implicações da inclusão
O mecanismo de recusa que a Apple fornece é mais limpo do que o que a maioria dos crawlers de IA oferece: user-agents separados com comportamento documentado, documentação explícita da Apple e um registo de conformidade alinhado com a abordagem mais ampla da Apple às relações com programadores e editores. O mesmo padrão de robots.txt estende-se ao problema mais amplo de bloquear scrapers de conteúdo de IA em todos os crawlers declarados que respeitam o padrão.
Deteção na Camada do Navegador: O que o Bloqueio do Applebot-Extended Não Cobre
Resposta rápida: Bloquear o Applebot-Extended controla o pipeline de dados de treino da Apple. Não controla quaisquer futuros produtos agênticos do Apple Intelligence que naveguem no seu site em nome dos utilizadores, nem qualquer outro agente de IA não declarado a operar numa sessão de navegador real. Esses requerem deteção na camada do navegador.
O foco atual da Apple com o Apple Intelligence é o processamento no dispositivo e as funcionalidades assistidas por IA. Mas a direção do desenvolvimento da IA é em direção a produtos agênticos que navegam e realizam transações em nome dos utilizadores. Se a Apple construir ou ativar agentes que concluam tarefas através de sessões de navegador reais, essas sessões não transportarão o user-agent Applebot-Extended e não serão afetadas pelo seu bloqueio no robots.txt.
A cside opera dentro da sessão do navegador e revela os sinais comportamentais que distinguem as sessões executadas por máquinas da navegação humana: o tempo de interação, a linearidade da navegação, as características da impressão digital e os padrões de execução de JavaScript. Nos testes controlados da cside, as ferramentas tradicionais não detetaram agentes de IA a operar dentro de sessões de navegador reais em 81 de 100 cenários. Para organizações que querem cobertura tanto de crawlers declarados como de agentes de navegador não declarados, o robots.txt e a monitorização na camada do navegador, em conjunto, fornecem a postura completa.

Considere como é uma tarefa agêntica do Apple Intelligence na camada do navegador. Um utilizador num iPhone pede ao Siri para comparar planos de subscrição entre dois fornecedores SaaS e recomendar a opção anual mais barata. O Siri delega num agente que abre uma sessão WebKit, navega em cada página de preços e extrai os dados das tabelas. O pedido chega com um user-agent padrão do Safari e uma impressão digital de dispositivo iOS legítima. Não há cabeçalho Applebot-Extended porque isto não é um rastreio de treino, é uma sessão de produto agêntico. O agente completa ambas as páginas de preços em menos de 20 segundos, faz scroll programaticamente até à secção de preços sem qualquer navegação exploratória e não submete interações de formulário. Esses sinais comportamentais (caminho de scroll estreito, variância de permanência nula, ausência de navegação de retorno) são invisíveis na camada de rede e só são revelados por instrumentação a correr dentro da sessão do navegador. Para uma análise mais aprofundada de como as sessões agênticas contornam totalmente o robots.txt, consulte o nosso guia para bloquear bots de scraping de conteúdo com agentes de IA.






