Apple opera dos rastreadores web distintos. El Applebot estándar impulsa Siri, la Búsqueda Spotlight y las sugerencias de contenido de Safari. Existe desde hace años y se comporta como un rastreador de motor de búsqueda convencional. Applebot-Extended es más reciente, introducido junto con Apple Intelligence, y recopila contenido web específicamente para el entrenamiento de modelos de IA y las funciones generativas.
Bloquear el Applebot estándar afecta al rendimiento de tu sitio en los productos de búsqueda y descubrimiento de Apple. Bloquear Applebot-Extended específicamente te excluye del proceso de entrenamiento de IA de Apple sin afectar las funciones estándar de búsqueda de Apple. Los dos requieren reglas de robots.txt separadas. Si estás trabajando con la lista más amplia de rastreadores de IA, el mismo enfoque se aplica a otros como ClaudeBot de Anthropic y CCBot de Common Crawl.
Applebot Estándar vs. Applebot-Extended
Respuesta rápida: El Applebot estándar es el rastreador de búsqueda y descubrimiento de Apple. Applebot-Extended es el rastreador de entrenamiento de IA de Apple, utilizado para recopilar contenido para Apple Intelligence y el desarrollo de modelos fundacionales. Usan cadenas de agente de usuario diferentes. Bloquear uno no bloquea el otro.
| Rastreador | Propósito | Agente de usuario |
|---|---|---|
| Applebot | Siri, Spotlight, sugerencias de Safari, indexación de búsqueda | Applebot/0.1 |
| Applebot-Extended | Entrenamiento de IA de Apple Intelligence, funciones generativas | Applebot-Extended/0.1 |
Esta distinción importa porque la mayoría de los propietarios de sitios que quieren bloquear la recopilación de datos de entrenamiento de IA no quieren romper su relación con las funciones de búsqueda y descubrimiento de Apple. El bloqueo de Applebot-Extended es quirúrgico: te excluye del entrenamiento de IA sin eliminar tu sitio de las sugerencias de Siri, los resultados de búsqueda de Spotlight o las funciones de contenido de Safari.
¿Qué Es Apple Intelligence y Por Qué lo Alimenta Applebot-Extended?
Respuesta rápida: Apple Intelligence es el sistema de IA de Apple, anunciado en la WWDC 2024, integrado en iOS 18, iPadOS 18 y macOS Sequoia. Impulsa la asistencia de escritura, la generación de imágenes, las mejoras de Siri y las funciones generativas en todo el ecosistema de dispositivos de Apple. Applebot-Extended recopila el contenido web que entrena y mejora estas capacidades de IA.
Apple Intelligence se ejecuta en el dispositivo para muchas funciones y utiliza la infraestructura de servidores de Apple para tareas más complejas. Los modelos que impulsan estas funciones requieren datos de entrenamiento de la web, que es lo que recopila Applebot-Extended. A medida que Apple amplíe las capacidades de Apple Intelligence (mayor profundidad en Siri, mejores sugerencias de escritura, funciones generativas más ricas) es probable que la actividad de rastreo de Applebot-Extended crezca.
Cómo Bloquear Applebot-Extended (Sin Bloquear el Applebot Estándar)
Respuesta rápida: Usa entradas separadas de
robots.txtparaApplebot-ExtendedyApplebot. UnDisallow: /bajoApplebot-Extendedbloquea la recopilación para el entrenamiento de IA. DejarApplebotsin restricciones preserva la presencia de tu sitio en las funciones de Siri, Spotlight y Safari.
Para bloquear Applebot-Extended mientras se mantiene el acceso del Applebot estándar:
User-agent: Applebot-Extended
Disallow: /
User-agent: Applebot
Allow: /
O con restricciones a nivel de ruta en el Applebot estándar:
User-agent: Applebot-Extended
Disallow: /
User-agent: Applebot
Disallow: /account/
Disallow: /checkout/
Allow: /
Apple documenta este proceso en su documentación oficial de Applebot. La documentación describe explícitamente Applebot-Extended y proporciona el mecanismo de exclusión.
Cómo Bloquear Ambas Variantes de Applebot
Respuesta rápida: Si quieres restringir todo el acceso automatizado de Apple, tanto la búsqueda estándar como el entrenamiento de IA, añade ambos agentes de usuario a tu
robots.txt. Esto elimina tu sitio de las sugerencias de Siri y los resultados de Spotlight, así como del entrenamiento de Apple Intelligence.
User-agent: Applebot-Extended
Disallow: /
User-agent: Applebot
Disallow: /
La mayoría de los propietarios de sitios se excluyen únicamente de Applebot-Extended. Bloquear el Applebot estándar es una decisión importante que reduce la visibilidad de tu contenido en los dispositivos Apple. Conviene limitar el bloqueo al rastreador específico que plantea preocupaciones sobre los datos.
Por Qué Podrías Bloquear Applebot-Extended
Respuesta rápida: Las razones para bloquear Applebot-Extended son similares a las razones para bloquear otros rastreadores de entrenamiento de IA: contenido propietario, material con licencia, preocupaciones sobre la propiedad intelectual o una política organizacional explícita sobre los datos de entrenamiento de IA. El argumento para bloquearlo es algo más sencillo porque puedes hacerlo sin romper las funciones de búsqueda de Apple.
Razones específicas por las que las organizaciones bloquean Applebot-Extended:
- Contenido con licencia: Los editores con contenido licenciado para usos específicos no pueden permitir legalmente que ese contenido entre en procesos de entrenamiento de IA sin una autorización separada
- Contenido competitivo: Las empresas con datos propietarios de precios, productos o investigación no quieren que esos datos estén en el corpus de entrenamiento de IA de Apple
- Cumplimiento de políticas: Organizaciones con políticas explícitas de gobernanza de datos que restringen la recopilación de datos de entrenamiento de IA
- Preferencia de control: Una preferencia general por excluirse de los programas de datos de entrenamiento de IA antes de comprender plenamente las implicaciones de la inclusión
El mecanismo de exclusión que ofrece Apple es más limpio que el que ofrecen la mayoría de los rastreadores de IA: agentes de usuario separados con comportamiento documentado, documentación explícita de Apple y un historial de cumplimiento que se alinea con el enfoque más amplio de Apple hacia las relaciones con desarrolladores y editores. El mismo patrón de robots.txt se extiende al problema más amplio de bloquear scrapers de contenido de IA en cada rastreador declarado que respeta el estándar.
Detección en la Capa del Navegador: Lo Que el Bloqueo de Applebot-Extended No Cubre
Respuesta rápida: Bloquear Applebot-Extended controla el proceso de datos de entrenamiento de Apple. No controla ningún futuro producto agéntico de Apple Intelligence que navegue por tu sitio en nombre de los usuarios, ni ningún otro agente de IA no declarado que opere en una sesión de navegador real. Esos requieren detección en la capa del navegador.
El enfoque actual de Apple con Apple Intelligence está en el procesamiento en el dispositivo y las funciones asistidas por IA. Pero la dirección del desarrollo de la IA apunta hacia productos agénticos que navegan y realizan transacciones en nombre de los usuarios. Si Apple crea o habilita agentes que completan tareas a través de sesiones de navegador reales, esas sesiones no llevarán el agente de usuario Applebot-Extended y no se verán afectadas por tu bloqueo de robots.txt.
cside opera dentro de la sesión del navegador y expone las señales de comportamiento que distinguen las sesiones ejecutadas por máquinas de la navegación humana: el tiempo de interacción, la linealidad de la navegación, las características de la huella digital y los patrones de ejecución de JavaScript. En las pruebas controladas de cside, las herramientas tradicionales no detectaron agentes de IA que operaban dentro de sesiones de navegador reales en 81 de cada 100 escenarios. Para las organizaciones que quieren cobertura tanto de los rastreadores declarados como de los agentes de navegador no declarados, robots.txt y la monitorización en la capa del navegador juntos proporcionan la postura completa.

Considera cómo se ve una tarea agéntica de Apple Intelligence en la capa del navegador. Un usuario con un iPhone le pide a Siri que compare los planes de suscripción de dos proveedores de SaaS y recomiende la opción anual más barata. Siri delega en un agente que abre una sesión de WebKit, navega por cada página de precios y extrae los datos de las tablas. La solicitud llega con un agente de usuario estándar de Safari y una huella digital legítima de dispositivo iOS. No hay ninguna cabecera Applebot-Extended porque esto no es un rastreo de entrenamiento, es una sesión de un producto agéntico. El agente completa ambas páginas de precios en menos de 20 segundos, se desplaza programáticamente hasta la sección de precios sin ninguna navegación exploratoria y no envía ninguna interacción con formularios. Esas señales de comportamiento (ruta de desplazamiento estrecha, varianza de permanencia nula, sin navegación de retorno) son invisibles en la capa de red y solo las expone la instrumentación que se ejecuta dentro de la sesión del navegador. Para un análisis más profundo de cómo las sesiones agénticas evaden por completo robots.txt, consulta nuestra guía para bloquear bots agénticos de scraping de contenido de IA.






