PerplexityBot is de gedeclareerde webcrawler die de AI-zoekmachine van Perplexity aandrijft. Wanneer een gebruiker een vraag stelt aan Perplexity, putten de zoekresultaten uit content die PerplexityBot heeft geïndexeerd. In 2024 meldden meerdere uitgevers dat Perplexity auteursrechtelijk beschermde content van hun sites in zoekresultaten reproduceerde ondanks robots.txt-blokkeringen, waarmee PerplexityBot een van de meer controversiële AI-crawlers werd om te blokkeren.
Deze gids gaat specifiek over PerplexityBot. Als je de shopping agent van Perplexity wilt beheersen, zie dan onze begeleidende post over hoe je Perplexity Shopper blokkeert, want dat vereist een volledig andere aanpak. Voor het bredere patroon over gedeclareerde crawlers heen, zie onze gids voor het blokkeren van AI-content-scrapers.
Wat Is PerplexityBot?
Snel antwoord: PerplexityBot is de AI-zoekcrawler van Perplexity. Het indexeert webcontent om de door AI gegenereerde zoekresultaten van Perplexity aan te drijven. Het identificeert zichzelf met een gedeclareerde user-agent-string en is gedocumenteerd op docs.perplexity.ai. In 2024 kreeg het aanzienlijke kritiek van uitgevers vanwege schijnbare niet-naleving van
robots.txten reproductie van content zonder voldoende bronvermelding.
De user-agent van PerplexityBot: PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)
De controverse van 2024 is relevante context voor je blokkeringsbeslissing. Meerdere grote uitgevers, waaronder mediabedrijven en nieuwsorganisaties, meldden dat Perplexity gedetailleerde reproducties van hun content achter een betaalmuur of via robots.txt afgeschermd in AI-zoekantwoorden naar voren bracht. Perplexity betwistte sommige van deze karakteriseringen, maar de kwestie stelde vast dat de naleving van PerplexityBot actiever wordt aangevochten dan die van GPTBot of ClaudeBot.
De Nalevingscontroverse van 2024
Snel antwoord: In 2024 meldden Wired, The Atlantic en andere uitgevers dat Perplexity content van hun sites in AI-zoekresultaten reproduceerde ondanks
Disallow: PerplexityBotin hunrobots.txt. De verklaringen van Perplexity destijds waren inconsistent, wat ertoe leidde dat verschillende uitgevers aanvullende technische en juridische stappen ondernamen.
De specifieke zorg betrof niet alleen het crawlen, maar de samenvatting en reproductie. Zelfs als PerplexityBot robots.txt respecteerde voor zijn directe crawl, kon Perplexity dezelfde content via andere wegen benaderen en samenvatten: gecachte kopieën, gegevensbronnen van derden of live browsing-infrastructuur. Het netto resultaat was vanuit het perspectief van uitgevers dat hun content in Perplexity-antwoorden verscheen ongeacht hun robots.txt-instellingen.
Dit betekent niet dat robots.txt-blokkering zinloos is voor PerplexityBot. Het betekent dat de reikwijdte van wat robots.txt kan bereiken tegen een zoekproduct met meerdere kanalen voor contentverwerving beperkt is. Blokkering op IP-niveau en actieve monitoring bieden betrouwbaardere handhaving.
Hoe Blokkeer Je PerplexityBot met robots.txt
Snel antwoord: Voeg
PerplexityBottoe aan jerobots.txt. Gezien de nalevingscontroverse van 2024 implementeer je ook blokkering op IP-niveau en overweeg je om juridische bepalingen aan je gebruiksvoorwaarden toe te voegen die het verzamelen van AI-trainingsgegevens en AI-zoeksamenvattingen expliciet beperken.
Om PerplexityBot van je hele site te blokkeren:
User-agent: PerplexityBot
Disallow: /
Voor controle op padniveau:
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Allow: /public/
Gezien de controverse van 2024 behandel je robots.txt voor PerplexityBot als een signaal van intentie in plaats van een harde technische beheersmaatregel. Dezelfde aanpak voor gedeclareerde crawlers is betrouwbaarder voor crawlers met een schonere nalevingsgeschiedenis, zoals CCBot.
Blokkeren op IP-Niveau
Snel antwoord: Perplexity publiceert de IP-ranges van PerplexityBot in zijn documentatie. Het weigeren van deze ranges op firewall- of CDN-niveau biedt handhaving die onafhankelijk is van de vraag of de crawler
robots.txtleest. Voor uitgevers of content-intensieve sites is blokkering op IP-niveau de betrouwbaardere aanpak gezien de nalevingsgeschiedenis.
Zoek de actuele IP-ranges van Perplexity op in hun officiële documentatie op docs.perplexity.ai. Voeg ze toe aan je firewall, je CDN-edge-configuratie of de deny-regels van je reverse proxy. Bekijk deze lijst elk kwartaal, want de IP-ranges van crawlinfrastructuur breiden uit naarmate het crawlvolume groeit.
PerplexityBot vs. Perplexity Shopper: Een Cruciaal Onderscheid
Snel antwoord: PerplexityBot (de indexerende crawler) en Perplexity Shopper (de transactie-uitvoerende agent) zijn aparte systemen. Het blokkeren van PerplexityBot heeft geen effect op Perplexity Shopper. Shopper gebruikt een echte browsersessie met een standaard Chrome user-agent. Het vereist detectie op browserniveau, geen
robots.txt-blokkering.
| Systeem | Doel | User-agent | Detectieaanpak |
|---|---|---|---|
| PerplexityBot | Crawlt en indexeert content | PerplexityBot/1.0 (gedeclareerd) | robots.txt + IP-blokkering |
| Perplexity Shopper | Voltooit aankopen voor gebruikers | Standaard Chrome (niet-gedeclareerd) | Gedragssignalen op browserniveau |
Engineers die PerplexityBot aan robots.txt toevoegen en het Perplexity-probleem als opgelost beschouwen, hebben één van de twee systemen aangepakt. Perplexity Shopper is onzichtbaar voor alles in de blocklist-aanpak. In cside's gecontroleerde tests misten traditionele tools AI-agenten die binnen echte browsersessies opereerden in 81 van de 100 scenario's, en Shopper is precies het soort sessie dat die tools missen.

Hoe dat er in de praktijk uitziet: een Perplexity Shopper-sessie met de opdracht om een specifiek product te kopen, opent een echte Chrome-sessie, navigeert naar de categoriepagina van een retailer, filtert op de gevraagde specificatie, selecteert een product en gaat door naar de checkout. Elk signaal op netwerkniveau is schoon: een residentieel IP, een standaard TLS-handshake en een Chrome user-agent-string die niet te onderscheiden is van een menselijke shopper. De verraderlijke aanwijzing zit in de browserlaag. De agent doorloopt de productfiltering in 3,2 seconden zonder enige variatie in cursorbeweging, selecteert het eerste in aanmerking komende resultaat zonder te pauzeren om alternatieven te vergelijken, en voert adresgegevens in met een uniform toetsaanslaginterval van 80 ms zonder correctiegebeurtenissen. cside's instrumentatie legt die anomalieën op de interactielaag vast voordat enige checkout-gebeurtenis wordt geactiveerd, waardoor operators inzicht krijgen dat de netwerklaag nooit biedt.
Wat Het Blokkeren van PerplexityBot Daadwerkelijk Bereikt
Snel antwoord: Een PerplexityBot-blokkering voorkomt dat de gedeclareerde crawler je content rechtstreeks indexeert in toekomstige crawlruns. Het voorkomt niet dat Perplexity naar eerder geïndexeerde content verwijst, je content via bronnen van derden benadert of samenvattingen in AI-zoekresultaten naar voren brengt via andere kanalen dan directe crawling.
Dit is de beperking die de controverse van 2024 blootlegde. Robots.txt blokkeert een specifieke crawler van het doen van nieuwe verzoeken. Het wist geen bestaande geïndexeerde content uit de kennisbank van een zoekproduct, en het voorkomt geen contentverwerving via alternatieve kanalen die de crawler zelf niet rechtstreeks gebruikt.
Voor organisaties met strikte eisen (content achter een betaalmuur, eigen onderzoek, gelicentieerd materiaal) biedt de combinatie van robots.txt, IP-blokkering, juridische bepalingen in de gebruiksvoorwaarden en technische contentbescherming zoals authenticatiemuren en dynamische rendering een vollediger beschermingspositie dan welke afzonderlijke aanpak dan ook.






