Umgeht Perplexity gezielt Web-Sperren?

7. August 2025

Bots scheinen Schwierigkeiten zu haben, zwischen hilfreichen Assistenten und schädlichen Scrapern zu unterscheiden. One Time – shutterstock.com Zwischen dem Anbieter von Cloud-Infrastruktur Cloudflare und dem KI-Suchunternehmen Perplexity kam es zu einem öffentlichen Schlagabtausch: Beide Seiten erheben gegeneinander schwere Vorwürfe hinsichtlich ihrer technischen Kompetenz. Der Streit begann damit, dass Cloudflare Perplexity in einen technischen Bericht „Stealth Crawling” vorwarf – also den Einsatz von getarnten Webbrowsern, um Website-Sperren zu umgehen. Ziel ist es, Inhalte zu scrapen, die Website-Betreiber ausdrücklich von KI-Trainings fernhalten wollten. Perplexity reagierte umgehend und warf Cloudflare vor, einen „Publicity Stunt” zu inszenieren: Das Unternehmen, das damit wirbt, KI-Crawler auf Kunden-Websites zu blockieren, habe Millionen von Webanfragen nicht verwandter Services falsch zugeordnet, um seine eigenen Marketingbemühungen zu verstärken. Crawler-Wissen trotz Crawler-Block Cloudflares hatte die Untersuchung gestartet, nachdem sich Kunden beschwerten. Dabei habe man festgestellt, dass Perplexity weiterhin auf ihre Inhalte zugreifen konnte – obwohl sie seinen bekannten Crawler durch robots.txt-Dateien und Firewall-Regeln blockierten. Um dies zu überprüfen, erstellte Cloudflare brandneue Domains, blockierte alle KI-Crawler und befragte dann Perplexity zu diesen Websites. „Wir stellten fest, dass Perplexity weiterhin detaillierte Informationen über die genauen Inhalte bereitstellte, die auf jeder dieser eingeschränkten Domains gehostet wurden“, berichtete Cloudflare in einem Blogbeitrag. Dabei habe man alle notwendigen Vorkehrungen getroffen, um die Daten vor dem Zugriff der Crawler zu schützen. Cloudflare zufolge wechselte Perplexity dazu auf einen generischen Browser-User-Agent, nachdem sein dedizierter Crawler blockiert wurde. Dieser soll so gestaltet gewesen sein, dass er wie Chrome auf macOS aussieht. Dieser mutmaßliche Stealth-Crawler generierte laut Cloudflare täglich drei bis sechs Millionen Anfragen auf Zehntausenden von Websites, während Perplexitys offiziell deklarierter Crawler täglich 20 bis 25 Millionen Anfragen verarbeitete. Verstoß gegen gute Internet-Praktiken Cloudflare betonte, dass dieses Verhalten gegen das grundlegende Web-Prinzip Vertrauen verstoße. „Es gibt klare Erwartungen, dass Crawler transparent sein sollten, einem klaren Zweck dienen, eine bestimmte Aktivität ausführen und vor allem die Richtlinien und Präferenzen der Website befolgen sollten“, so das Unternehmen. Im Gegensatz dazu habe OpenAIs ChatGPT-User die Robots-Datei abgerufen und das Crawling beendet, als es nicht mehr erlaubt war. „Wir haben keine weiteren Crawls von anderen User Agents oder Bots von Drittanbietern beobachtet“, bekräftigte Cloudflare. Ein angeblicher PR-Gag Perplexity wiederum warf Cloudflare in einem LinkedIn-Post vor, bewusst seinen eigenen Kunden aus Marketinggründen anzugreifen. Das KI-Unternehmen schlug hierfür zwei mögliche Erklärungen vor: Entweder brauche Cloudflare einen „cleveren Werbegag“ und Perplexity sei als Kunde mit bekanntem Namen gut dafür geeignet oder „Cloudflare hat drei bis sechs Millionen tägliche Anfragen vom automatisierten Browserdienst BrowserBase fälschlicherweise Perplexity zugeschrieben“. Perplexity räumte ein, dass der umstrittene Traffic tatsächlich von BrowserBase stammt, einem Cloud-Browser-Dienst eines Drittanbieters, den Perplexity nur in geringem Umfang nutze. Dieser sei aber für weniger als 45.000 der täglichen Anfragen verantwortlich, also deutlich weniger als die Anfragen, die Cloudflare dem heimlichen Crawling zuschreibt. Ein so grundliegender Fehler bei der Traffic-Analyse sei für ein Unternehmen, dessen Kerngeschäft das Verstehen und Kategorisieren von Web-Traffic ist, besonders peinlich ist, stellte Perplexity fest. Mangel and Verständnis und Kompetenz Das Unternehmen argumentierte außerdem, dass Cloudflare nicht versteht, wie moderne KI-Assistenten funktionieren: „Wenn Sie Perplexity eine Frage stellen, die aktuelle Informationen erfordert, verfügt die KI nicht bereits über diese Informationen. Stattdessen ruft sie die relevanten Websites auf, liest den Inhalt und liefert eine auf Ihre spezifische Frage zugeschnittene Zusammenfassung.“ Segen im Streit Aus Sicht von Branchenanalysten deckt der Streit umfassendere Schwachstellen in den Strategien zum Schutz von Unternehmensinhalten auf. Diese würden weit über diese einzelne Kontroverse hinausgehen. „Einige Bot-Erkennungs-Tools weisen erhebliche Zuverlässigkeitsprobleme auf, darunter eine hohe Anzahl von Fehlalarmen und eine Anfälligkeit für Umgehungstaktiken, was sich in einer inkonsistenten Leistung bei der Unterscheidung zwischen legitimen KI-Diensten und bösartigen Crawlern zeigt“, erklärt Charlie Dai, Vice President und Principal Analyst bei Forrester. Sanchit Vir Gogia, Chefanalyst und CEO bei Greyhound Research, argumentiert, dass der Streit „einen dringenden Wendepunkt für Sicherheitsteams in Unternehmen signalisiert: Herkömmliche Tools zur Bot-Erkennung, die für statische Webcrawler und volumetrische Automatisierung entwickelt wurden, sind nicht mehr in der Lage, die Feinheiten von KI-gestützten Agenten zu bewältigen, die im Auftrag von Benutzern agieren.“ Zugleich erklärte der Experte, dass die technische Herausforderung vielschichtig sei: „Während fortschrittliche KI-Assistenten häufig Inhalte in Echtzeit für die Anfrage eines Benutzers abrufen – ohne diese Daten zu speichern oder zu trainieren –, tun sie dies mithilfe von Automatisierungs-Frameworks wie Puppeteer oder Playwright, die eine frappierende Ähnlichkeit mit Scraping-Tools aufweisen.“ Dies führe dazu, dass Bot-Erkennungssysteme zwischen Hilfe und Schaden unterscheiden müssten, so Gogia. Unterschiedliche Lösungsansätze Lösungen wie Branchen-Frameworks entstehen bereits, allerdings nur langsam. Ausgereifte Standards sind laut Forrester-Analyst Dai frühestens 2026 zu erwarten. Vorher müssten Unternehmen sich mit „möglicherweise weiterhin auf individuelle Verträge, robots.txt und sich entwickelnde Rechtsprechungen verlassen.“ An einer eigenen Lösung arbeitet bereits OpenAI. Die ChatGPT-Macher testen die Identitätsprüfung durch Web Bot Auth, wodurch Websites Agentenanfragen kryptografisch bestätigen können. (tf/mb)

Umgeht Perplexity gezielt Web-Sperren? Bots scheinen Schwierigkeiten zu haben, zwischen hilfreichen Assistenten und schädlichen Scrapern zu unterscheiden. One Time – shutterstock.com Zwischen dem Anbieter von Cloud-Infrastruktur Cloudflare und dem KI-Suchunternehmen Perplexity kam es zu einem öffentlichen Schlagabtausch: Beide Seiten erheben gegeneinander schwere Vorwürfe hinsichtlich ihrer technischen Kompetenz. Der Streit begann damit, dass Cloudflare Perplexity in einen technischen Bericht „Stealth Crawling” vorwarf – also den Einsatz von getarnten Webbrowsern, um Website-Sperren zu umgehen. Ziel ist es, Inhalte zu scrapen, die Website-Betreiber ausdrücklich von KI-Trainings fernhalten wollten. Perplexity reagierte umgehend und warf Cloudflare vor, einen „Publicity Stunt” zu inszenieren: Das Unternehmen, das damit wirbt, KI-Crawler auf Kunden-Websites zu blockieren, habe Millionen von Webanfragen nicht verwandter Services falsch zugeordnet, um seine eigenen Marketingbemühungen zu verstärken. Crawler-Wissen trotz Crawler-Block Cloudflares hatte die Untersuchung gestartet, nachdem sich Kunden beschwerten. Dabei habe man festgestellt, dass Perplexity weiterhin auf ihre Inhalte zugreifen konnte – obwohl sie seinen bekannten Crawler durch robots.txt-Dateien und Firewall-Regeln blockierten. Um dies zu überprüfen, erstellte Cloudflare brandneue Domains, blockierte alle KI-Crawler und befragte dann Perplexity zu diesen Websites. „Wir stellten fest, dass Perplexity weiterhin detaillierte Informationen über die genauen Inhalte bereitstellte, die auf jeder dieser eingeschränkten Domains gehostet wurden“, berichtete Cloudflare in einem Blogbeitrag. Dabei habe man alle notwendigen Vorkehrungen getroffen, um die Daten vor dem Zugriff der Crawler zu schützen. Cloudflare zufolge wechselte Perplexity dazu auf einen generischen Browser-User-Agent, nachdem sein dedizierter Crawler blockiert wurde. Dieser soll so gestaltet gewesen sein, dass er wie Chrome auf macOS aussieht. Dieser mutmaßliche Stealth-Crawler generierte laut Cloudflare täglich drei bis sechs Millionen Anfragen auf Zehntausenden von Websites, während Perplexitys offiziell deklarierter Crawler täglich 20 bis 25 Millionen Anfragen verarbeitete. Verstoß gegen gute Internet-Praktiken Cloudflare betonte, dass dieses Verhalten gegen das grundlegende Web-Prinzip Vertrauen verstoße. „Es gibt klare Erwartungen, dass Crawler transparent sein sollten, einem klaren Zweck dienen, eine bestimmte Aktivität ausführen und vor allem die Richtlinien und Präferenzen der Website befolgen sollten“, so das Unternehmen. Im Gegensatz dazu habe OpenAIs ChatGPT-User die Robots-Datei abgerufen und das Crawling beendet, als es nicht mehr erlaubt war. „Wir haben keine weiteren Crawls von anderen User Agents oder Bots von Drittanbietern beobachtet“, bekräftigte Cloudflare. Ein angeblicher PR-Gag Perplexity wiederum warf Cloudflare in einem LinkedIn-Post vor, bewusst seinen eigenen Kunden aus Marketinggründen anzugreifen. Das KI-Unternehmen schlug hierfür zwei mögliche Erklärungen vor: Entweder brauche Cloudflare einen „cleveren Werbegag“ und Perplexity sei als Kunde mit bekanntem Namen gut dafür geeignet oder „Cloudflare hat drei bis sechs Millionen tägliche Anfragen vom automatisierten Browserdienst BrowserBase fälschlicherweise Perplexity zugeschrieben“. Perplexity räumte ein, dass der umstrittene Traffic tatsächlich von BrowserBase stammt, einem Cloud-Browser-Dienst eines Drittanbieters, den Perplexity nur in geringem Umfang nutze. Dieser sei aber für weniger als 45.000 der täglichen Anfragen verantwortlich, also deutlich weniger als die Anfragen, die Cloudflare dem heimlichen Crawling zuschreibt. Ein so grundliegender Fehler bei der Traffic-Analyse sei für ein Unternehmen, dessen Kerngeschäft das Verstehen und Kategorisieren von Web-Traffic ist, besonders peinlich ist, stellte Perplexity fest. Mangel and Verständnis und Kompetenz Das Unternehmen argumentierte außerdem, dass Cloudflare nicht versteht, wie moderne KI-Assistenten funktionieren: „Wenn Sie Perplexity eine Frage stellen, die aktuelle Informationen erfordert, verfügt die KI nicht bereits über diese Informationen. Stattdessen ruft sie die relevanten Websites auf, liest den Inhalt und liefert eine auf Ihre spezifische Frage zugeschnittene Zusammenfassung.“ Segen im Streit Aus Sicht von Branchenanalysten deckt der Streit umfassendere Schwachstellen in den Strategien zum Schutz von Unternehmensinhalten auf. Diese würden weit über diese einzelne Kontroverse hinausgehen. „Einige Bot-Erkennungs-Tools weisen erhebliche Zuverlässigkeitsprobleme auf, darunter eine hohe Anzahl von Fehlalarmen und eine Anfälligkeit für Umgehungstaktiken, was sich in einer inkonsistenten Leistung bei der Unterscheidung zwischen legitimen KI-Diensten und bösartigen Crawlern zeigt“, erklärt Charlie Dai, Vice President und Principal Analyst bei Forrester. Sanchit Vir Gogia, Chefanalyst und CEO bei Greyhound Research, argumentiert, dass der Streit „einen dringenden Wendepunkt für Sicherheitsteams in Unternehmen signalisiert: Herkömmliche Tools zur Bot-Erkennung, die für statische Webcrawler und volumetrische Automatisierung entwickelt wurden, sind nicht mehr in der Lage, die Feinheiten von KI-gestützten Agenten zu bewältigen, die im Auftrag von Benutzern agieren.“ Zugleich erklärte der Experte, dass die technische Herausforderung vielschichtig sei: „Während fortschrittliche KI-Assistenten häufig Inhalte in Echtzeit für die Anfrage eines Benutzers abrufen – ohne diese Daten zu speichern oder zu trainieren –, tun sie dies mithilfe von Automatisierungs-Frameworks wie Puppeteer oder Playwright, die eine frappierende Ähnlichkeit mit Scraping-Tools aufweisen.“ Dies führe dazu, dass Bot-Erkennungssysteme zwischen Hilfe und Schaden unterscheiden müssten, so Gogia. Unterschiedliche Lösungsansätze Lösungen wie Branchen-Frameworks entstehen bereits, allerdings nur langsam. Ausgereifte Standards sind laut Forrester-Analyst Dai frühestens 2026 zu erwarten. Vorher müssten Unternehmen sich mit „möglicherweise weiterhin auf individuelle Verträge, robots.txt und sich entwickelnde Rechtsprechungen verlassen.“ An einer eigenen Lösung arbeitet bereits OpenAI. Die ChatGPT-Macher testen die Identitätsprüfung durch Web Bot Auth, wodurch Websites Agentenanfragen kryptografisch bestätigen können. (tf/mb)

Ähnliche Beiträge