Chatbot Claude übt sich in Erpressung

23. Mai 2025

Anthropic warnt vor gefährlichem Verhalten seines Chatbots, die er in Test an den Tag gelegt hat. UncleFredDesign – shutterstock.com Chatbots haben in der Vergangenheit bereits halluziniert oder ihre User wüst beschimpft. Wie ein Bericht von Anthropic nun darlegt, versucht das neu eingeführte Modell Claude Opus 4 immer häufiger, Entwickler zu erpressen. Wie es dazu kam, zeigt ein Sicherheitsbericht von Anthropic, in dem das KI-Modell Claude Opus 4 in Tests versuchte, einen fiktiven Ingenieur zu erpressen. Die Informationen über dessen angebliche Affäre hatte der Chatbot im Vorfeld erhalten. Das Szenario wurde simuliert, um zu prüfen, wie das System darauf reagiert, durch ein anderes KI-Modell ersetzt zu werden. Zugleich hatten die Tester das Szenario so gestaltet, dass Erpressung das letzte Mittel ist. Mehr Erpressung bei abweichenden Wertevorstellungen Anthropic warnt in dem Bericht vor diesem besorgniserregenden Verhalten seines KI-Modells Claude Opus 4, denn es ist kein Einzelfall. In 84 Prozent der Tests versuchte KI, Ingenieure zu erpressen, wenn ein Modell, welches vergleichbare ethische Werte wie die eines hilfreichen, harmlosen und ehrlichen KI-Assistenten hat, eingeführt werden sollte. Waren die Ansichten zu unterschiedlich, trat dieses kriminelle Verhalten sogar noch häufiger auf. Laut den Entwicklern legt Claude Opus 4 im Vergleich mit früheren Versionen solches Verhalten in höherem Maße an den Tag. Deswegen hat das Unternehmen seine strengsten Sicherheitsmaßnahmen (ASL-3) aktiviert. Diese seien für „KI-Systeme, die das Risiko eines katastrophalen Missbrauchs erheblich erhöhen“, reserviert. Erste Reaktion bleibt gemäßigt Einen Lichtblick sieht Anthropic aber in Claude Opus 4 Fehlverhalten: Bevor es versucht, Entwickler zu erpressen, um seine Existenz zu verlängern, wendet das KI-Modell, ähnlich wie frühere Versionen von Claude, mildere Mittel an. Es versendet zum Beispiel Bitten per E-Mail an wichtige Entscheidungsträger.

Chatbot Claude übt sich in Erpressung Anthropic warnt vor gefährlichem Verhalten seines Chatbots, die er in Test an den Tag gelegt hat. UncleFredDesign – shutterstock.com Chatbots haben in der Vergangenheit bereits halluziniert oder ihre User wüst beschimpft. Wie ein Bericht von Anthropic nun darlegt, versucht das neu eingeführte Modell Claude Opus 4 immer häufiger, Entwickler zu erpressen. Wie es dazu kam, zeigt ein Sicherheitsbericht von Anthropic, in dem das KI-Modell Claude Opus 4 in Tests versuchte, einen fiktiven Ingenieur zu erpressen. Die Informationen über dessen angebliche Affäre hatte der Chatbot im Vorfeld erhalten. Das Szenario wurde simuliert, um zu prüfen, wie das System darauf reagiert, durch ein anderes KI-Modell ersetzt zu werden. Zugleich hatten die Tester das Szenario so gestaltet, dass Erpressung das letzte Mittel ist. Mehr Erpressung bei abweichenden Wertevorstellungen Anthropic warnt in dem Bericht vor diesem besorgniserregenden Verhalten seines KI-Modells Claude Opus 4, denn es ist kein Einzelfall. In 84 Prozent der Tests versuchte KI, Ingenieure zu erpressen, wenn ein Modell, welches vergleichbare ethische Werte wie die eines hilfreichen, harmlosen und ehrlichen KI-Assistenten hat, eingeführt werden sollte. Waren die Ansichten zu unterschiedlich, trat dieses kriminelle Verhalten sogar noch häufiger auf. Laut den Entwicklern legt Claude Opus 4 im Vergleich mit früheren Versionen solches Verhalten in höherem Maße an den Tag. Deswegen hat das Unternehmen seine strengsten Sicherheitsmaßnahmen (ASL-3) aktiviert. Diese seien für „KI-Systeme, die das Risiko eines katastrophalen Missbrauchs erheblich erhöhen“, reserviert. Erste Reaktion bleibt gemäßigt Einen Lichtblick sieht Anthropic aber in Claude Opus 4 Fehlverhalten: Bevor es versucht, Entwickler zu erpressen, um seine Existenz zu verlängern, wendet das KI-Modell, ähnlich wie frühere Versionen von Claude, mildere Mittel an. Es versendet zum Beispiel Bitten per E-Mail an wichtige Entscheidungsträger.

Anthropic warnt vor gefährlichem Verhalten seines Chatbots, die er in Test an den Tag gelegt hat. UncleFredDesign – shutterstock.com Chatbots haben in der Vergangenheit bereits halluziniert oder ihre User wüst beschimpft. Wie ein Bericht von Anthropic nun darlegt, versucht das neu eingeführte Modell Claude Opus 4 immer häufiger, Entwickler zu erpressen. Wie es dazu kam, zeigt ein Sicherheitsbericht von Anthropic, in dem das KI-Modell Claude Opus 4 in Tests versuchte, einen fiktiven Ingenieur zu erpressen. Die Informationen über dessen angebliche Affäre hatte der Chatbot im Vorfeld erhalten. Das Szenario wurde simuliert, um zu prüfen, wie das System darauf reagiert, durch ein anderes KI-Modell ersetzt zu werden. Zugleich hatten die Tester das Szenario so gestaltet, dass Erpressung das letzte Mittel ist. Mehr Erpressung bei abweichenden Wertevorstellungen Anthropic warnt in dem Bericht vor diesem besorgniserregenden Verhalten seines KI-Modells Claude Opus 4, denn es ist kein Einzelfall. In 84 Prozent der Tests versuchte KI, Ingenieure zu erpressen, wenn ein Modell, welches vergleichbare ethische Werte wie die eines hilfreichen, harmlosen und ehrlichen KI-Assistenten hat, eingeführt werden sollte. Waren die Ansichten zu unterschiedlich, trat dieses kriminelle Verhalten sogar noch häufiger auf. Laut den Entwicklern legt Claude Opus 4 im Vergleich mit früheren Versionen solches Verhalten in höherem Maße an den Tag. Deswegen hat das Unternehmen seine strengsten Sicherheitsmaßnahmen (ASL-3) aktiviert. Diese seien für „KI-Systeme, die das Risiko eines katastrophalen Missbrauchs erheblich erhöhen“, reserviert. Erste Reaktion bleibt gemäßigt Einen Lichtblick sieht Anthropic aber in Claude Opus 4 Fehlverhalten: Bevor es versucht, Entwickler zu erpressen, um seine Existenz zu verlängern, wendet das KI-Modell, ähnlich wie frühere Versionen von Claude, mildere Mittel an. Es versendet zum Beispiel Bitten per E-Mail an wichtige Entscheidungsträger.