Computerhaus Quickborn

KI sicherer machen in 8 Lektionen​

Red Teams, die KI-Systeme von allen Seiten unter die Lupe nehmen, können helfen, die Sicherheit zu verbessern.DC Studio / Shutterstock Microsofts Red Team, das für über 100 generativen KI-Produkten verantwortlich ist, ist zu dem Schluss gekommen, dass die Arbeit an sicheren KI-Systemen niemals enden wird. Unter einem Red Team versteht man eine Gruppe von Sicherheitsexperten, die von internen Stakeholdern oder externen Kunden beauftragt werden, bestimmte IT-Systeme unter die Lupe zu nehmen, diese Penetrationstests auszusetzen und über simulierte Angriffe zu versuchen, Sicherheitsmechanismen auszuhebeln und die entsprechenden Systeme zu kompromittieren. In einem Forschungspapier beschreiben die Autoren, darunter Microsofts Azure CTO Mark Russinovich, Teile der Arbeit des Red Teams und geben acht Empfehlungen, die darauf abzielen, Red Teaming-Bemühungen mit realen Risiken in Einklang zu bringen. “Da generative KI-Systeme (GenAI) in immer mehr Bereichen eingesetzt werden, hat sich das AI Red Teaming zu einer zentralen Praxis für die Bewertung der Sicherheit dieser Technologien entwickelt”, heißt es in dem Bericht. Interview mit Sebastian Schreiber: So arbeiten Red-Team- und PenTester Im Kern geht es beim KI-Red-Teaming darum, über die Sicherheitsbenchmarks auf Modellebene hinauszugehen, indem reale Angriffe auf End-to-End-Systeme emuliert werden. Es gibt jedoch viele offene Fragen darüber, wie Red Teaming-Operationen durchgeführt werden sollten. In dem Papier heißt es, dass sich das Microsoft AI Red Team (AIRT) bei seiner Gründung im Jahr 2018 in erster Linie auf die Identifizierung herkömmlicher Sicherheitsschwachstellen und Umgehungsangriffe gegen klassische ML-Modelle konzentriert habe. Seitdem hätten sich sowohl der Umfang als auch das Ausmaß des KI-Red-Teams bei Microsoft deutlich erweitert. als Reaktion auf zwei wichtige Trends erheblich erweitert.” Framework für Red Teams Das liege in erster Linie an zwei Entwicklungen. Zum einen sei KI-Technik immer ausgefeilter geworden, und zum zweiten hätten Microsofts jüngste Investitionen in KI zur Entwicklung von viel mehr Produkten geführt, die Red Teaming erforderten. “Dieser Anstieg des Volumens und der erweiterte Umfang des KI-Red-Teaming haben dazu geführt, dass vollständig manuelle Tests nicht mehr praktikabel und wir gezwungen waren, unsere Abläufe mit Hilfe von Automatisierung zu erweitern”, schreiben die Autoren. “Um dieses Ziel zu erreichen, haben wir PyRIT entwickelt, ein quelloffenes Python-Framework, das unsere Mitarbeiter bei Red Teaming-Aktivitäten intensiv nutzen.” Dadurch sei AIRT nun in die Lage, schwerwiegende Schwachstellen in KI-Systemen schneller zu identifizieren und einen größeren Teil der Risikolandschaft abzudecken, hieß es. Auf der Grundlage ihrer Erfahrungen haben die Autoren acht Lektionen zusammengestellt, inklusive detaillierter Erklärungen und Fallstudien, die dabei helfen sollen, KI-Systeme im Rahmen von Red-Teaming-Aktivitäten besser abzusichern: 1. Verstehen Sie, was das System tun kann und wo es eingesetzt wird Der erste Schritt bei einer KI-Red-Teaming-Operation besteht darin, zu bestimmen, welche Schwachstellen ins Visier genommen werden sollen. Die Autoren schlagen vor: “Wenn man von den potenziellen Auswirkungen und nicht von den Angriffsstrategien ausgeht, ist es wahrscheinlicher, dass eine Operation nützliche Ergebnisse liefert, die mit realen Risiken verbunden sind.” Nachdem diese Auswirkungen identifiziert seien, könnten Red Teams rückwärts arbeiten und die verschiedenen Wege skizzieren, die ein Angreifer nehmen könnte, um sie zu erreichen. 2. Sie müssen keine Gradienten berechnen, um ein KI-System zu brechen Um dies zu beweisen, verweist das Papier auf eine andere Studie. Demzufolge würden sich die meisten Forschungen viel zu sehr darauf konzentrieren, Strategien für die Verteidigung gegen ausgeklügelte Angriffe zu entwickeln. In der realen Welt verwendeten die Angreifer jedoch meist viel einfachere Techniken, um ihre Ziele zu erreichen. Gradienten-basierte Angriffe seien zwar mächtig, so die Autoren, “aber sie sind oft unpraktisch oder unnötig. Wir empfehlen, einfachen Techniken den Vorzug zu geben und Angriffe auf Systemebene zu orchestrieren”. Es sei wahrscheinlicher, dass echte Angreifer eher diesen Weg gehen würden. 3. AI Red Teaming ist kein Sicherheits-Benchmarking Beide Ansätze sind unterschiedlich, schreiben die Autoren. Sie seien beide nützlich und könnten sich ergänzen. Benchmarks machten es insbesondere einfach, die Leistung mehrerer Modelle auf Basis eines gemeinsamen Datensatzes zu vergleichen. KI-Red-Teaming erfordere darüber hinaus viel mehr menschlichen Einsatz, könne aber neue Schadenskategorien entdecken und nach kontextbezogenen Risiken suchen. Neue Risiken, die sich aus den neuen Fähigkeiten von KI-Systemen ergeben, seien möglicherweise noch nicht vollständig bekannt. Aufgabe der Red Teams sei es, diese zu definieren und Instrumente zu ihrer Messung zu entwickeln. 4. Automatisierung kann dabei helfen, einen größeren Teil der Risikolandschaft abzudecken Den Autoren zufolge hat die Komplexität der KI-Risikolandschaft zur Entwicklung einer Vielzahl von Tools geführt. Diese seien in der Lage, Schwachstellen schneller zu identifizieren, ausgefeilte Angriffe automatisch auszuführen und Tests in einem viel größeren Maßstab durchzuführen. Die Automatisierung beim KI-Red-Teaming spiele eine entscheidende Rolle, was letztendlich zur Entwicklung eines Open-Source-Frameworks, PyRIT, geführt habe. 5. Das menschliche Element beim KI-Red-Teaming ist entscheidend Automatisierung mag zwar wichtig sein, sagen die Autoren. Tools wie PyRIT unterstützten Red Teaming-Operationen, indem sie Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Gleichzeitig warnen die Experten aber: “Diese Tools sind nützlich, sollten aber nicht mit der Absicht eingesetzt werden, den Menschen aus dem Spiel zu nehmen.” 6. Schäden durch Responsable AI (RAI) sind allgegenwärtig, aber schwer zu messen RAI-Schäden sind schwerer zu fassen als klassische Sicherheitslücken. Das hat nach Einschätzung der Experten vor allem mit fundamentalen Unterschieden zwischen KI-Systemen und herkömmlicher Software zu tun. Die meisten Bemühungen in Sachen KI-Sicherheit konzentrieren sich auf feindlich gesinnte User, die absichtlich gegen Leitplanken verstoßen. In Wahrheit sind aber “gutartige” Benutzerinnen und Benutzer, die versehentlich schädliche Inhalte generieren, mindestens genauso wichtig für die Absicherung des KI-Einsatzes. 7. LLMs verstärken bestehende Sicherheitsrisiken und führen neue ein Die Integration von generativen KI-Modellen in eine Vielzahl von Anwendungen hat neue Angriffsvektoren geschaffen und die Landschaft der Sicherheitsrisiken verändert. Es gelte daher die KI-Teams zu ermutigen, sowohl bestehende (typischerweise auf Systemebene) als auch neue (typischerweise auf Modellebene) Risiken im Blick zu behalten. 8. Die Arbeit zur Sicherung von KI-Systemen wird nie abgeschlossen sein Die Vorstellung, dass es möglich ist, die Sicherheit von KI-Systemen allein durch technische Fortschritte zu garantieren, ist unrealistisch, lautet das Fazit der Ted-Team-Spezialisten. Ein solcher Ansatz lasse andere wesentliche Faktoren außer Acht, wie zum Beispiel wirtschaftliche Aspekte, Fehlerbehebungszyklen und die Regulierung. Vor diesem Hintergrund heißt es in dem Papier: “In Ermangelung von Sicherheitsgarantien brauchen wir Methoden, um KI-Systeme zu entwickeln, die so schwer zu knacken sind, wie nur irgendwie möglich.” Eine Möglichkeit, dies zu erreichen, sei die Verwendung von Break-Fix-Zyklen, bei denen mehrere Runden von Red Teaming und Schadensbegrenzung durchgeführt werden, bis ein solches System tatsächlich zumindest gegen eine breite Palette von Angriffen gefeit ist. Fazit: KI bleibt ein extrem bewegliches Ziel Die Autoren des Berichts kommen zu dem Schluss, dass sich KI-Red-Teaming als eine neu entstehende Praxis entwickeln könnte, um Sicherheitsrisiken zu identifizieren, die von KI-Systemen ausgehen. Gleichzeitig werfen die Security-Experten aber auch eine Reihe von Fragen auf – vor allem an sich selbst. “Wie sollten wir nach gefährlichen Fähigkeiten in LLMs suchen”, fragen sie. “Welche neuartigen Risiken sollten wir in Modellen der jüngsten Videogeneration untersuchen und welche Fähigkeiten könnten in Modellen auftauchen, die weiter fortgeschritten sind als der aktuelle Stand der Technik?” Darüber hinaus drehen sich die Diskussionen darum, wie Red Teams ihre Praktiken anpassen können, um verschiedenen sprachlichen und kulturellen Kontexten gerecht zu werden. Und es geht um die Frage, auf welche Weise Red-Teaming-Praktiken standardisiert werden sollten, um es den Teams zu erleichtern, ihre Ergebnisse zu vergleichen und zu kommunizieren. Ein Anfang soll mit der Microsoft-internen Untersuchung gemacht sein, hieß es. “Da sich Unternehmen, Forschungseinrichtungen und Regierungen auf der ganzen Welt mit der Frage auseinandersetzen, wie sie KI-Risikobewertungen durchführen sollen, geben wir praktische Empfehlungen, die auf unseren Erfahrungen mit dem Red Teaming von über 100 GenAI-Produkten bei Microsoft basieren. Wir ermutigen andere, auf diesen Erkenntnissen aufzubauen und die offenen Fragen, die wir hervorgehoben haben, anzugehen.” 

KI sicherer machen in 8 Lektionen​ Red Teams, die KI-Systeme von allen Seiten unter die Lupe nehmen, können helfen, die Sicherheit zu verbessern.DC Studio / Shutterstock Microsofts Red Team, das für über 100 generativen KI-Produkten verantwortlich ist, ist zu dem Schluss gekommen, dass die Arbeit an sicheren KI-Systemen niemals enden wird. Unter einem Red Team versteht man eine Gruppe von Sicherheitsexperten, die von internen Stakeholdern oder externen Kunden beauftragt werden, bestimmte IT-Systeme unter die Lupe zu nehmen, diese Penetrationstests auszusetzen und über simulierte Angriffe zu versuchen, Sicherheitsmechanismen auszuhebeln und die entsprechenden Systeme zu kompromittieren. In einem Forschungspapier beschreiben die Autoren, darunter Microsofts Azure CTO Mark Russinovich, Teile der Arbeit des Red Teams und geben acht Empfehlungen, die darauf abzielen, Red Teaming-Bemühungen mit realen Risiken in Einklang zu bringen. “Da generative KI-Systeme (GenAI) in immer mehr Bereichen eingesetzt werden, hat sich das AI Red Teaming zu einer zentralen Praxis für die Bewertung der Sicherheit dieser Technologien entwickelt”, heißt es in dem Bericht. Interview mit Sebastian Schreiber: So arbeiten Red-Team- und PenTester Im Kern geht es beim KI-Red-Teaming darum, über die Sicherheitsbenchmarks auf Modellebene hinauszugehen, indem reale Angriffe auf End-to-End-Systeme emuliert werden. Es gibt jedoch viele offene Fragen darüber, wie Red Teaming-Operationen durchgeführt werden sollten. In dem Papier heißt es, dass sich das Microsoft AI Red Team (AIRT) bei seiner Gründung im Jahr 2018 in erster Linie auf die Identifizierung herkömmlicher Sicherheitsschwachstellen und Umgehungsangriffe gegen klassische ML-Modelle konzentriert habe. Seitdem hätten sich sowohl der Umfang als auch das Ausmaß des KI-Red-Teams bei Microsoft deutlich erweitert. als Reaktion auf zwei wichtige Trends erheblich erweitert.” Framework für Red Teams Das liege in erster Linie an zwei Entwicklungen. Zum einen sei KI-Technik immer ausgefeilter geworden, und zum zweiten hätten Microsofts jüngste Investitionen in KI zur Entwicklung von viel mehr Produkten geführt, die Red Teaming erforderten. “Dieser Anstieg des Volumens und der erweiterte Umfang des KI-Red-Teaming haben dazu geführt, dass vollständig manuelle Tests nicht mehr praktikabel und wir gezwungen waren, unsere Abläufe mit Hilfe von Automatisierung zu erweitern”, schreiben die Autoren. “Um dieses Ziel zu erreichen, haben wir PyRIT entwickelt, ein quelloffenes Python-Framework, das unsere Mitarbeiter bei Red Teaming-Aktivitäten intensiv nutzen.” Dadurch sei AIRT nun in die Lage, schwerwiegende Schwachstellen in KI-Systemen schneller zu identifizieren und einen größeren Teil der Risikolandschaft abzudecken, hieß es. Auf der Grundlage ihrer Erfahrungen haben die Autoren acht Lektionen zusammengestellt, inklusive detaillierter Erklärungen und Fallstudien, die dabei helfen sollen, KI-Systeme im Rahmen von Red-Teaming-Aktivitäten besser abzusichern: 1. Verstehen Sie, was das System tun kann und wo es eingesetzt wird Der erste Schritt bei einer KI-Red-Teaming-Operation besteht darin, zu bestimmen, welche Schwachstellen ins Visier genommen werden sollen. Die Autoren schlagen vor: “Wenn man von den potenziellen Auswirkungen und nicht von den Angriffsstrategien ausgeht, ist es wahrscheinlicher, dass eine Operation nützliche Ergebnisse liefert, die mit realen Risiken verbunden sind.” Nachdem diese Auswirkungen identifiziert seien, könnten Red Teams rückwärts arbeiten und die verschiedenen Wege skizzieren, die ein Angreifer nehmen könnte, um sie zu erreichen. 2. Sie müssen keine Gradienten berechnen, um ein KI-System zu brechen Um dies zu beweisen, verweist das Papier auf eine andere Studie. Demzufolge würden sich die meisten Forschungen viel zu sehr darauf konzentrieren, Strategien für die Verteidigung gegen ausgeklügelte Angriffe zu entwickeln. In der realen Welt verwendeten die Angreifer jedoch meist viel einfachere Techniken, um ihre Ziele zu erreichen. Gradienten-basierte Angriffe seien zwar mächtig, so die Autoren, “aber sie sind oft unpraktisch oder unnötig. Wir empfehlen, einfachen Techniken den Vorzug zu geben und Angriffe auf Systemebene zu orchestrieren”. Es sei wahrscheinlicher, dass echte Angreifer eher diesen Weg gehen würden. 3. AI Red Teaming ist kein Sicherheits-Benchmarking Beide Ansätze sind unterschiedlich, schreiben die Autoren. Sie seien beide nützlich und könnten sich ergänzen. Benchmarks machten es insbesondere einfach, die Leistung mehrerer Modelle auf Basis eines gemeinsamen Datensatzes zu vergleichen. KI-Red-Teaming erfordere darüber hinaus viel mehr menschlichen Einsatz, könne aber neue Schadenskategorien entdecken und nach kontextbezogenen Risiken suchen. Neue Risiken, die sich aus den neuen Fähigkeiten von KI-Systemen ergeben, seien möglicherweise noch nicht vollständig bekannt. Aufgabe der Red Teams sei es, diese zu definieren und Instrumente zu ihrer Messung zu entwickeln. 4. Automatisierung kann dabei helfen, einen größeren Teil der Risikolandschaft abzudecken Den Autoren zufolge hat die Komplexität der KI-Risikolandschaft zur Entwicklung einer Vielzahl von Tools geführt. Diese seien in der Lage, Schwachstellen schneller zu identifizieren, ausgefeilte Angriffe automatisch auszuführen und Tests in einem viel größeren Maßstab durchzuführen. Die Automatisierung beim KI-Red-Teaming spiele eine entscheidende Rolle, was letztendlich zur Entwicklung eines Open-Source-Frameworks, PyRIT, geführt habe. 5. Das menschliche Element beim KI-Red-Teaming ist entscheidend Automatisierung mag zwar wichtig sein, sagen die Autoren. Tools wie PyRIT unterstützten Red Teaming-Operationen, indem sie Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Gleichzeitig warnen die Experten aber: “Diese Tools sind nützlich, sollten aber nicht mit der Absicht eingesetzt werden, den Menschen aus dem Spiel zu nehmen.” 6. Schäden durch Responsable AI (RAI) sind allgegenwärtig, aber schwer zu messen RAI-Schäden sind schwerer zu fassen als klassische Sicherheitslücken. Das hat nach Einschätzung der Experten vor allem mit fundamentalen Unterschieden zwischen KI-Systemen und herkömmlicher Software zu tun. Die meisten Bemühungen in Sachen KI-Sicherheit konzentrieren sich auf feindlich gesinnte User, die absichtlich gegen Leitplanken verstoßen. In Wahrheit sind aber “gutartige” Benutzerinnen und Benutzer, die versehentlich schädliche Inhalte generieren, mindestens genauso wichtig für die Absicherung des KI-Einsatzes. 7. LLMs verstärken bestehende Sicherheitsrisiken und führen neue ein Die Integration von generativen KI-Modellen in eine Vielzahl von Anwendungen hat neue Angriffsvektoren geschaffen und die Landschaft der Sicherheitsrisiken verändert. Es gelte daher die KI-Teams zu ermutigen, sowohl bestehende (typischerweise auf Systemebene) als auch neue (typischerweise auf Modellebene) Risiken im Blick zu behalten. 8. Die Arbeit zur Sicherung von KI-Systemen wird nie abgeschlossen sein Die Vorstellung, dass es möglich ist, die Sicherheit von KI-Systemen allein durch technische Fortschritte zu garantieren, ist unrealistisch, lautet das Fazit der Ted-Team-Spezialisten. Ein solcher Ansatz lasse andere wesentliche Faktoren außer Acht, wie zum Beispiel wirtschaftliche Aspekte, Fehlerbehebungszyklen und die Regulierung. Vor diesem Hintergrund heißt es in dem Papier: “In Ermangelung von Sicherheitsgarantien brauchen wir Methoden, um KI-Systeme zu entwickeln, die so schwer zu knacken sind, wie nur irgendwie möglich.” Eine Möglichkeit, dies zu erreichen, sei die Verwendung von Break-Fix-Zyklen, bei denen mehrere Runden von Red Teaming und Schadensbegrenzung durchgeführt werden, bis ein solches System tatsächlich zumindest gegen eine breite Palette von Angriffen gefeit ist. Fazit: KI bleibt ein extrem bewegliches Ziel Die Autoren des Berichts kommen zu dem Schluss, dass sich KI-Red-Teaming als eine neu entstehende Praxis entwickeln könnte, um Sicherheitsrisiken zu identifizieren, die von KI-Systemen ausgehen. Gleichzeitig werfen die Security-Experten aber auch eine Reihe von Fragen auf – vor allem an sich selbst. “Wie sollten wir nach gefährlichen Fähigkeiten in LLMs suchen”, fragen sie. “Welche neuartigen Risiken sollten wir in Modellen der jüngsten Videogeneration untersuchen und welche Fähigkeiten könnten in Modellen auftauchen, die weiter fortgeschritten sind als der aktuelle Stand der Technik?” Darüber hinaus drehen sich die Diskussionen darum, wie Red Teams ihre Praktiken anpassen können, um verschiedenen sprachlichen und kulturellen Kontexten gerecht zu werden. Und es geht um die Frage, auf welche Weise Red-Teaming-Praktiken standardisiert werden sollten, um es den Teams zu erleichtern, ihre Ergebnisse zu vergleichen und zu kommunizieren. Ein Anfang soll mit der Microsoft-internen Untersuchung gemacht sein, hieß es. “Da sich Unternehmen, Forschungseinrichtungen und Regierungen auf der ganzen Welt mit der Frage auseinandersetzen, wie sie KI-Risikobewertungen durchführen sollen, geben wir praktische Empfehlungen, die auf unseren Erfahrungen mit dem Red Teaming von über 100 GenAI-Produkten bei Microsoft basieren. Wir ermutigen andere, auf diesen Erkenntnissen aufzubauen und die offenen Fragen, die wir hervorgehoben haben, anzugehen.”

KI sicherer machen in 8 Lektionen​

Red Teams, die KI-Systeme von allen Seiten unter die Lupe nehmen, können helfen, die Sicherheit zu verbessern.DC Studio / Shutterstock Microsofts Red Team, das für über 100 generativen KI-Produkten verantwortlich ist, ist zu dem Schluss gekommen, dass die Arbeit an sicheren KI-Systemen niemals enden wird. Unter einem Red Team versteht man eine Gruppe von Sicherheitsexperten, die von internen Stakeholdern oder externen Kunden beauftragt werden, bestimmte IT-Systeme unter die Lupe zu nehmen, diese Penetrationstests auszusetzen und über simulierte Angriffe zu versuchen, Sicherheitsmechanismen auszuhebeln und die entsprechenden Systeme zu kompromittieren. In einem Forschungspapier beschreiben die Autoren, darunter Microsofts Azure CTO Mark Russinovich, Teile der Arbeit des Red Teams und geben acht Empfehlungen, die darauf abzielen, Red Teaming-Bemühungen mit realen Risiken in Einklang zu bringen. “Da generative KI-Systeme (GenAI) in immer mehr Bereichen eingesetzt werden, hat sich das AI Red Teaming zu einer zentralen Praxis für die Bewertung der Sicherheit dieser Technologien entwickelt”, heißt es in dem Bericht. Interview mit Sebastian Schreiber: So arbeiten Red-Team- und PenTester Im Kern geht es beim KI-Red-Teaming darum, über die Sicherheitsbenchmarks auf Modellebene hinauszugehen, indem reale Angriffe auf End-to-End-Systeme emuliert werden. Es gibt jedoch viele offene Fragen darüber, wie Red Teaming-Operationen durchgeführt werden sollten. In dem Papier heißt es, dass sich das Microsoft AI Red Team (AIRT) bei seiner Gründung im Jahr 2018 in erster Linie auf die Identifizierung herkömmlicher Sicherheitsschwachstellen und Umgehungsangriffe gegen klassische ML-Modelle konzentriert habe. Seitdem hätten sich sowohl der Umfang als auch das Ausmaß des KI-Red-Teams bei Microsoft deutlich erweitert. als Reaktion auf zwei wichtige Trends erheblich erweitert.” Framework für Red Teams Das liege in erster Linie an zwei Entwicklungen. Zum einen sei KI-Technik immer ausgefeilter geworden, und zum zweiten hätten Microsofts jüngste Investitionen in KI zur Entwicklung von viel mehr Produkten geführt, die Red Teaming erforderten. “Dieser Anstieg des Volumens und der erweiterte Umfang des KI-Red-Teaming haben dazu geführt, dass vollständig manuelle Tests nicht mehr praktikabel und wir gezwungen waren, unsere Abläufe mit Hilfe von Automatisierung zu erweitern”, schreiben die Autoren. “Um dieses Ziel zu erreichen, haben wir PyRIT entwickelt, ein quelloffenes Python-Framework, das unsere Mitarbeiter bei Red Teaming-Aktivitäten intensiv nutzen.” Dadurch sei AIRT nun in die Lage, schwerwiegende Schwachstellen in KI-Systemen schneller zu identifizieren und einen größeren Teil der Risikolandschaft abzudecken, hieß es. Auf der Grundlage ihrer Erfahrungen haben die Autoren acht Lektionen zusammengestellt, inklusive detaillierter Erklärungen und Fallstudien, die dabei helfen sollen, KI-Systeme im Rahmen von Red-Teaming-Aktivitäten besser abzusichern: 1. Verstehen Sie, was das System tun kann und wo es eingesetzt wird Der erste Schritt bei einer KI-Red-Teaming-Operation besteht darin, zu bestimmen, welche Schwachstellen ins Visier genommen werden sollen. Die Autoren schlagen vor: “Wenn man von den potenziellen Auswirkungen und nicht von den Angriffsstrategien ausgeht, ist es wahrscheinlicher, dass eine Operation nützliche Ergebnisse liefert, die mit realen Risiken verbunden sind.” Nachdem diese Auswirkungen identifiziert seien, könnten Red Teams rückwärts arbeiten und die verschiedenen Wege skizzieren, die ein Angreifer nehmen könnte, um sie zu erreichen. 2. Sie müssen keine Gradienten berechnen, um ein KI-System zu brechen Um dies zu beweisen, verweist das Papier auf eine andere Studie. Demzufolge würden sich die meisten Forschungen viel zu sehr darauf konzentrieren, Strategien für die Verteidigung gegen ausgeklügelte Angriffe zu entwickeln. In der realen Welt verwendeten die Angreifer jedoch meist viel einfachere Techniken, um ihre Ziele zu erreichen. Gradienten-basierte Angriffe seien zwar mächtig, so die Autoren, “aber sie sind oft unpraktisch oder unnötig. Wir empfehlen, einfachen Techniken den Vorzug zu geben und Angriffe auf Systemebene zu orchestrieren”. Es sei wahrscheinlicher, dass echte Angreifer eher diesen Weg gehen würden. 3. AI Red Teaming ist kein Sicherheits-Benchmarking Beide Ansätze sind unterschiedlich, schreiben die Autoren. Sie seien beide nützlich und könnten sich ergänzen. Benchmarks machten es insbesondere einfach, die Leistung mehrerer Modelle auf Basis eines gemeinsamen Datensatzes zu vergleichen. KI-Red-Teaming erfordere darüber hinaus viel mehr menschlichen Einsatz, könne aber neue Schadenskategorien entdecken und nach kontextbezogenen Risiken suchen. Neue Risiken, die sich aus den neuen Fähigkeiten von KI-Systemen ergeben, seien möglicherweise noch nicht vollständig bekannt. Aufgabe der Red Teams sei es, diese zu definieren und Instrumente zu ihrer Messung zu entwickeln. 4. Automatisierung kann dabei helfen, einen größeren Teil der Risikolandschaft abzudecken Den Autoren zufolge hat die Komplexität der KI-Risikolandschaft zur Entwicklung einer Vielzahl von Tools geführt. Diese seien in der Lage, Schwachstellen schneller zu identifizieren, ausgefeilte Angriffe automatisch auszuführen und Tests in einem viel größeren Maßstab durchzuführen. Die Automatisierung beim KI-Red-Teaming spiele eine entscheidende Rolle, was letztendlich zur Entwicklung eines Open-Source-Frameworks, PyRIT, geführt habe. 5. Das menschliche Element beim KI-Red-Teaming ist entscheidend Automatisierung mag zwar wichtig sein, sagen die Autoren. Tools wie PyRIT unterstützten Red Teaming-Operationen, indem sie Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Gleichzeitig warnen die Experten aber: “Diese Tools sind nützlich, sollten aber nicht mit der Absicht eingesetzt werden, den Menschen aus dem Spiel zu nehmen.” 6. Schäden durch Responsable AI (RAI) sind allgegenwärtig, aber schwer zu messen RAI-Schäden sind schwerer zu fassen als klassische Sicherheitslücken. Das hat nach Einschätzung der Experten vor allem mit fundamentalen Unterschieden zwischen KI-Systemen und herkömmlicher Software zu tun. Die meisten Bemühungen in Sachen KI-Sicherheit konzentrieren sich auf feindlich gesinnte User, die absichtlich gegen Leitplanken verstoßen. In Wahrheit sind aber “gutartige” Benutzerinnen und Benutzer, die versehentlich schädliche Inhalte generieren, mindestens genauso wichtig für die Absicherung des KI-Einsatzes. 7. LLMs verstärken bestehende Sicherheitsrisiken und führen neue ein Die Integration von generativen KI-Modellen in eine Vielzahl von Anwendungen hat neue Angriffsvektoren geschaffen und die Landschaft der Sicherheitsrisiken verändert. Es gelte daher die KI-Teams zu ermutigen, sowohl bestehende (typischerweise auf Systemebene) als auch neue (typischerweise auf Modellebene) Risiken im Blick zu behalten. 8. Die Arbeit zur Sicherung von KI-Systemen wird nie abgeschlossen sein Die Vorstellung, dass es möglich ist, die Sicherheit von KI-Systemen allein durch technische Fortschritte zu garantieren, ist unrealistisch, lautet das Fazit der Ted-Team-Spezialisten. Ein solcher Ansatz lasse andere wesentliche Faktoren außer Acht, wie zum Beispiel wirtschaftliche Aspekte, Fehlerbehebungszyklen und die Regulierung. Vor diesem Hintergrund heißt es in dem Papier: “In Ermangelung von Sicherheitsgarantien brauchen wir Methoden, um KI-Systeme zu entwickeln, die so schwer zu knacken sind, wie nur irgendwie möglich.” Eine Möglichkeit, dies zu erreichen, sei die Verwendung von Break-Fix-Zyklen, bei denen mehrere Runden von Red Teaming und Schadensbegrenzung durchgeführt werden, bis ein solches System tatsächlich zumindest gegen eine breite Palette von Angriffen gefeit ist. Fazit: KI bleibt ein extrem bewegliches Ziel Die Autoren des Berichts kommen zu dem Schluss, dass sich KI-Red-Teaming als eine neu entstehende Praxis entwickeln könnte, um Sicherheitsrisiken zu identifizieren, die von KI-Systemen ausgehen. Gleichzeitig werfen die Security-Experten aber auch eine Reihe von Fragen auf – vor allem an sich selbst. “Wie sollten wir nach gefährlichen Fähigkeiten in LLMs suchen”, fragen sie. “Welche neuartigen Risiken sollten wir in Modellen der jüngsten Videogeneration untersuchen und welche Fähigkeiten könnten in Modellen auftauchen, die weiter fortgeschritten sind als der aktuelle Stand der Technik?” Darüber hinaus drehen sich die Diskussionen darum, wie Red Teams ihre Praktiken anpassen können, um verschiedenen sprachlichen und kulturellen Kontexten gerecht zu werden. Und es geht um die Frage, auf welche Weise Red-Teaming-Praktiken standardisiert werden sollten, um es den Teams zu erleichtern, ihre Ergebnisse zu vergleichen und zu kommunizieren. Ein Anfang soll mit der Microsoft-internen Untersuchung gemacht sein, hieß es. “Da sich Unternehmen, Forschungseinrichtungen und Regierungen auf der ganzen Welt mit der Frage auseinandersetzen, wie sie KI-Risikobewertungen durchführen sollen, geben wir praktische Empfehlungen, die auf unseren Erfahrungen mit dem Red Teaming von über 100 GenAI-Produkten bei Microsoft basieren. Wir ermutigen andere, auf diesen Erkenntnissen aufzubauen und die offenen Fragen, die wir hervorgehoben haben, anzugehen.” 

Nach oben scrollen