Computerhaus Quickborn

Mit KI lässt sich nicht zum Mond fliegen​

Die NASA warnt vor unkritischem Einsatz generativer KI in sicherheitskritischen Bereichen. shutterstock – Phonlamai Photo IT-Entscheider können sich nicht leisten, das Gleiche zu tun, was viele Führungskräfte in der Chefetage und in der Geschäftsleitung gerne machen: sich auf die Effizienz und Flexibilität von generativer KI (GenAI) konzentrieren – und zu ignorieren, wie oft die Technologie falsche Antworten liefert. Dieser Mangel an Zuverlässigkeit wird hauptsächlich durch Elemente aus einem der folgenden vier Bereiche verursacht: Halluzinationen, bei denen sich GenAI-Tools die Antworten einfach ausdenken; Schlechte Trainingsdaten, das heißt unzureichende, veraltete, verzerrte oder qualitativ minderwertige Daten; Ignorierte Abfrageanweisungen, häufig Folge von Bias in den Trainingsdaten; Nicht beachtete Leitplanken (für eine milliardenschwere Lizenzgebühr sollte man meinen, das Modell würde zumindest versuchen, das zu tun, was ihm aufgetragen wird). Maschinen denken nicht Und doch scheinen viele Unternehmen diese Schwachstellen zu ignorieren, weshalb ein Bericht der US National Aeronautics and Space Administration (NASA) vom März so wichtig ist. Der NASA-Bericht warnt davor, sich bei wichtiger Forschung auf generative KI zu verlassen. Systeme mit unakzeptablem Risiko dürften nicht ohne gründliche Sicherheitsanalysen eingesetzt werden: „Genauso wie wir ein System mit dem Potenzial, Menschen zu töten, nicht in Betrieb nehmen würden, ohne eine angemessene Sicherheitsanalyse und sicherheitstechnische Aktivitäten durchzuführen, sollten wir keine Technologie in den Zulassungsprozess aufnehmen, ohne akzeptable Gründe für die Annahme zu haben, dass sie für die kritischen Aktivitäten der Sicherheitstechnik und Zertifizierung geeignet ist.“ Da Large Language Models (LLMs) rechnen, aber nicht denken, sind sie für sicherheitskritische Anwendungen ungeeignet, so das Fazit der NASA. Luftfahrt als Lehrstück für LLMs In einer wunderbaren Darbietung wissenschaftlicher Logik fragt sich der Bericht – in einem Abschnitt, der für CIOs in der gesamten IT-Nahrungskette zur Pflichtlektüre werden sollte -, wozu GenAI-Modelle wirklich eingesetzt werden könnten. Die NASA-Forscher betonen, dass anstelle empirischer Forschung auch ein praktischer Einsatz von LLMs zur Bewertung ihrer Tauglichkeit möglich wäre – eine Methode, die in der Vergangenheit zum Beispiel in der Luftfahrt genutzt wurde. Aus Sicht der Forscher ergeben sich zwei kritische Fragen: Warum eine neue, unsichere Methode wählen, wenn bewährte Verfahren existieren? Wie ließe sich der Erfolg überhaupt messen? Die Antwort hängt von der spezifischen Anwendung und den akzeptablen Risiken eines möglichen Scheiterns ab. Unzuverlässiges Feedback bei risikobehafteten Anwendungen Der Bericht weist dann auf den logischen Widerspruch bei dieser Art von Experimenten hin: Weniger kritische Systeme werden oft weniger streng überwacht, weshalb es kaum verlässliches Feedback gebe, wie gut neuartige Prozesse funktioniert hätten. Laut der NASA ist es zudem falsch anzunehmen, anzunehmen, „dass diese Art von Rechenmodell weiß, wann die Umstände eine Entscheidung zu einer schlechten Idee machen würden.“ Zudem fehle LLMs das Verständnis für Ausnahmen: Sie erkennen nicht, wann gängige Argumentationsmuster unpassend sind. Trainingsdaten allein reichen nicht aus, um solche Unterschiede zu erfassen, was ihre Zuverlässigkeit in sicherheitskritischen Bereichen weiter infrage stellt. Ein Beispiel: Die ISO 26262 für Kraftfahrzeuge „würden einen LLM nicht darauf vorbereiten, wie ein Mensch zu erkennen, dass das schwimmende James-Bond-Auto eine ganz andere Art von Fahrzeug ist als eine typische Limousine oder ein leichtes Nutzfahrzeug, und dass daher typische Schlussfolgerungen – z.B. über die Angemessenheit von Industriestandard-Wassereindringschutzwerten – nicht anwendbar sein könnten.“ Die gleichen logischen Fragen sollten für jedes Unternehmen gelten. Doch wenn der geschäftskritische Charakter sensibler Arbeiten den Einsatz von GenAI ausschließt – und wenn die geringe Überwachung bei typischen Arbeiten mit geringem Risiko diese zu einer ungeeigneten Umgebung für Experimente macht – wo sollte sie dann eingesetzt werden? Besonnene Führung statt Jagd nach Trends Gartner-Analystin Lauren Kornutick stimmt zu, betont aber, dass CIOs als „Stimme der Vernunft“ agieren müssen, um unrealistische Erwartungen an Technologieprojekte zu vermeiden. Sie sollten Lösungen gezielt vorantreiben und nicht unüberlegt neuen Trends folgen. Zudem müssen sie gemeinsam mit Führungskräften die Risikotoleranz bewerten und dem Vorstand fundierte Entscheidungen über Chancen und Risiken präsentieren. Rowan Curran, Analyst von Forrester, empfiehlt einen taktischeren Ansatz: IT-Entscheidungsträger sollten darauf bestehen, zu Beginn viel stärker in GenAI-Projekte eingebunden werden, um die Risiken zu bewerten und Data-Governance-Kontrollen festzulegen. Curran schlägt weiterhin vor, GenAI-Daten nur als Ausgangspunkt betrachten – nicht für präzise Antworten. Mit anderen Worten: Wer GenAI zu sehr vertraut, könnte jeden Tag des Jahres einen Aprilscherz erleben. 

Mit KI lässt sich nicht zum Mond fliegen​ Die NASA warnt vor unkritischem Einsatz generativer KI in sicherheitskritischen Bereichen. shutterstock – Phonlamai Photo IT-Entscheider können sich nicht leisten, das Gleiche zu tun, was viele Führungskräfte in der Chefetage und in der Geschäftsleitung gerne machen: sich auf die Effizienz und Flexibilität von generativer KI (GenAI) konzentrieren – und zu ignorieren, wie oft die Technologie falsche Antworten liefert. Dieser Mangel an Zuverlässigkeit wird hauptsächlich durch Elemente aus einem der folgenden vier Bereiche verursacht: Halluzinationen, bei denen sich GenAI-Tools die Antworten einfach ausdenken; Schlechte Trainingsdaten, das heißt unzureichende, veraltete, verzerrte oder qualitativ minderwertige Daten; Ignorierte Abfrageanweisungen, häufig Folge von Bias in den Trainingsdaten; Nicht beachtete Leitplanken (für eine milliardenschwere Lizenzgebühr sollte man meinen, das Modell würde zumindest versuchen, das zu tun, was ihm aufgetragen wird). Maschinen denken nicht Und doch scheinen viele Unternehmen diese Schwachstellen zu ignorieren, weshalb ein Bericht der US National Aeronautics and Space Administration (NASA) vom März so wichtig ist. Der NASA-Bericht warnt davor, sich bei wichtiger Forschung auf generative KI zu verlassen. Systeme mit unakzeptablem Risiko dürften nicht ohne gründliche Sicherheitsanalysen eingesetzt werden: „Genauso wie wir ein System mit dem Potenzial, Menschen zu töten, nicht in Betrieb nehmen würden, ohne eine angemessene Sicherheitsanalyse und sicherheitstechnische Aktivitäten durchzuführen, sollten wir keine Technologie in den Zulassungsprozess aufnehmen, ohne akzeptable Gründe für die Annahme zu haben, dass sie für die kritischen Aktivitäten der Sicherheitstechnik und Zertifizierung geeignet ist.“ Da Large Language Models (LLMs) rechnen, aber nicht denken, sind sie für sicherheitskritische Anwendungen ungeeignet, so das Fazit der NASA. Luftfahrt als Lehrstück für LLMs In einer wunderbaren Darbietung wissenschaftlicher Logik fragt sich der Bericht – in einem Abschnitt, der für CIOs in der gesamten IT-Nahrungskette zur Pflichtlektüre werden sollte -, wozu GenAI-Modelle wirklich eingesetzt werden könnten. Die NASA-Forscher betonen, dass anstelle empirischer Forschung auch ein praktischer Einsatz von LLMs zur Bewertung ihrer Tauglichkeit möglich wäre – eine Methode, die in der Vergangenheit zum Beispiel in der Luftfahrt genutzt wurde. Aus Sicht der Forscher ergeben sich zwei kritische Fragen: Warum eine neue, unsichere Methode wählen, wenn bewährte Verfahren existieren? Wie ließe sich der Erfolg überhaupt messen? Die Antwort hängt von der spezifischen Anwendung und den akzeptablen Risiken eines möglichen Scheiterns ab. Unzuverlässiges Feedback bei risikobehafteten Anwendungen Der Bericht weist dann auf den logischen Widerspruch bei dieser Art von Experimenten hin: Weniger kritische Systeme werden oft weniger streng überwacht, weshalb es kaum verlässliches Feedback gebe, wie gut neuartige Prozesse funktioniert hätten. Laut der NASA ist es zudem falsch anzunehmen, anzunehmen, „dass diese Art von Rechenmodell weiß, wann die Umstände eine Entscheidung zu einer schlechten Idee machen würden.“ Zudem fehle LLMs das Verständnis für Ausnahmen: Sie erkennen nicht, wann gängige Argumentationsmuster unpassend sind. Trainingsdaten allein reichen nicht aus, um solche Unterschiede zu erfassen, was ihre Zuverlässigkeit in sicherheitskritischen Bereichen weiter infrage stellt. Ein Beispiel: Die ISO 26262 für Kraftfahrzeuge „würden einen LLM nicht darauf vorbereiten, wie ein Mensch zu erkennen, dass das schwimmende James-Bond-Auto eine ganz andere Art von Fahrzeug ist als eine typische Limousine oder ein leichtes Nutzfahrzeug, und dass daher typische Schlussfolgerungen – z.B. über die Angemessenheit von Industriestandard-Wassereindringschutzwerten – nicht anwendbar sein könnten.“ Die gleichen logischen Fragen sollten für jedes Unternehmen gelten. Doch wenn der geschäftskritische Charakter sensibler Arbeiten den Einsatz von GenAI ausschließt – und wenn die geringe Überwachung bei typischen Arbeiten mit geringem Risiko diese zu einer ungeeigneten Umgebung für Experimente macht – wo sollte sie dann eingesetzt werden? Besonnene Führung statt Jagd nach Trends Gartner-Analystin Lauren Kornutick stimmt zu, betont aber, dass CIOs als „Stimme der Vernunft“ agieren müssen, um unrealistische Erwartungen an Technologieprojekte zu vermeiden. Sie sollten Lösungen gezielt vorantreiben und nicht unüberlegt neuen Trends folgen. Zudem müssen sie gemeinsam mit Führungskräften die Risikotoleranz bewerten und dem Vorstand fundierte Entscheidungen über Chancen und Risiken präsentieren. Rowan Curran, Analyst von Forrester, empfiehlt einen taktischeren Ansatz: IT-Entscheidungsträger sollten darauf bestehen, zu Beginn viel stärker in GenAI-Projekte eingebunden werden, um die Risiken zu bewerten und Data-Governance-Kontrollen festzulegen. Curran schlägt weiterhin vor, GenAI-Daten nur als Ausgangspunkt betrachten – nicht für präzise Antworten. Mit anderen Worten: Wer GenAI zu sehr vertraut, könnte jeden Tag des Jahres einen Aprilscherz erleben.

Die NASA warnt vor unkritischem Einsatz generativer KI in sicherheitskritischen Bereichen. shutterstock – Phonlamai Photo IT-Entscheider können sich nicht leisten, das Gleiche zu tun, was viele Führungskräfte in der Chefetage und in der Geschäftsleitung gerne machen: sich auf die Effizienz und Flexibilität von generativer KI (GenAI) konzentrieren – und zu ignorieren, wie oft die Technologie falsche Antworten liefert. Dieser Mangel an Zuverlässigkeit wird hauptsächlich durch Elemente aus einem der folgenden vier Bereiche verursacht: Halluzinationen, bei denen sich GenAI-Tools die Antworten einfach ausdenken; Schlechte Trainingsdaten, das heißt unzureichende, veraltete, verzerrte oder qualitativ minderwertige Daten; Ignorierte Abfrageanweisungen, häufig Folge von Bias in den Trainingsdaten; Nicht beachtete Leitplanken (für eine milliardenschwere Lizenzgebühr sollte man meinen, das Modell würde zumindest versuchen, das zu tun, was ihm aufgetragen wird). Maschinen denken nicht Und doch scheinen viele Unternehmen diese Schwachstellen zu ignorieren, weshalb ein Bericht der US National Aeronautics and Space Administration (NASA) vom März so wichtig ist. Der NASA-Bericht warnt davor, sich bei wichtiger Forschung auf generative KI zu verlassen. Systeme mit unakzeptablem Risiko dürften nicht ohne gründliche Sicherheitsanalysen eingesetzt werden: „Genauso wie wir ein System mit dem Potenzial, Menschen zu töten, nicht in Betrieb nehmen würden, ohne eine angemessene Sicherheitsanalyse und sicherheitstechnische Aktivitäten durchzuführen, sollten wir keine Technologie in den Zulassungsprozess aufnehmen, ohne akzeptable Gründe für die Annahme zu haben, dass sie für die kritischen Aktivitäten der Sicherheitstechnik und Zertifizierung geeignet ist.“ Da Large Language Models (LLMs) rechnen, aber nicht denken, sind sie für sicherheitskritische Anwendungen ungeeignet, so das Fazit der NASA. Luftfahrt als Lehrstück für LLMs In einer wunderbaren Darbietung wissenschaftlicher Logik fragt sich der Bericht – in einem Abschnitt, der für CIOs in der gesamten IT-Nahrungskette zur Pflichtlektüre werden sollte -, wozu GenAI-Modelle wirklich eingesetzt werden könnten. Die NASA-Forscher betonen, dass anstelle empirischer Forschung auch ein praktischer Einsatz von LLMs zur Bewertung ihrer Tauglichkeit möglich wäre – eine Methode, die in der Vergangenheit zum Beispiel in der Luftfahrt genutzt wurde. Aus Sicht der Forscher ergeben sich zwei kritische Fragen: Warum eine neue, unsichere Methode wählen, wenn bewährte Verfahren existieren? Wie ließe sich der Erfolg überhaupt messen? Die Antwort hängt von der spezifischen Anwendung und den akzeptablen Risiken eines möglichen Scheiterns ab. Unzuverlässiges Feedback bei risikobehafteten Anwendungen Der Bericht weist dann auf den logischen Widerspruch bei dieser Art von Experimenten hin: Weniger kritische Systeme werden oft weniger streng überwacht, weshalb es kaum verlässliches Feedback gebe, wie gut neuartige Prozesse funktioniert hätten. Laut der NASA ist es zudem falsch anzunehmen, anzunehmen, „dass diese Art von Rechenmodell weiß, wann die Umstände eine Entscheidung zu einer schlechten Idee machen würden.“ Zudem fehle LLMs das Verständnis für Ausnahmen: Sie erkennen nicht, wann gängige Argumentationsmuster unpassend sind. Trainingsdaten allein reichen nicht aus, um solche Unterschiede zu erfassen, was ihre Zuverlässigkeit in sicherheitskritischen Bereichen weiter infrage stellt. Ein Beispiel: Die ISO 26262 für Kraftfahrzeuge „würden einen LLM nicht darauf vorbereiten, wie ein Mensch zu erkennen, dass das schwimmende James-Bond-Auto eine ganz andere Art von Fahrzeug ist als eine typische Limousine oder ein leichtes Nutzfahrzeug, und dass daher typische Schlussfolgerungen – z.B. über die Angemessenheit von Industriestandard-Wassereindringschutzwerten – nicht anwendbar sein könnten.“ Die gleichen logischen Fragen sollten für jedes Unternehmen gelten. Doch wenn der geschäftskritische Charakter sensibler Arbeiten den Einsatz von GenAI ausschließt – und wenn die geringe Überwachung bei typischen Arbeiten mit geringem Risiko diese zu einer ungeeigneten Umgebung für Experimente macht – wo sollte sie dann eingesetzt werden? Besonnene Führung statt Jagd nach Trends Gartner-Analystin Lauren Kornutick stimmt zu, betont aber, dass CIOs als „Stimme der Vernunft“ agieren müssen, um unrealistische Erwartungen an Technologieprojekte zu vermeiden. Sie sollten Lösungen gezielt vorantreiben und nicht unüberlegt neuen Trends folgen. Zudem müssen sie gemeinsam mit Führungskräften die Risikotoleranz bewerten und dem Vorstand fundierte Entscheidungen über Chancen und Risiken präsentieren. Rowan Curran, Analyst von Forrester, empfiehlt einen taktischeren Ansatz: IT-Entscheidungsträger sollten darauf bestehen, zu Beginn viel stärker in GenAI-Projekte eingebunden werden, um die Risiken zu bewerten und Data-Governance-Kontrollen festzulegen. Curran schlägt weiterhin vor, GenAI-Daten nur als Ausgangspunkt betrachten – nicht für präzise Antworten. Mit anderen Worten: Wer GenAI zu sehr vertraut, könnte jeden Tag des Jahres einen Aprilscherz erleben. 

Nach oben scrollen
×