Woran Machine Learning scheitert

13. März 2025

Machine-Learning-Projekte sind kein Selbstläufer.Gorodenkoff | shutterstock.com Machine Learning (ML) fokussiert als Teilbereich der künstlichen Intelligenz (KI) darauf, Algorithmen zu trainieren, damit diese prädiktive Entscheidungen auf der Grundlage großer Datensätze treffen können. Zu den Anwendungsfällen für maschinelles Lernen gehören unter anderem: Produktempfehlungen, Bilderkennung, Betrugserkennung, Übersetzungen und Diagnose-Tools. ML einzusetzen, gehört inzwischen in vielen Branchen zum guten Ton – Tendenz steigend: Die Marktforscher von Fortune Business Insights prognostizieren, dass der globale Markt für Machine Learning bis zum Jahr 2030 ein Volumen von knapp 226 Milliarden Dollar erreichen wird (2023: 26 Milliarden Dollar). Auch wenn die potenziellen Benefits verlockend erscheinen: Maschinelles Lernen ist kein Selbstläufer – und birgt Risiken. Welche das in erster Linie sind und wie Sie am besten mit ihnen umgehen, haben wir mit Tech-Experten und -Analysten diskutiert. 1. Halluzinationen Wenn ein Large Language Model (LLM) Muster oder Objekte wahrnimmt, die entweder nicht existieren oder für den Menschen nicht wahrnehmbar sind, spricht man in Zusammenhang mit ML von einer Halluzination. Tritt diese gehäuft in generiertem Code oder im Rahmen von Chatbot-Konversationen auf, sind unbrauchbare oder kontraproduktive Outputs die Folge. Laut Camden Swita, Head of AI/ML beim Plattformanbieter New Relic, haben die Halluzinationsbedenken in Zusammenhang mit maschinellem Lernen ein neues Allzeithoch erreicht. „Aktuelle [interne] Research-Ergebnisse deuten darauf hin, dass das Gros der ML-Ingenieure Anzeichen für Halluzinationen in ihren LLMs festgestellt hat“, warnt der New-Relic-Experte und rät dazu, den Fokus nicht nur darauf zu legen, Inhalte zu generieren. Vielmehr, so Swita, müssten Entwickler Zusammenfassungs-Tasks stärker gewichten – und fortschrittliche Techniken wie Retrieval Augmented Generation (RAG) einsetzen. „Um zu verhindern, dass irreführende Informationen produziert werden, empfiehlt es sich darüber hinaus, KI-Outputs in validierten und regulierten Datenquellen zu verankern“, konstatiert Swita. 2. Model Bias Model Bias – oder Modellverzerrungen – sind ein weiterer Machine-Learning-Unheilsbringer. Dabei handelt es sich um systematische Fehler des Modells, die zu konsistent falschen Vorhersagen oder Bewertungen führen können. „Die Daten, die genutzt werden, um ML-Modelle zu trainieren, müssen vielfältig sein und eine akkurate Gruppenrepräsentation enthalten“, erklärt Sheldon Arora, CEO des Personaldienstleisters StaffDNA. Welche Maßnahmen und Methoden nötig sind, um das zu gewährleisten, weiß KI-Experte Swita: „Zu den Best Practices, um Bias-behaftete Inhalte zu identifizieren und zu korrigieren, gehören eine kontinuierliche Überwachung, Warnmechanismen und Inhaltsfilter. Mit Hilfe dieser Methoden können Organisationen zudem KI-Frameworks entwickeln, die validierten Content priorisieren.“ Davon abgesehen, so Swita, gelte es, Systeme in einem dynamischen Ansatz kontinuierlich weiterzuentwickeln, um mit der rasanten Entwicklungsgeschwindigkeit der KI-Modelle Schritt halten zu können. 3. Rechtliche & ethische Bedenken Maschinelles Lernen ist mit bestimmten rechtlichen und ethischen Risiken verbunden, die sowohl für die Benutzer als auch die Entwickler Folgen haben können. Zu den rechtlichen Risiken gehören: Bias-getriebene Diskriminierung, Datenschutzverletzungen, Security-Lecks und Verstöße gegen das Recht auf geistiges Eigentum. Zu den ethischen Risiken gehören: Datenmissbrauch, Transparenz- und Rechenschaftspflicht-Mängel. KI-Spezialist Swita betont an dieser Stelle abermals die Bedeutung von vertrauenswürdigen, validierten Daten: Rechtliche und ethische Risiken in Zusammenhang mit KI können Organisationen minimieren, indem sie sich an den Regularien und Standards in den Bereichen Data Governance und Datenschutz ausrichten.“ 4. Schlechte Datenqualität Wenig überraschend führt eine mangelhafte Datenqualität zu fehlerhaften ML-Modellen und inakzeptablen Ergebnissen. Daten von Gartner zeigen, dass die Mehrheit der Unternehmen in diesem Bereich Probleme hat, hält Peter Krensky, Senior Analyst im KI-Team der Marktforscher, fest: „Führungskräfte und KI-Praktiker befinden sich in einem Spannungsfeld: Auf der einen Seite gilt es, Daten für Prototypen vorzubereiten, auf der anderen die Einsatzfähigkeit für die echte Welt sicherzustellen.“ Um dieses Dilemma aufzulösen und Vertrauen sowie Anpassungsfähigkeit zu fördern, sollten Organisationen den Perfektionismus hinter sich lassen und stattdessen Ansätze verfolgen, die die Governance mit dem angestrebten Zweck der Daten in Einklang bringen, so der Gartner-Analyst. Auch StaffDNA-CEO Arora hält hochwertige Daten für unverzichtbar, um zuverlässige ML-Modelle auf die Beine zu stellen. Um eine adäquate Datenqualität zu gewährleisten, empfiehlt der Manager zwei wesentliche Maßnahmen: „Daten sollten regelmäßig bereinigt werden. Zudem können Preprocessing-Techniken zu genauen Ergebnissen beitragen.“ Zusätzlich zu ungenauen und anderweitig fehlerhaften Daten können Organisationen auch mit irrelevanten Daten konfrontiert sein. Diese lassen sich mit Hilfe von Datenvisualisierungen oder statistischen Analysen identifizieren und anschließend aus den Datensätzen entfernen – vor dem Modelltraining. 5. Model Over- & Underfitting Auch die Machine-Learning-Modelle selbst können in entsprechenden Projekten zur Fehlerquelle werden. Von Model Overfitting spricht man dabei, wenn ein Modell „zu eng“ auf einen spezifischen Trainingsdatensatz ausgerichtet ist. Das führt zu einer schlechten Performance: Ein solches Modell ist nicht in der Lage, neue Daten gut zu generalisieren. Beim Model Underfitting ist das Modell hingegen zu simpel, um die Beziehung zwischen Input- und Output-Variablen erfassen zu können. Das Resultat ist ein Modell, das sowohl mit Blick auf bekannte als auch neue Daten schlecht abschneidet. Elvis Sun, Software Engineer bei Google, erklärt, wie Teams im Unternehmen diese Probleme adressieren: „Mit Cross-Validation lässt sich die Modell-Performance mit Blick auf externe Daten und Generalisierungsfähigkeiten bewerten. Zudem können Regularisierungstechniken wie L1 oder L2 dazu beitragen, Overfitting zu verhindern, weil sie simplere Lösungen propagieren, die breiter einsetzbar sind.“ 6. Legacy-Inkompatibilitäten Um Machine Learning in bestehende Legacy-IT-Systeme einzubinden, muss auch die Infrastruktur entsprechend „ready“ sein. Um das sicherzustellen, gilt es, einen Integrationsprozess aufzusetzen, wie Damien Filiatrault, Gründer und CEO der auf Entwickler spezialisierten HR-Agentur Scalable Path, erklärt: „Legacy-Systeme, die die Infrastrukturanforderungen nicht erfüllen, können zu Ineffizienzen und unvollständigen Integrationen führen. Es ist deshalb unabdingbar, solche Systeme zunächst gründlich zu überprüfen.“ Laut dem Manager lassen sich Machine-Learning-Modelle über APIs und Microservices in kompatible Legacy-Systeme integrieren. Datenwissenschaftler und IT-Teams, die bei gestaffelten Rollouts funktionsübergreifend zusammenarbeiten, sorgten zudem für eine reibungslosere Einführung, so Filiatrault. 7. Skalierungsprobleme Weil Machine Learning (wenn es gut läuft) mit der Zeit zunehmend genutzt wird, kann auch die Skalierbarkeit zum Problem werden. Systeme, deren Leistung und Effizienz bei steigendem Datenvolumen, höherer Komplexität und wachsenden Anforderungen nachlässt, liefern wahrscheinlich keine zufriedenstellenden Outputs. CEO Arora weiß, was dagegen hilft: „Nur Unternehmen, die auf skalierbare Cloud-Ressourcen setzen, sind in der Lage, mit wachsenden Datenmengen umzugehen.“ Je nach Größe der Datensätze könnten auch komplexere Modelle erforderlich sein, meint der Manager und empfiehlt verteilte Computing-Frameworks, um besonders große Datenmengen parallel verarbeiten zu können. 8. Transparenzmängel Laut Scalable-Path-Gründer Filiatraut sind manche Machine-Learning-Applikationen besonders Black-Box-affin, was es schwierig gestalte, ihre Ergebnisse zu erklären: „Im Gesundheitswesen und anderen Branchen mit hohen Datenschutzanforderungen kann sich dieser Mangel an Transparenz negativ auf das Benutzervertrauen auswirken“, meint der Manager. Seine Lösungsvorschläge für das Problem sind interpretierbare Modelle – oder Erklärungs-Frameworks wie SHAP. „Darüber hinaus können auch eine ordnungsgemäße Dokumentation und die Visualisierung von Entscheidungsprozessen dazu beitragen, das Vertrauen der User zu stärken und Compliance zu fördern“, so Filiatraut. 9. Domänenspezifische Wissenslücken Maschinelles Lernen effektiv einzusetzen, erfordert umfassendes, domänenspezifisches Wissen. „Unternehmen, die nicht über die richtigen Mitarbeiter in ihren Teams verfügen, haben ein Problem“, konstatiert auch Google-Softwareexperte Sun und fügt hinzu: „Der Erfolg von ML-Lösungen steht und fällt mit branchenspezifischen Datenstrukturen, Geschäftsprozessen und Compliance-Vorschriften.“ Um Wissenslücken zu schließen, empfiehlt der Google-Entwickler, ML-Experten eng mit Spezialisten aus anderen Bereichen zusammenarbeiten zu lassen: „Indem sie das technische Fachwissen der Machine-Learning-Experten mit dem situationsspezifischen Wissen der Fachexperten kombinieren, können Unternehmen bessere Modelle erstellen.“ Diese Art der Collaboration könne laut Sun in verschiedenen Bereichen von Modellentwicklung und -bereitstellung zum Einsatz kommen, zum Beispiel wenn es darum gehe: Probleme zu definieren, Trainingsdatensätze zu erstellen oder kontinuierliche Feedbackschleifen zu etablieren. 10. Nicht vorhandene ML-Skills Wie in diversen anderen Bereichen mangelt es auch im Bereich Machine Learning in vielen Unternehmen erheblich an Kompetenz. Das kann auch Gartner-Analyst Krensky bestätigen. Der KI-Experte schreibt das vor allem einem Defizit zu: “Viele Organisationen haben Schwierigkeiten mit dem Change Management. Das wäre aber entscheidend, um die Akzeptanz neuer Technologien zu fördern und Teams aufzusetzen, deren Fähigkeiten sich weiterentwickeln.“ Laut dem Gartner-Mann steuern Firmen dem am besten gegen, indem sie Reskilling-Initiativen im großen Stil fokussierten und die fachbereichsübergreifende Zusammenarbeit förderten. (fm) Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten – direkt in Ihre Inbox!

Woran Machine Learning scheitert Machine-Learning-Projekte sind kein Selbstläufer.Gorodenkoff | shutterstock.com Machine Learning (ML) fokussiert als Teilbereich der künstlichen Intelligenz (KI) darauf, Algorithmen zu trainieren, damit diese prädiktive Entscheidungen auf der Grundlage großer Datensätze treffen können. Zu den Anwendungsfällen für maschinelles Lernen gehören unter anderem: Produktempfehlungen, Bilderkennung, Betrugserkennung, Übersetzungen und Diagnose-Tools. ML einzusetzen, gehört inzwischen in vielen Branchen zum guten Ton – Tendenz steigend: Die Marktforscher von Fortune Business Insights prognostizieren, dass der globale Markt für Machine Learning bis zum Jahr 2030 ein Volumen von knapp 226 Milliarden Dollar erreichen wird (2023: 26 Milliarden Dollar). Auch wenn die potenziellen Benefits verlockend erscheinen: Maschinelles Lernen ist kein Selbstläufer – und birgt Risiken. Welche das in erster Linie sind und wie Sie am besten mit ihnen umgehen, haben wir mit Tech-Experten und -Analysten diskutiert. 1. Halluzinationen Wenn ein Large Language Model (LLM) Muster oder Objekte wahrnimmt, die entweder nicht existieren oder für den Menschen nicht wahrnehmbar sind, spricht man in Zusammenhang mit ML von einer Halluzination. Tritt diese gehäuft in generiertem Code oder im Rahmen von Chatbot-Konversationen auf, sind unbrauchbare oder kontraproduktive Outputs die Folge. Laut Camden Swita, Head of AI/ML beim Plattformanbieter New Relic, haben die Halluzinationsbedenken in Zusammenhang mit maschinellem Lernen ein neues Allzeithoch erreicht. „Aktuelle [interne] Research-Ergebnisse deuten darauf hin, dass das Gros der ML-Ingenieure Anzeichen für Halluzinationen in ihren LLMs festgestellt hat“, warnt der New-Relic-Experte und rät dazu, den Fokus nicht nur darauf zu legen, Inhalte zu generieren. Vielmehr, so Swita, müssten Entwickler Zusammenfassungs-Tasks stärker gewichten – und fortschrittliche Techniken wie Retrieval Augmented Generation (RAG) einsetzen. „Um zu verhindern, dass irreführende Informationen produziert werden, empfiehlt es sich darüber hinaus, KI-Outputs in validierten und regulierten Datenquellen zu verankern“, konstatiert Swita. 2. Model Bias Model Bias – oder Modellverzerrungen – sind ein weiterer Machine-Learning-Unheilsbringer. Dabei handelt es sich um systematische Fehler des Modells, die zu konsistent falschen Vorhersagen oder Bewertungen führen können. „Die Daten, die genutzt werden, um ML-Modelle zu trainieren, müssen vielfältig sein und eine akkurate Gruppenrepräsentation enthalten“, erklärt Sheldon Arora, CEO des Personaldienstleisters StaffDNA. Welche Maßnahmen und Methoden nötig sind, um das zu gewährleisten, weiß KI-Experte Swita: „Zu den Best Practices, um Bias-behaftete Inhalte zu identifizieren und zu korrigieren, gehören eine kontinuierliche Überwachung, Warnmechanismen und Inhaltsfilter. Mit Hilfe dieser Methoden können Organisationen zudem KI-Frameworks entwickeln, die validierten Content priorisieren.“ Davon abgesehen, so Swita, gelte es, Systeme in einem dynamischen Ansatz kontinuierlich weiterzuentwickeln, um mit der rasanten Entwicklungsgeschwindigkeit der KI-Modelle Schritt halten zu können. 3. Rechtliche & ethische Bedenken Maschinelles Lernen ist mit bestimmten rechtlichen und ethischen Risiken verbunden, die sowohl für die Benutzer als auch die Entwickler Folgen haben können. Zu den rechtlichen Risiken gehören: Bias-getriebene Diskriminierung, Datenschutzverletzungen, Security-Lecks und Verstöße gegen das Recht auf geistiges Eigentum. Zu den ethischen Risiken gehören: Datenmissbrauch, Transparenz- und Rechenschaftspflicht-Mängel. KI-Spezialist Swita betont an dieser Stelle abermals die Bedeutung von vertrauenswürdigen, validierten Daten: Rechtliche und ethische Risiken in Zusammenhang mit KI können Organisationen minimieren, indem sie sich an den Regularien und Standards in den Bereichen Data Governance und Datenschutz ausrichten.“ 4. Schlechte Datenqualität Wenig überraschend führt eine mangelhafte Datenqualität zu fehlerhaften ML-Modellen und inakzeptablen Ergebnissen. Daten von Gartner zeigen, dass die Mehrheit der Unternehmen in diesem Bereich Probleme hat, hält Peter Krensky, Senior Analyst im KI-Team der Marktforscher, fest: „Führungskräfte und KI-Praktiker befinden sich in einem Spannungsfeld: Auf der einen Seite gilt es, Daten für Prototypen vorzubereiten, auf der anderen die Einsatzfähigkeit für die echte Welt sicherzustellen.“ Um dieses Dilemma aufzulösen und Vertrauen sowie Anpassungsfähigkeit zu fördern, sollten Organisationen den Perfektionismus hinter sich lassen und stattdessen Ansätze verfolgen, die die Governance mit dem angestrebten Zweck der Daten in Einklang bringen, so der Gartner-Analyst. Auch StaffDNA-CEO Arora hält hochwertige Daten für unverzichtbar, um zuverlässige ML-Modelle auf die Beine zu stellen. Um eine adäquate Datenqualität zu gewährleisten, empfiehlt der Manager zwei wesentliche Maßnahmen: „Daten sollten regelmäßig bereinigt werden. Zudem können Preprocessing-Techniken zu genauen Ergebnissen beitragen.“ Zusätzlich zu ungenauen und anderweitig fehlerhaften Daten können Organisationen auch mit irrelevanten Daten konfrontiert sein. Diese lassen sich mit Hilfe von Datenvisualisierungen oder statistischen Analysen identifizieren und anschließend aus den Datensätzen entfernen – vor dem Modelltraining. 5. Model Over- & Underfitting Auch die Machine-Learning-Modelle selbst können in entsprechenden Projekten zur Fehlerquelle werden. Von Model Overfitting spricht man dabei, wenn ein Modell „zu eng“ auf einen spezifischen Trainingsdatensatz ausgerichtet ist. Das führt zu einer schlechten Performance: Ein solches Modell ist nicht in der Lage, neue Daten gut zu generalisieren. Beim Model Underfitting ist das Modell hingegen zu simpel, um die Beziehung zwischen Input- und Output-Variablen erfassen zu können. Das Resultat ist ein Modell, das sowohl mit Blick auf bekannte als auch neue Daten schlecht abschneidet. Elvis Sun, Software Engineer bei Google, erklärt, wie Teams im Unternehmen diese Probleme adressieren: „Mit Cross-Validation lässt sich die Modell-Performance mit Blick auf externe Daten und Generalisierungsfähigkeiten bewerten. Zudem können Regularisierungstechniken wie L1 oder L2 dazu beitragen, Overfitting zu verhindern, weil sie simplere Lösungen propagieren, die breiter einsetzbar sind.“ 6. Legacy-Inkompatibilitäten Um Machine Learning in bestehende Legacy-IT-Systeme einzubinden, muss auch die Infrastruktur entsprechend „ready“ sein. Um das sicherzustellen, gilt es, einen Integrationsprozess aufzusetzen, wie Damien Filiatrault, Gründer und CEO der auf Entwickler spezialisierten HR-Agentur Scalable Path, erklärt: „Legacy-Systeme, die die Infrastrukturanforderungen nicht erfüllen, können zu Ineffizienzen und unvollständigen Integrationen führen. Es ist deshalb unabdingbar, solche Systeme zunächst gründlich zu überprüfen.“ Laut dem Manager lassen sich Machine-Learning-Modelle über APIs und Microservices in kompatible Legacy-Systeme integrieren. Datenwissenschaftler und IT-Teams, die bei gestaffelten Rollouts funktionsübergreifend zusammenarbeiten, sorgten zudem für eine reibungslosere Einführung, so Filiatrault. 7. Skalierungsprobleme Weil Machine Learning (wenn es gut läuft) mit der Zeit zunehmend genutzt wird, kann auch die Skalierbarkeit zum Problem werden. Systeme, deren Leistung und Effizienz bei steigendem Datenvolumen, höherer Komplexität und wachsenden Anforderungen nachlässt, liefern wahrscheinlich keine zufriedenstellenden Outputs. CEO Arora weiß, was dagegen hilft: „Nur Unternehmen, die auf skalierbare Cloud-Ressourcen setzen, sind in der Lage, mit wachsenden Datenmengen umzugehen.“ Je nach Größe der Datensätze könnten auch komplexere Modelle erforderlich sein, meint der Manager und empfiehlt verteilte Computing-Frameworks, um besonders große Datenmengen parallel verarbeiten zu können. 8. Transparenzmängel Laut Scalable-Path-Gründer Filiatraut sind manche Machine-Learning-Applikationen besonders Black-Box-affin, was es schwierig gestalte, ihre Ergebnisse zu erklären: „Im Gesundheitswesen und anderen Branchen mit hohen Datenschutzanforderungen kann sich dieser Mangel an Transparenz negativ auf das Benutzervertrauen auswirken“, meint der Manager. Seine Lösungsvorschläge für das Problem sind interpretierbare Modelle – oder Erklärungs-Frameworks wie SHAP. „Darüber hinaus können auch eine ordnungsgemäße Dokumentation und die Visualisierung von Entscheidungsprozessen dazu beitragen, das Vertrauen der User zu stärken und Compliance zu fördern“, so Filiatraut. 9. Domänenspezifische Wissenslücken Maschinelles Lernen effektiv einzusetzen, erfordert umfassendes, domänenspezifisches Wissen. „Unternehmen, die nicht über die richtigen Mitarbeiter in ihren Teams verfügen, haben ein Problem“, konstatiert auch Google-Softwareexperte Sun und fügt hinzu: „Der Erfolg von ML-Lösungen steht und fällt mit branchenspezifischen Datenstrukturen, Geschäftsprozessen und Compliance-Vorschriften.“ Um Wissenslücken zu schließen, empfiehlt der Google-Entwickler, ML-Experten eng mit Spezialisten aus anderen Bereichen zusammenarbeiten zu lassen: „Indem sie das technische Fachwissen der Machine-Learning-Experten mit dem situationsspezifischen Wissen der Fachexperten kombinieren, können Unternehmen bessere Modelle erstellen.“ Diese Art der Collaboration könne laut Sun in verschiedenen Bereichen von Modellentwicklung und -bereitstellung zum Einsatz kommen, zum Beispiel wenn es darum gehe: Probleme zu definieren, Trainingsdatensätze zu erstellen oder kontinuierliche Feedbackschleifen zu etablieren. 10. Nicht vorhandene ML-Skills Wie in diversen anderen Bereichen mangelt es auch im Bereich Machine Learning in vielen Unternehmen erheblich an Kompetenz. Das kann auch Gartner-Analyst Krensky bestätigen. Der KI-Experte schreibt das vor allem einem Defizit zu: “Viele Organisationen haben Schwierigkeiten mit dem Change Management. Das wäre aber entscheidend, um die Akzeptanz neuer Technologien zu fördern und Teams aufzusetzen, deren Fähigkeiten sich weiterentwickeln.“ Laut dem Gartner-Mann steuern Firmen dem am besten gegen, indem sie Reskilling-Initiativen im großen Stil fokussierten und die fachbereichsübergreifende Zusammenarbeit förderten. (fm) Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten – direkt in Ihre Inbox!

Ähnliche Beiträge