Computerhaus Quickborn

LLM-Agenten offenbaren in neuem Härtetest Schwächen​

Selbst bei einfachen, einstufigen Aufgaben waren die LLM-Agenten bestenfalls in sechs von zehn Fällen erfolgreich. BOY ANTHONY – shutterstock.com Large Language Models (LLMs) werden angeblich immer besser. Dennoch sollte man ihnen nicht unbedingt geschäftskritische Aufgaben mit sensiblen Daten blind anvertrauen, wie ein Team unter der Leitung von Kung-Hsiang Huang, einem KI-Forscher bei Salesforce, herausgefunden hat. In einem aktuellen Bericht dokumentierten die Forschenden, dass auf Basis von LLMs erstellte Agenten bei Aufgaben unterdurchschnittlich abschnitten. So erreichten die auf Modellen von OpenAI, Google und Meta erstellten Tools bei Aufgaben, die in einem einzigen Schritt erledigt werden können, ohne dass Folgeaktionen oder weitere Informationen erforderlich sind, bestenfalls eine Erfolgsquote von etwa 58 Prozent. Erforderte eine Aufgabe mehrere Schritte, fiel das Ergebnis mit einer Erfolgsrate von rund 35 Prozent deutlich schlechter aus.   Grundlage für die Ergebnisse war ein neuer, speziell für die Bewertung von KI-Agenten entwickelter Benchmark-Test namens CRMArena-Pro. Das Tool wird mit realitätsnahen, synthetischen Daten gespeist, um eine Salesforce-Umgebung als Testplattform zu simulieren. Der KI-Agent verarbeitet Nutzeranfragen und entscheidet, ob er eine API-Abfrage durchführt oder den Nutzern eine Rückmeldung zur Klärung oder Beantwortung gibt. Fehlendes Bewusstsein für Vertraulichkeit Wie die Forscher weiterhin feststellten, weisen die KI-Agenten ein mangelndes Bewusstsein für Vertraulichkeit, was sensible Daten angeht auf. Dies lasse sich durch gezielte Anweisungen verbessern, wenn auch oft auf Kosten der Leistungsfähigkeit, heißt es in der Studie. 

LLM-Agenten offenbaren in neuem Härtetest Schwächen​ Selbst bei einfachen, einstufigen Aufgaben waren die LLM-Agenten bestenfalls in sechs von zehn Fällen erfolgreich. BOY ANTHONY – shutterstock.com Large Language Models (LLMs) werden angeblich immer besser. Dennoch sollte man ihnen nicht unbedingt geschäftskritische Aufgaben mit sensiblen Daten blind anvertrauen, wie ein Team unter der Leitung von Kung-Hsiang Huang, einem KI-Forscher bei Salesforce, herausgefunden hat. In einem aktuellen Bericht dokumentierten die Forschenden, dass auf Basis von LLMs erstellte Agenten bei Aufgaben unterdurchschnittlich abschnitten. So erreichten die auf Modellen von OpenAI, Google und Meta erstellten Tools bei Aufgaben, die in einem einzigen Schritt erledigt werden können, ohne dass Folgeaktionen oder weitere Informationen erforderlich sind, bestenfalls eine Erfolgsquote von etwa 58 Prozent. Erforderte eine Aufgabe mehrere Schritte, fiel das Ergebnis mit einer Erfolgsrate von rund 35 Prozent deutlich schlechter aus.   Grundlage für die Ergebnisse war ein neuer, speziell für die Bewertung von KI-Agenten entwickelter Benchmark-Test namens CRMArena-Pro. Das Tool wird mit realitätsnahen, synthetischen Daten gespeist, um eine Salesforce-Umgebung als Testplattform zu simulieren. Der KI-Agent verarbeitet Nutzeranfragen und entscheidet, ob er eine API-Abfrage durchführt oder den Nutzern eine Rückmeldung zur Klärung oder Beantwortung gibt. Fehlendes Bewusstsein für Vertraulichkeit Wie die Forscher weiterhin feststellten, weisen die KI-Agenten ein mangelndes Bewusstsein für Vertraulichkeit, was sensible Daten angeht auf. Dies lasse sich durch gezielte Anweisungen verbessern, wenn auch oft auf Kosten der Leistungsfähigkeit, heißt es in der Studie.

Selbst bei einfachen, einstufigen Aufgaben waren die LLM-Agenten bestenfalls in sechs von zehn Fällen erfolgreich. BOY ANTHONY – shutterstock.com Large Language Models (LLMs) werden angeblich immer besser. Dennoch sollte man ihnen nicht unbedingt geschäftskritische Aufgaben mit sensiblen Daten blind anvertrauen, wie ein Team unter der Leitung von Kung-Hsiang Huang, einem KI-Forscher bei Salesforce, herausgefunden hat. In einem aktuellen Bericht dokumentierten die Forschenden, dass auf Basis von LLMs erstellte Agenten bei Aufgaben unterdurchschnittlich abschnitten. So erreichten die auf Modellen von OpenAI, Google und Meta erstellten Tools bei Aufgaben, die in einem einzigen Schritt erledigt werden können, ohne dass Folgeaktionen oder weitere Informationen erforderlich sind, bestenfalls eine Erfolgsquote von etwa 58 Prozent. Erforderte eine Aufgabe mehrere Schritte, fiel das Ergebnis mit einer Erfolgsrate von rund 35 Prozent deutlich schlechter aus.   Grundlage für die Ergebnisse war ein neuer, speziell für die Bewertung von KI-Agenten entwickelter Benchmark-Test namens CRMArena-Pro. Das Tool wird mit realitätsnahen, synthetischen Daten gespeist, um eine Salesforce-Umgebung als Testplattform zu simulieren. Der KI-Agent verarbeitet Nutzeranfragen und entscheidet, ob er eine API-Abfrage durchführt oder den Nutzern eine Rückmeldung zur Klärung oder Beantwortung gibt. Fehlendes Bewusstsein für Vertraulichkeit Wie die Forscher weiterhin feststellten, weisen die KI-Agenten ein mangelndes Bewusstsein für Vertraulichkeit, was sensible Daten angeht auf. Dies lasse sich durch gezielte Anweisungen verbessern, wenn auch oft auf Kosten der Leistungsfähigkeit, heißt es in der Studie. 

Nach oben scrollen
×