Bislang beherrschten KI-Tools wie ChatGPT vor allem zwei Dinge: Sie generierten Texte und Bilder. Doch im aufkommenden Zeitalter der KI-Agenten genügt das nicht mehr. Jetzt soll die KI auch Aufgaben selbstständig erledigen – etwa Formulare und Eingabefelder auf Web-Seiten ausfüllen. Dazu hat OpenAI jetzt eine Research-Preview von Operator vorgestellt. Dabei handelt es sich um einen Agenten, der im Internet Aufgaben erledigen kann. Mit seinem eigenen Browser kann Operator eine Webseite anzeigen und mit ihr interagieren, indem er tippt, klickt und scrollt. Laut OpenAI kann Operator mit einer Vielzahl sich wiederholender Browser-Aufgaben betraut werden, wie etwa das Ausfüllen von Formularen, das Bestellen von Lebensmitteln und sogar das Erstellen von Memes. KI agiert mit GUIs Operator basiert auf einem Computer-Using Agent (CUA). Dabei handelt es sich um ein Modell, das die visuellen Fähigkeiten von GPT-4o mit einer Entscheidungsfindung durch Reinforcement Learning kombiniert. CUA wurde darauf trainiert, mit grafischen Benutzeroberflächen (GUIs) zu interagieren – also mit den Schaltflächen, Menüs und Texteingabefeldern. Dadurch könne es sich flexibel in digitalen Umgebungen bewegen, ohne auf betriebssystem- oder Web-spezifische APIs angewiesen zu sein. CUA baut auf OpenAIs Erfahrungen in den Bereichen Reasoning, Multimodalität und Sicherheit auf. Es dient als Grundlage für Agenten wie Operator, die komplexe, mehrstufige Aufgaben für die User erledigen können. Für OpenAI markiert dies den Beginn einer Zukunft, in der KI nicht nur Informationen bereitstellt, sondern eigenständig Arbeitsabläufe ausführt. Verfügbarkeit Operator ist zunächst nur für OpenAI-Pro-Nutzer in den USA unter operator.chatgpt.com verfügbar. Von diesen Early Adaptors will OpenAI Erkenntnisse über das Nutzerverhalten gewinnen, um die Fähigkeiten des Systems weiterzuentwickeln und es im Laufe der Zeit verbessern. In einem nächsten Schritt will man dann Operator auch den Nutzern von Plus-, Team- und Enterprise-Accounts zur Verfügung stellen. Am Ende sollen dann diese Funktionen in ChatGPT integriert werden.
OpenAI: KI-Agent Operator erledigt Web-Aufgaben
OpenAI präsentiert Operator: Ein KI-Agent, der Webseiten-Aufgaben automatisiert! Im Gegensatz zu bisherigen KI-Tools erledigt Operator selbstständig Aufgaben wie Formulare ausfüllen und online bestellen. Basierend auf GPT-4 und Reinforcement Learning interagiert er direkt mit grafischen Benutzeroberflächen (GUIs). Eine Research-Preview für OpenAI Pro-Nutzer in den USA läutet eine neue Ära der KI-Automatisierung ein.
