OpenAI bringt zwei neue agentenorientierte Modelle, die auch visuelle Informationen verarbeiten. Marciobnws – shutterstock.com Eine KI, die Whiteboards, Diagramme oder Skizzen analysiert und in ihre Antworten einbezieht? Genau dies verspricht OpenAI mit den neuen Modellen o3 und o4 mini. Laut OpenAI sind das die beiden ersten KI-Modelle des Unternehmens, die mit Bildern „denken“ können. Oder anders formuliert: Im Vergleich zu früheren Modellen sieht die KI die Bilder nicht nur, sondern kann die visuellen Informationen direkt in die Argumentationskette integrieren. KI versteht Bilder Dabei verstehe die KI visuelle Informationen selbst dann, wenn diese unscharf sind oder nur in geringer Qualität vorliegen. Ferner könne die KI Werkzeuge nutzen, um Bilder in Echtzeit anzupassen – etwa durch Drehen oder Zoomen – und diese Anpassungen in ihren „Denkprozess“ einbeziehen. Bei o3 und o4-mini handelt es sich um die neuesten Modelle der o-Serie. Sie sind darauf ausgelegt, länger und intensiver „nachzudenken“, bevor sie antworten. Darüber hinaus sind die Reasoning-Modelle zum ersten Mal in der Lage, alle ChatGPT-Tools eigenständig nutzen – also etwa Web-Browsing, Python, Bildverständnis und Bildgenerierung. Dabei entscheiden die Modelle laut OpenAI selbst, wann und wie welche Tools eingesetzt werden müssen. Agentenorientiertes ChatGPT OpenAI sieht darin einen Schritt in Richtung eines agentenorientierteren ChatGPT, das Aufgaben selbstständig für ausführen kann. Dadurch könnten vielschichtige Fragen effektiver bearbeitet werden. Zudem führe die kombinierte Leistungsfähigkeit moderner Schlussfolgerungsalgorithmen und der uneingeschränkte Zugriff auf alle Tools zu einer deutlich höheren Performance bei akademischen Benchmarks und realen Aufgaben. Was dies konkret in der Praxis bedeutet, veranschaulicht OpenAI an einem Beispiel. So könnte ein User fragen, wie wird der Energieverbrauch in Spanien im Sommer im Vergleich zum letzten Jahr aussehen? Das Modell kann nun das Internet nach Daten von Versorgungsunternehmen durchsuchen, Python-Code schreiben, um eine Prognose zu erstellen, ein Diagramm oder ein Bild generieren und die wichtigsten Faktoren für die Vorhersage erklären, wobei mehrere Tool-Aufrufe miteinander verknüpft werden. Zugriff auf aktuelle Informationen Durch das Schlussfolgern können die Modelle auf die ihnen vorliegenden Informationen reagieren und sich bei Bedarf anpassen. Sie sind beispielsweise in der Lage, mit Hilfe von Suchmaschinen mehrmals im Internet zu suchen, die Ergebnisse anzusehen und neue Suchanfragen zu starten, wenn sie weitere Informationen benötigen. Letztlich ist es den Modellen damit möglich, Aufgaben zu bewältigen, die Zugriff auf aktuelle Informationen erfordern, die über das integrierte Wissen des Modells hinausgehen. Ferner sind so erweiterte Schlussfolgerungen, Synthesen und die Generierung von Ergebnissen über verschiedene Modalitäten hinweg umsetzbar. Verfügbarkeit OpenAI o3, o4-mini und o4-mini-high sind für Plus-, Pro- und Team-User ab sofort verfügbar. Sie ersetzen o1, o3-mini und o3-mini-high. Sie sind auch über die API nutzbar.
OpenAIs KI denkt mit Bildern
OpenAI bringt zwei neue agentenorientierte Modelle, die auch visuelle Informationen verarbeiten. Marciobnws – shutterstock.com Eine KI, die Whiteboards, Diagramme oder Skizzen analysiert und in ihre Antworten einbezieht? Genau dies verspricht OpenAI mit den neuen Modellen o3 und o4 mini. Laut OpenAI sind das die beiden ersten KI-Modelle des Unternehmens, die mit Bildern „denken“ können. Oder anders formuliert: Im Vergleich zu früheren Modellen sieht die KI die Bilder nicht nur, sondern kann die visuellen Informationen direkt in die Argumentationskette integrieren. KI versteht Bilder Dabei verstehe die KI visuelle Informationen selbst dann, wenn diese unscharf sind oder nur in geringer Qualität vorliegen. Ferner könne die KI Werkzeuge nutzen, um Bilder in Echtzeit anzupassen – etwa durch Drehen oder Zoomen – und diese Anpassungen in ihren „Denkprozess“ einbeziehen. Bei o3 und o4-mini handelt es sich um die neuesten Modelle der o-Serie. Sie sind darauf ausgelegt, länger und intensiver „nachzudenken“, bevor sie antworten. Darüber hinaus sind die Reasoning-Modelle zum ersten Mal in der Lage, alle ChatGPT-Tools eigenständig nutzen – also etwa Web-Browsing, Python, Bildverständnis und Bildgenerierung. Dabei entscheiden die Modelle laut OpenAI selbst, wann und wie welche Tools eingesetzt werden müssen. Agentenorientiertes ChatGPT OpenAI sieht darin einen Schritt in Richtung eines agentenorientierteren ChatGPT, das Aufgaben selbstständig für ausführen kann. Dadurch könnten vielschichtige Fragen effektiver bearbeitet werden. Zudem führe die kombinierte Leistungsfähigkeit moderner Schlussfolgerungsalgorithmen und der uneingeschränkte Zugriff auf alle Tools zu einer deutlich höheren Performance bei akademischen Benchmarks und realen Aufgaben. Was dies konkret in der Praxis bedeutet, veranschaulicht OpenAI an einem Beispiel. So könnte ein User fragen, wie wird der Energieverbrauch in Spanien im Sommer im Vergleich zum letzten Jahr aussehen? Das Modell kann nun das Internet nach Daten von Versorgungsunternehmen durchsuchen, Python-Code schreiben, um eine Prognose zu erstellen, ein Diagramm oder ein Bild generieren und die wichtigsten Faktoren für die Vorhersage erklären, wobei mehrere Tool-Aufrufe miteinander verknüpft werden. Zugriff auf aktuelle Informationen Durch das Schlussfolgern können die Modelle auf die ihnen vorliegenden Informationen reagieren und sich bei Bedarf anpassen. Sie sind beispielsweise in der Lage, mit Hilfe von Suchmaschinen mehrmals im Internet zu suchen, die Ergebnisse anzusehen und neue Suchanfragen zu starten, wenn sie weitere Informationen benötigen. Letztlich ist es den Modellen damit möglich, Aufgaben zu bewältigen, die Zugriff auf aktuelle Informationen erfordern, die über das integrierte Wissen des Modells hinausgehen. Ferner sind so erweiterte Schlussfolgerungen, Synthesen und die Generierung von Ergebnissen über verschiedene Modalitäten hinweg umsetzbar. Verfügbarkeit OpenAI o3, o4-mini und o4-mini-high sind für Plus-, Pro- und Team-User ab sofort verfügbar. Sie ersetzen o1, o3-mini und o3-mini-high. Sie sind auch über die API nutzbar.
OpenAIs KI denkt mit Bildern OpenAI bringt zwei neue agentenorientierte Modelle, die auch visuelle Informationen verarbeiten. Marciobnws – shutterstock.com Eine KI, die Whiteboards, Diagramme oder Skizzen analysiert und in ihre Antworten einbezieht? Genau dies verspricht OpenAI mit den neuen Modellen o3 und o4 mini. Laut OpenAI sind das die beiden ersten KI-Modelle des Unternehmens, die mit Bildern „denken“ können. Oder anders formuliert: Im Vergleich zu früheren Modellen sieht die KI die Bilder nicht nur, sondern kann die visuellen Informationen direkt in die Argumentationskette integrieren. KI versteht Bilder Dabei verstehe die KI visuelle Informationen selbst dann, wenn diese unscharf sind oder nur in geringer Qualität vorliegen. Ferner könne die KI Werkzeuge nutzen, um Bilder in Echtzeit anzupassen – etwa durch Drehen oder Zoomen – und diese Anpassungen in ihren „Denkprozess“ einbeziehen. Bei o3 und o4-mini handelt es sich um die neuesten Modelle der o-Serie. Sie sind darauf ausgelegt, länger und intensiver „nachzudenken“, bevor sie antworten. Darüber hinaus sind die Reasoning-Modelle zum ersten Mal in der Lage, alle ChatGPT-Tools eigenständig nutzen – also etwa Web-Browsing, Python, Bildverständnis und Bildgenerierung. Dabei entscheiden die Modelle laut OpenAI selbst, wann und wie welche Tools eingesetzt werden müssen. Agentenorientiertes ChatGPT OpenAI sieht darin einen Schritt in Richtung eines agentenorientierteren ChatGPT, das Aufgaben selbstständig für ausführen kann. Dadurch könnten vielschichtige Fragen effektiver bearbeitet werden. Zudem führe die kombinierte Leistungsfähigkeit moderner Schlussfolgerungsalgorithmen und der uneingeschränkte Zugriff auf alle Tools zu einer deutlich höheren Performance bei akademischen Benchmarks und realen Aufgaben. Was dies konkret in der Praxis bedeutet, veranschaulicht OpenAI an einem Beispiel. So könnte ein User fragen, wie wird der Energieverbrauch in Spanien im Sommer im Vergleich zum letzten Jahr aussehen? Das Modell kann nun das Internet nach Daten von Versorgungsunternehmen durchsuchen, Python-Code schreiben, um eine Prognose zu erstellen, ein Diagramm oder ein Bild generieren und die wichtigsten Faktoren für die Vorhersage erklären, wobei mehrere Tool-Aufrufe miteinander verknüpft werden. Zugriff auf aktuelle Informationen Durch das Schlussfolgern können die Modelle auf die ihnen vorliegenden Informationen reagieren und sich bei Bedarf anpassen. Sie sind beispielsweise in der Lage, mit Hilfe von Suchmaschinen mehrmals im Internet zu suchen, die Ergebnisse anzusehen und neue Suchanfragen zu starten, wenn sie weitere Informationen benötigen. Letztlich ist es den Modellen damit möglich, Aufgaben zu bewältigen, die Zugriff auf aktuelle Informationen erfordern, die über das integrierte Wissen des Modells hinausgehen. Ferner sind so erweiterte Schlussfolgerungen, Synthesen und die Generierung von Ergebnissen über verschiedene Modalitäten hinweg umsetzbar. Verfügbarkeit OpenAI o3, o4-mini und o4-mini-high sind für Plus-, Pro- und Team-User ab sofort verfügbar. Sie ersetzen o1, o3-mini und o3-mini-high. Sie sind auch über die API nutzbar.