Laut Nvidia könnten schon bald Ampeln und Kameras mit „denkender“ KI ausgestattet werden.Golovina Marina / Shuterstock Nvidia hat ein generatives KI-Modell (GenAI) entwickelt, das Robotern dabei helfen soll, menschenähnliche Entscheidungen zu treffen, indem es die Umgebung analysiert. Laut Nvidia kann das kürzlich vorgestellte Modell Informationen aus Video- und Grafikeingaben aufnehmen, diese Daten analysieren und anhand seines „Verständnisses“ Entscheidungen treffen. „Cosmos Reason hilft Robotern, wie Menschen zu denken und Entscheidungen quasi mit gesundem Menschenverstand zu treffen“, so Rev Lebaredian, Vizepräsident von Omniverse und Simulationstechnologien bei Nvidia. Schon bald in jeder Kamera Das Modell ist mit sieben Milliarden Parameter relativ klein und kann in einer Vielzahl von physischen Geräten eingesetzt werden. Hierzu zählen unter anderem installierte Kameras, Ampeln und Instrumente in Fabriken. „Jedes intelligente IoT-Gerät, das sehen kann, von Kameras bis zu Ampeln, jeder Haushalts- oder Industrieroboter, wird bald über Denkvermögen verfügen”, prophezeit Lebaredian. Dem Manager zufolge können Unternehmen auf Basis von Cosmos Reason Video-KI-Agenten entwickeln, die auf der Grundlage der riesigen Datenmengen handeln, die aus aufgezeichneten Videodaten und Livestreams gesammelt und analysiert werden. „Diese Video-Agenten werden bald überall zu finden sein und die Verkehrsüberwachung automatisieren, die Sicherheit verbessern und die Videoinspektionen in allen Bereichen automatisieren, von Industrieanlagen bis hin zu ganzen Städten“, erläutert der Experte. Nvidias Cosmos Reason VLM wurde entwickelt, um Robotern dabei zu helfen, bessere Entscheidungen zu treffen.Nvidia Vision statt Large Bei Cosmos Reason handelt es dabei aber nicht um ein klassisches LLM, sondern um etwas, das Nvidia als „Vision Language Model“ (VLM) bezeichnet. Das bedeutet, dass es sich von typischen textbasierten Modellen unterscheidet, die Bilder, Videos oder Text generieren können. Auch OpenAI und andere Unternehmen hätten bereits VLMs veröffentlicht, aber Cosmos Reason könne tiefere Schlussfolgerungen aus einer Vielzahl von unbekannten Szenarien ziehen, so Lebaredian. So könnten Modelle dieser Art neue und unbekannte Erfahrungen verstehen, ein vorläufiges Verständnis von Szenarien aufbauen, physische Wechselwirkungen berücksichtigen und dann komplexe Interaktionen oder Motivationen von Objekten und Akteuren in der Szene ableiten. Beispielsweise wären damit ausgestattete Roboter in der Lage, die einzelnen Schritte beim Toasten zu verknüpfen, indem sie verstehen, dass Toast Butter, einen Toaster sowie ein Teller, auf dem das Essen serviert wird, erfordert. Die heutigen KI-Robotermodelle verfügen über zwei Arten von Technologien, die ihre Aktivitäten unterstützen. Das VLM interpretiert Anweisungen und plant Aktionen, während „Vision Language Action” schnelle Aktionen und Muskelgedächtnis ermöglicht. Verfügbar und vielseitig trainiert Dem Unternehmen zufolge ist Cosmos Reason Open Source und steht zum Download bereit, funktioniert jedoch nur mit Nvidia-Hardware. Nvidia fasst seine World-Foundation- und Simulations-Produkte unter der Marke Omniverse zusammen. Cosmos Reason ist eines von vielen Modellen, die die Firma entwickelt hat, um die Produktivität in Fabriken, Lagerhäusern, Robotern, Fahrzeugen und anderen physischen Standorten zu verbessern. Die Produkte erstellen dabei eine digitale Kopie physischer Produkte aus der realen Welt. Außerdem werden Informationen aus der virtuellen Welt verwendet, um synthetische Daten zum Training von Vision-Language-Modellen zu erstellen. (tf)
Nvidias neues GenAI-Modell hilft Robotern, wie Menschen zu denken
Laut Nvidia könnten schon bald Ampeln und Kameras mit „denkender“ KI ausgestattet werden.Golovina Marina / Shuterstock Nvidia hat ein generatives KI-Modell (GenAI) entwickelt, das Robotern dabei helfen soll, menschenähnliche Entscheidungen zu treffen, indem es die Umgebung analysiert. Laut Nvidia kann das kürzlich vorgestellte Modell Informationen aus Video- und Grafikeingaben aufnehmen, diese Daten analysieren und anhand seines „Verständnisses“ Entscheidungen treffen. „Cosmos Reason hilft Robotern, wie Menschen zu denken und Entscheidungen quasi mit gesundem Menschenverstand zu treffen“, so Rev Lebaredian, Vizepräsident von Omniverse und Simulationstechnologien bei Nvidia. Schon bald in jeder Kamera Das Modell ist mit sieben Milliarden Parameter relativ klein und kann in einer Vielzahl von physischen Geräten eingesetzt werden. Hierzu zählen unter anderem installierte Kameras, Ampeln und Instrumente in Fabriken. „Jedes intelligente IoT-Gerät, das sehen kann, von Kameras bis zu Ampeln, jeder Haushalts- oder Industrieroboter, wird bald über Denkvermögen verfügen”, prophezeit Lebaredian. Dem Manager zufolge können Unternehmen auf Basis von Cosmos Reason Video-KI-Agenten entwickeln, die auf der Grundlage der riesigen Datenmengen handeln, die aus aufgezeichneten Videodaten und Livestreams gesammelt und analysiert werden. „Diese Video-Agenten werden bald überall zu finden sein und die Verkehrsüberwachung automatisieren, die Sicherheit verbessern und die Videoinspektionen in allen Bereichen automatisieren, von Industrieanlagen bis hin zu ganzen Städten“, erläutert der Experte. Nvidias Cosmos Reason VLM wurde entwickelt, um Robotern dabei zu helfen, bessere Entscheidungen zu treffen.Nvidia Vision statt Large Bei Cosmos Reason handelt es dabei aber nicht um ein klassisches LLM, sondern um etwas, das Nvidia als „Vision Language Model“ (VLM) bezeichnet. Das bedeutet, dass es sich von typischen textbasierten Modellen unterscheidet, die Bilder, Videos oder Text generieren können. Auch OpenAI und andere Unternehmen hätten bereits VLMs veröffentlicht, aber Cosmos Reason könne tiefere Schlussfolgerungen aus einer Vielzahl von unbekannten Szenarien ziehen, so Lebaredian. So könnten Modelle dieser Art neue und unbekannte Erfahrungen verstehen, ein vorläufiges Verständnis von Szenarien aufbauen, physische Wechselwirkungen berücksichtigen und dann komplexe Interaktionen oder Motivationen von Objekten und Akteuren in der Szene ableiten. Beispielsweise wären damit ausgestattete Roboter in der Lage, die einzelnen Schritte beim Toasten zu verknüpfen, indem sie verstehen, dass Toast Butter, einen Toaster sowie ein Teller, auf dem das Essen serviert wird, erfordert. Die heutigen KI-Robotermodelle verfügen über zwei Arten von Technologien, die ihre Aktivitäten unterstützen. Das VLM interpretiert Anweisungen und plant Aktionen, während „Vision Language Action” schnelle Aktionen und Muskelgedächtnis ermöglicht. Verfügbar und vielseitig trainiert Dem Unternehmen zufolge ist Cosmos Reason Open Source und steht zum Download bereit, funktioniert jedoch nur mit Nvidia-Hardware. Nvidia fasst seine World-Foundation- und Simulations-Produkte unter der Marke Omniverse zusammen. Cosmos Reason ist eines von vielen Modellen, die die Firma entwickelt hat, um die Produktivität in Fabriken, Lagerhäusern, Robotern, Fahrzeugen und anderen physischen Standorten zu verbessern. Die Produkte erstellen dabei eine digitale Kopie physischer Produkte aus der realen Welt. Außerdem werden Informationen aus der virtuellen Welt verwendet, um synthetische Daten zum Training von Vision-Language-Modellen zu erstellen. (tf)
Nvidias neues GenAI-Modell hilft Robotern, wie Menschen zu denken Laut Nvidia könnten schon bald Ampeln und Kameras mit „denkender“ KI ausgestattet werden.Golovina Marina / Shuterstock Nvidia hat ein generatives KI-Modell (GenAI) entwickelt, das Robotern dabei helfen soll, menschenähnliche Entscheidungen zu treffen, indem es die Umgebung analysiert. Laut Nvidia kann das kürzlich vorgestellte Modell Informationen aus Video- und Grafikeingaben aufnehmen, diese Daten analysieren und anhand seines „Verständnisses“ Entscheidungen treffen. „Cosmos Reason hilft Robotern, wie Menschen zu denken und Entscheidungen quasi mit gesundem Menschenverstand zu treffen“, so Rev Lebaredian, Vizepräsident von Omniverse und Simulationstechnologien bei Nvidia. Schon bald in jeder Kamera Das Modell ist mit sieben Milliarden Parameter relativ klein und kann in einer Vielzahl von physischen Geräten eingesetzt werden. Hierzu zählen unter anderem installierte Kameras, Ampeln und Instrumente in Fabriken. „Jedes intelligente IoT-Gerät, das sehen kann, von Kameras bis zu Ampeln, jeder Haushalts- oder Industrieroboter, wird bald über Denkvermögen verfügen”, prophezeit Lebaredian. Dem Manager zufolge können Unternehmen auf Basis von Cosmos Reason Video-KI-Agenten entwickeln, die auf der Grundlage der riesigen Datenmengen handeln, die aus aufgezeichneten Videodaten und Livestreams gesammelt und analysiert werden. „Diese Video-Agenten werden bald überall zu finden sein und die Verkehrsüberwachung automatisieren, die Sicherheit verbessern und die Videoinspektionen in allen Bereichen automatisieren, von Industrieanlagen bis hin zu ganzen Städten“, erläutert der Experte. Nvidias Cosmos Reason VLM wurde entwickelt, um Robotern dabei zu helfen, bessere Entscheidungen zu treffen.Nvidia Vision statt Large Bei Cosmos Reason handelt es dabei aber nicht um ein klassisches LLM, sondern um etwas, das Nvidia als „Vision Language Model“ (VLM) bezeichnet. Das bedeutet, dass es sich von typischen textbasierten Modellen unterscheidet, die Bilder, Videos oder Text generieren können. Auch OpenAI und andere Unternehmen hätten bereits VLMs veröffentlicht, aber Cosmos Reason könne tiefere Schlussfolgerungen aus einer Vielzahl von unbekannten Szenarien ziehen, so Lebaredian. So könnten Modelle dieser Art neue und unbekannte Erfahrungen verstehen, ein vorläufiges Verständnis von Szenarien aufbauen, physische Wechselwirkungen berücksichtigen und dann komplexe Interaktionen oder Motivationen von Objekten und Akteuren in der Szene ableiten. Beispielsweise wären damit ausgestattete Roboter in der Lage, die einzelnen Schritte beim Toasten zu verknüpfen, indem sie verstehen, dass Toast Butter, einen Toaster sowie ein Teller, auf dem das Essen serviert wird, erfordert. Die heutigen KI-Robotermodelle verfügen über zwei Arten von Technologien, die ihre Aktivitäten unterstützen. Das VLM interpretiert Anweisungen und plant Aktionen, während „Vision Language Action” schnelle Aktionen und Muskelgedächtnis ermöglicht. Verfügbar und vielseitig trainiert Dem Unternehmen zufolge ist Cosmos Reason Open Source und steht zum Download bereit, funktioniert jedoch nur mit Nvidia-Hardware. Nvidia fasst seine World-Foundation- und Simulations-Produkte unter der Marke Omniverse zusammen. Cosmos Reason ist eines von vielen Modellen, die die Firma entwickelt hat, um die Produktivität in Fabriken, Lagerhäusern, Robotern, Fahrzeugen und anderen physischen Standorten zu verbessern. Die Produkte erstellen dabei eine digitale Kopie physischer Produkte aus der realen Welt. Außerdem werden Informationen aus der virtuellen Welt verwendet, um synthetische Daten zum Training von Vision-Language-Modellen zu erstellen. (tf)