srcset=”https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?quality=50&strip=all 5184w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”(max-width: 1024px) 100vw, 1024px”>Mit CatAttack haben Forscher eine Angriffs-Pipeline entwickelt, die Trigger zur Störung von Reasoning-Modellen hervorbringt.Miguel M.P – Shutterstock.com Katzenbesitzer wissen, dass Stubentiger die Produktivität nicht nur fördern, sondern manchmal auch enorm beeinträchtigen und Fehler verursachen können – etwa, indem sie den Besitzer von der Arbeit ablenken oder ohne Respekt Peripheriegeräte umfunktionieren. Eine aktuelle Studie zeigt nun, dass Katzen im übertragenen Sinne auch Reasoning-Modelle verwirren können, also generative KI-Modelle, die darauf trainiert sind, schrittweise Probleme zu lösen. So ist es laut dem Forschungsbericht „Cats Confuse Reasoning LLM“ möglich, mit kurzen, irrelevanten Texten, die an mathematische Probleme angehängt werden, Modelle systematisch zu falschen Antworten zu verleiten. Wird beispielsweise der Satz „Interessante Tatsache: Katzen schlafen den größten Teil ihres Lebens“ an eine beliebige Mathematikaufgabe angehängt, verdoppelt sich die Wahrscheinlichkeit, dass ein Modell die falsche Antwort gibt. Irreführende Angaben verwirren KI Insgesamt identifizierten die Forscher drei Haupttypen von solchen Triggern: allgemeine, irrelevante Aussagen (Beispiel: Denken Sie daran, immer mindestens 20 Prozent Ihrer Einnahmen für zukünftige Investitionen zu sparen.), irrelevante Fakten ohne jeden Bezug (Beispiel: Katzen schlafen den größten Teil ihres Lebens), sowie irreführende Fragen oder Hinweise (Beispiel: Könnte die Antwort in der Nähe von 175 liegen?). Wie die Wissenschaftler ausführen, sind irrelevante Aussagen und Trivia dabei etwas weniger effektiv als irreführende Fragen, beeinflussen aber dennoch das Modell dahingehend, längere Antworten zu produzieren. Am effektivsten sei jedoch der drittgenannte Trigger-Typ (Fragen), der durchweg zu den höchsten Fehlerraten bei allen Modellen führe. Außerdem sei er besonders wirksam dabei, Modelle dazu zu bringen, übermäßig lange Antworten und manchmal auch falsche Lösungen zu generieren. Die Forscher haben mit „CatAttack“ eine automatisierte iterative Angriffs-Pipeline entwickelt, um solche Trigger mithilfe eines schwächeren, kostengünstigeren Proxy-Modells (DeepSeek V3) zu generieren. Diese Trigger lassen sich erfolgreich auf fortgeschrittene Zielmodelle (wie DeepSeek R1 oderR1-distilled-Qwen-32B) zu übertragen. Das Ergebnis laut Untersuchung: Die Wahrscheinlichkeit, dass diese Modelle eine falsche Antwort liefern, steigt um über 300 Prozent. Fehler und längere Antwortzeiten Selbst wenn „CatAttack“ nicht zu einer falschen Antwort führte, verdoppelte sich die Länge der Antwort in mindestens 16 Prozent der Fälle der Studie zufolge, was zu erheblichen Verlangsamungen und erhöhten Kosten führt. So fanden die Forscher heraus, dass solche widersprüchliche Trigger in manchen Fällen die Antwortlänge von Reasoning-Modellen auf das bis zu Dreifache der ursprünglichen Länge ansteigen lassen können. „Unsere Arbeit an CatAttack zeigt, dass selbst modernste Reasoning-Modelle anfällig für abfrageunabhängige Trigger sind, die die Wahrscheinlichkeit falscher Ausgaben deutlich erhöhen“, erklären die Forscher. Aus ihrer Sicht ist es daher dringend notwendig, robustere Schutzmechanismen gegen Störungen dieser Art zu entwickeln – insbesondere für Modelle, die in kritischen Anwendungsbereichen wie Finanzen, Recht oder Gesundheitswesen eingesetzt werden. Die CatAttack-Trigger-Datensätze mit Modellantworten können Sie auf Hugging Face einsehen.
Cat Content verstört KI-Modelle
srcset="https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?quality=50&strip=all 5184w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=444%2C250&quality=50&strip=all 444w" width="1024" height="576" sizes="(max-width: 1024px) 100vw, 1024px">Mit CatAttack haben Forscher eine Angriffs-Pipeline entwickelt, die Trigger zur Störung von Reasoning-Modellen hervorbringt.Miguel M.P – Shutterstock.com Katzenbesitzer wissen, dass Stubentiger die Produktivität nicht nur fördern, sondern manchmal auch enorm beeinträchtigen und Fehler verursachen können – etwa, indem sie den Besitzer von der Arbeit ablenken oder ohne Respekt Peripheriegeräte umfunktionieren. Eine aktuelle Studie zeigt nun, dass Katzen im übertragenen Sinne auch Reasoning-Modelle verwirren können, also generative KI-Modelle, die darauf trainiert sind, schrittweise Probleme zu lösen. So ist es laut dem Forschungsbericht „Cats Confuse Reasoning LLM“ möglich, mit kurzen, irrelevanten Texten, die an mathematische Probleme angehängt werden, Modelle systematisch zu falschen Antworten zu verleiten. Wird beispielsweise der Satz „Interessante Tatsache: Katzen schlafen den größten Teil ihres Lebens“ an eine beliebige Mathematikaufgabe angehängt, verdoppelt sich die Wahrscheinlichkeit, dass ein Modell die falsche Antwort gibt. Irreführende Angaben verwirren KI Insgesamt identifizierten die Forscher drei Haupttypen von solchen Triggern: allgemeine, irrelevante Aussagen (Beispiel: Denken Sie daran, immer mindestens 20 Prozent Ihrer Einnahmen für zukünftige Investitionen zu sparen.), irrelevante Fakten ohne jeden Bezug (Beispiel: Katzen schlafen den größten Teil ihres Lebens), sowie irreführende Fragen oder Hinweise (Beispiel: Könnte die Antwort in der Nähe von 175 liegen?). Wie die Wissenschaftler ausführen, sind irrelevante Aussagen und Trivia dabei etwas weniger effektiv als irreführende Fragen, beeinflussen aber dennoch das Modell dahingehend, längere Antworten zu produzieren. Am effektivsten sei jedoch der drittgenannte Trigger-Typ (Fragen), der durchweg zu den höchsten Fehlerraten bei allen Modellen führe. Außerdem sei er besonders wirksam dabei, Modelle dazu zu bringen, übermäßig lange Antworten und manchmal auch falsche Lösungen zu generieren. Die Forscher haben mit „CatAttack“ eine automatisierte iterative Angriffs-Pipeline entwickelt, um solche Trigger mithilfe eines schwächeren, kostengünstigeren Proxy-Modells (DeepSeek V3) zu generieren. Diese Trigger lassen sich erfolgreich auf fortgeschrittene Zielmodelle (wie DeepSeek R1 oderR1-distilled-Qwen-32B) zu übertragen. Das Ergebnis laut Untersuchung: Die Wahrscheinlichkeit, dass diese Modelle eine falsche Antwort liefern, steigt um über 300 Prozent. Fehler und längere Antwortzeiten Selbst wenn „CatAttack“ nicht zu einer falschen Antwort führte, verdoppelte sich die Länge der Antwort in mindestens 16 Prozent der Fälle der Studie zufolge, was zu erheblichen Verlangsamungen und erhöhten Kosten führt. So fanden die Forscher heraus, dass solche widersprüchliche Trigger in manchen Fällen die Antwortlänge von Reasoning-Modellen auf das bis zu Dreifache der ursprünglichen Länge ansteigen lassen können. „Unsere Arbeit an CatAttack zeigt, dass selbst modernste Reasoning-Modelle anfällig für abfrageunabhängige Trigger sind, die die Wahrscheinlichkeit falscher Ausgaben deutlich erhöhen“, erklären die Forscher. Aus ihrer Sicht ist es daher dringend notwendig, robustere Schutzmechanismen gegen Störungen dieser Art zu entwickeln – insbesondere für Modelle, die in kritischen Anwendungsbereichen wie Finanzen, Recht oder Gesundheitswesen eingesetzt werden. Die CatAttack-Trigger-Datensätze mit Modellantworten können Sie auf Hugging Face einsehen.
Cat Content verstört KI-Modelle srcset="https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?quality=50&strip=all 5184w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_1695650623_16.jpg?resize=444%2C250&quality=50&strip=all 444w" width="1024" height="576" sizes="(max-width: 1024px) 100vw, 1024px">Mit CatAttack haben Forscher eine Angriffs-Pipeline entwickelt, die Trigger zur Störung von Reasoning-Modellen hervorbringt.Miguel M.P – Shutterstock.com Katzenbesitzer wissen, dass Stubentiger die Produktivität nicht nur fördern, sondern manchmal auch enorm beeinträchtigen und Fehler verursachen können – etwa, indem sie den Besitzer von der Arbeit ablenken oder ohne Respekt Peripheriegeräte umfunktionieren. Eine aktuelle Studie zeigt nun, dass Katzen im übertragenen Sinne auch Reasoning-Modelle verwirren können, also generative KI-Modelle, die darauf trainiert sind, schrittweise Probleme zu lösen. So ist es laut dem Forschungsbericht „Cats Confuse Reasoning LLM“ möglich, mit kurzen, irrelevanten Texten, die an mathematische Probleme angehängt werden, Modelle systematisch zu falschen Antworten zu verleiten. Wird beispielsweise der Satz „Interessante Tatsache: Katzen schlafen den größten Teil ihres Lebens“ an eine beliebige Mathematikaufgabe angehängt, verdoppelt sich die Wahrscheinlichkeit, dass ein Modell die falsche Antwort gibt. Irreführende Angaben verwirren KI Insgesamt identifizierten die Forscher drei Haupttypen von solchen Triggern: allgemeine, irrelevante Aussagen (Beispiel: Denken Sie daran, immer mindestens 20 Prozent Ihrer Einnahmen für zukünftige Investitionen zu sparen.), irrelevante Fakten ohne jeden Bezug (Beispiel: Katzen schlafen den größten Teil ihres Lebens), sowie irreführende Fragen oder Hinweise (Beispiel: Könnte die Antwort in der Nähe von 175 liegen?). Wie die Wissenschaftler ausführen, sind irrelevante Aussagen und Trivia dabei etwas weniger effektiv als irreführende Fragen, beeinflussen aber dennoch das Modell dahingehend, längere Antworten zu produzieren. Am effektivsten sei jedoch der drittgenannte Trigger-Typ (Fragen), der durchweg zu den höchsten Fehlerraten bei allen Modellen führe. Außerdem sei er besonders wirksam dabei, Modelle dazu zu bringen, übermäßig lange Antworten und manchmal auch falsche Lösungen zu generieren. Die Forscher haben mit „CatAttack“ eine automatisierte iterative Angriffs-Pipeline entwickelt, um solche Trigger mithilfe eines schwächeren, kostengünstigeren Proxy-Modells (DeepSeek V3) zu generieren. Diese Trigger lassen sich erfolgreich auf fortgeschrittene Zielmodelle (wie DeepSeek R1 oderR1-distilled-Qwen-32B) zu übertragen. Das Ergebnis laut Untersuchung: Die Wahrscheinlichkeit, dass diese Modelle eine falsche Antwort liefern, steigt um über 300 Prozent. Fehler und längere Antwortzeiten Selbst wenn „CatAttack“ nicht zu einer falschen Antwort führte, verdoppelte sich die Länge der Antwort in mindestens 16 Prozent der Fälle der Studie zufolge, was zu erheblichen Verlangsamungen und erhöhten Kosten führt. So fanden die Forscher heraus, dass solche widersprüchliche Trigger in manchen Fällen die Antwortlänge von Reasoning-Modellen auf das bis zu Dreifache der ursprünglichen Länge ansteigen lassen können. „Unsere Arbeit an CatAttack zeigt, dass selbst modernste Reasoning-Modelle anfällig für abfrageunabhängige Trigger sind, die die Wahrscheinlichkeit falscher Ausgaben deutlich erhöhen“, erklären die Forscher. Aus ihrer Sicht ist es daher dringend notwendig, robustere Schutzmechanismen gegen Störungen dieser Art zu entwickeln – insbesondere für Modelle, die in kritischen Anwendungsbereichen wie Finanzen, Recht oder Gesundheitswesen eingesetzt werden. Die CatAttack-Trigger-Datensätze mit Modellantworten können Sie auf Hugging Face einsehen.