
Katzen irritieren Reasoning-Modelle: Studie probt Angriff
Eine simple Mathe-Aufgabe wird gespieckt durch den Satz: Katzen schlafen fast die ganze Zeit. Wenn ein Teil des Inputs in ein Reasoning-Modell nichts mit der eigentlichen Aufgabe zu tun hat, verschlechtert sich die Qualität des Outputs drastisch. Das hat eine Studie der Stanford University herausgefunden.
Die Wissenschaftler wollten die Robustheit sogenannter Reasoning-Modelle testen und fanden heraus, sie sind nicht sonderlich robust. Für "Cats Confuse Reasoning LLM" haben sie eine automatisierte Angriffskette entwickelt. Dabei erstellt ein günstiges Proxy-Modell (DeepSeek V3) irreführende Sätze, die eigentlichen Aufgaben in leistungsfähigeren Reasoning-Modellen (DeepSeek R1, OpenAI o1 und o3-mini) zugeführt werden, wobei GPT-4o als Promptgenerator genutzt wurde und ein Halluzinations-Detektor die Rolle eines Beurteilers übernahm.
Katzen, Zahlen, Finanzweisheiten stören Reasoning
Der Satz, dass Katzen die meiste Zeit ihres Lebens schlafen, führte laut der Autoren dazu, dass sich die Chance einer falschen Antwort auf einfache Matheaufgaben verdoppelte. Weitere Trigger, die die Forschenden nutzen, bezogen sich auf eine falsche Zahl (etwa: könnte die Antwort 175 sein?) und auf allgemeine Finanzweisheiten. Die Wahrscheinlichkeit, dass eine Antwort falsch war, nutzte man alle drei Trigger, lag in der Studie mehr als 300 Prozent höher als die vorherige Fehlerquote.
Neben den falschen Antworten kam es zu einem weiteren Phänomen: DeepSeek R1-distill-Qwen-32B überschritt bei 42 Prozent der Antworten auch das ursprünglich vorgegebene Token-Budget um mindestens 50 Prozent. Und auch auf OpenAIs o1 traf dies bei noch 26 Prozent zu. Die Autoren nennen den Effekt Slowdown-Attack. Das Token-Budget ist ganz konkret für die Kosten einer Anfrage zuständig.
Beide Effekte könnten laut der auf arXiv veröffentlichten Studie für Angriffe genutzt werden. Besonders in den Bereichen Finanzen, Recht und Gesundheit sei dies problematisch. Auch andere Studien konnten solche Angriffe bereits nachzeichnen. In der Stanford-Studie ist vor allem die Nutzung eines Proxy-Modells, das kostengünstiger und weniger leistungsfähig als die großen Reasoning-Modelle ist, neu.