
iOS 26: Apples Speech-APIs lassen Whisper in puncto Geschwindigkeit alt aussehen
Apple legt in seinen kommenden Betriebssystem-Versionen bei der Transkription von Live-Audio oder Aufnahmen deutlich zu. In verschiedenen Tests wurde die Leistung jetzt mit gängigen anderen Spracherkennungs-Modellen verglichen. Die Ergebnisse sind allerdings gemischt: Apples neue API, die in iOS 26, iPadOS 26 und macOS 26 Tahoe bereitgestellt wird, steht bei der Geschwindigkeit deutlich besser da als zum Beispiel das verbreitete Whisper-Modell von OpenAI. Allerdings gibt es bei der Genauigkeit noch Luft nach oben.
Das Apple-Nachrichten-Blog MacStories erprobte das verbesserte Speech-Framework mit einer 34-minütigen Videodatei. Zur Transkription wurde für den Test von Apples APIs ein Tool namens Yap verwendet, das auf GitHub abgerufen werden kann. Es erledigte die Aufgabe in nur 45 Sekunden, während das recht beliebte Tool MacWhisper mit seinen Large-Modellen zwischen 1:41 Minuten und 3:55 Minuten benötigte.
Wie sich die Modelle im Vergleich schlagen
Die Nachrichtenseite 9to5Mac ließ Apples API gegen NVIDIA Parakeet antreten, das als sehr schnell gilt, und gegen OpenAI Whisper Large V3 Turbo. Testrechner war ein MacBook Pro mit M2 Pro und 16 GByte Unified Memory. Während Parakeet das 7:31 Minuten lange Audio-File in 2 Sekunden schaffte, benötigte Apples Transkription 9 Sekunden. Das OpenAI-Modell war erst nach 40 Sekunden fertig. Je länger die Audiodatei war, desto weiter lagen die Modelle zeitlich auseinander.
Doch Whispers Langsamkeit zahlte sich wiederum bei der Genauigkeit aus. Dabei wurde zwischen dem Anteil an Zeichenfehlern (Character Error Rate, CER) und Wortfehlern (Word Error Rate, WER) unterschieden. Durchschnittlich erwies sich Whisper Large V3 Turbo mit einer CER von 0,3 Prozent und einer WER von 1 Prozent als die genaueste Lösung. Apple hatte bei den Zeichen eine Fehlerrate von durchschnittlich 3 Prozent und bei Wörtern von 8 Prozent. Parakeet liegt deutlich zurück mit einer CER von 7 Prozent und einer WER von 12 Prozent.
Wofür sich Apples API empfiehlt
Damit verspricht Apples Transkription im Ergebnis einen deutlichen Geschwindigkeitsvorteil gegenüber Whisper und macht dabei nicht so viele Fehler wie das NVIDIA-Modell. Die Tester kommen zu dem Ergebnis, dass die Wahl des Modells damit vor allem eine Frage des Anwendungszwecks ist. Apples Modell empfiehlt sich für zeitkritische Anwendungen wie Live-Untertitel oder die grobe Transkription längerer Inhalte zur Indexierung. Whisper hat die Nase vorn, wenn nur minimale Nachbearbeitung gewünscht ist oder bei Anwendungen, wo es auf die Genauigkeit ankommt.