Eine bekannte Stimme, Kindheitserinnerungen und die Neuauflage einer lang geliebten Serie. Doch ein Aspekt kann schnell aufhorchen lassen, denn der Mann, der Pumuckl seine Stimme gab, ist schon seit Langem verstorben. Und trotzdem können wir genau dieser Stimme in den neuen Geschichten wieder lauschen und das auf ziemlich geniale Weise. Der Mann der heute Pumuckl spricht, ist Maximilian Schafroth und seine Stimme wird mithilfe von KI so angepasst, dass sie zum Verwechseln ähnlich wie die von Clarin klingt.
Dieses Beispiel zeigt, wie viel beim Thema Sprachwiedergabe mithilfe von KI schon möglich ist. Einen Blick in die Zukunft gibt es natürlich noch nicht, aber beim Thema der Sprachwiedergabe ist das Thema vom Einsatz der KI bei Hörbüchern nicht weit entwickelt. Im letzten Jahr war die Lage dazu noch sehr umstritten und in Deutschland auch eher zurückhaltend. Es sind noch einige Nachteile zu finden und die persönlichen Präferenzen liegen momentan noch eher bei echten Stimmen. Hinter der Hörbucherstellung sitzen Sprecher*innen mit Leidenschaft und durchdachten Konzepten, wie die Bücher und die Message am besten rübergebracht werden kann. Pausen, Betonungen oder versteckte Bedeutungen sind teilweise genau eingeplant und platziert. Die KI tut sich mit genau diesen Details noch schwer. Durch die Analyse von Videos, Aufnahmen und generell menschlicher Sprache kann sie zwar Worte aneinanderreihen und mit Sinn wiedergeben, jedoch die Bedeutung dahinter selber nicht ganz greifen und damit auch die Gefühlslage die hinter jedem Wort steckt, nicht darstellen.
Die Kombination von Sprecher*in und bestimmten Autor*innen oder Genres ist dabei ebenfalls nicht zu unterschätzen. Immer wieder begegnen wir einer wiederholenden Sprecher*in-Autor*in Kombination und gewöhnen uns daran. Dies kann dazu führen, dass wir andere Kombinationen ablehnen, weil die Bisherige so passend wirkt, wie sie ist. Apple hat für seine Sprachmodelle zwar auch Charaktere entwickelt, diese zu bestimmten Genres zugeordnet und die Stimme stilistisch passend gestaltet, doch kann das die menschliche Stimme wirklich ersetzen?
Dazu kommt noch der Aspekt der Bekanntheit von Sprecher*innen. Häufig werden zur Vermarktung von Hörbüchern z.B. Schauspieler*innen, Sportikonen oder andere bekannte Persönlichkeiten eingesetzt, die die Hörbücher sprechen, wodurch die emotionale Verbindung zu der Stimme gestärkt wird. Die KI hat für den Menschen einfach nicht denselben emotionalen Wert, den andere Menschen haben.
Doch abgesehen davon, gibt es in vielen Bereichen auch einige Gründe für die Nutzung von einer KI generierten Stimme. Beispielsweise ist die Hörbuchproduktion zeitaufwendig und dadurch auch recht kostenintensiv. Durch KI generierte Hörbücher kann eine erhebliche Zeitersparnis erreicht werden. Auch nicht ganz so bekannte Bücher haben die Möglichkeit vertont zu werden, da die Möglichkeiten eben gut genug sind und es besser als gar kein Hörbuch ist.
Zudem muss das Hörbuch ja nicht immer komplett durch eine KI vertont werden, sie kann auch als Hilfestellung dienen, um Versprecher oder Tonfehler auszugleichen. Des Weiteren sind KI generierte Hörbücher ein großer Schritt hin zur Barrierefreiheit sowie hilfreich bei Übersetzungen.
Manchmal muss auch einfach abgewogen werden. Ist die Zeitersparnis wirklich so wie erwartet oder ist die Nachbearbeitung des von KI eingesprochenen Textes nicht sogar aufwendiger? Ist die emotionale Ebene des Hörbuchs wirklich so wichtig oder ist es vielleicht ein Sachbuch, was eingesprochen wird, bei dem die Informationsebene die emotionale Ebene deutlich überwiegt?
Insgesamt hat KI im Hörbuchmarkt durchaus seine Daseinsberechtigung, dennoch ist sie einfach noch nicht so gut ausgereift, dass sie bedenkenlos genutzt werden kann. Zur Unterstützung ist sie aber heute schon ein hilfreiches Tool.
Autorin: Annika Cremer
Lektorin: Frauke Hartmann