Sprachnachrichten automatisch in Text umwandeln

Neulich schrieb ich darüber, dass Sprachnachrichten die Nemesis der Schwerhörigen sind. Wenn du es nun wirklich nicht vermeiden kannst oder möchtest, welche zu erhalten, so kannst du behelfen, in dem du sie in geschriebenen Text umwandelst. Wie du das machst, erklärt diese Anleitung.

Dn Vorgang des Umwandelns von gesprochener Sprache in geschriebenen Text nennt man “transkribieren” oder “Speech to Text” (Englisch für “Sprache zu Text”) oder auch einfach “Untertitelung”. Dank moderner Technik in unseren Mobiltelefonen ist das mittlerweile relativ einfach möglich. Zu Nutze machen wir uns hier Programme, die durch maschinelles Lernen oder auch „künstliche Intelligenz” die Sprache erkennen und die erkannten Wörter aufschreiben. So können wir einfach alles lesen statt hören zu müssen.

Zwei Möglichkeiten der Transkription

Grundsätzlich gibt es zwei Möglichkeiten der Transkription von Sprachnachrichten. Beide Möglichkeiten sind für beide gängigen Mobiltelefon-Betriebssysteme (Google Android und Apple IOS) verfügbar. Hier und da sieht die Benutzeroberfläche anders aus, aber die Prinzipien sind die gleichen.

Live-Untertitel des Telefon-Betriebssystems

Mobiltelefone kommen mittlerweile von Haus aus mit einer Möglichkeit der automatischen Untertitelung. Automatische Untertitelung bedeutet, dass dein Telefon einfach immer, wenn es etwas als Sprachsignal wahrnimmt, diese Sprache versucht zu erkennen und das Erkannte live als Untertitel einblendet. Das funktioniert – einmal angeschaltet – für alle Medien, bei denen Sprache abgespielt werden kann, also sowohl bei Anrufen, als auch Videos, aber eben auch beim Abspielen von Sprachnachrichten.

Zu beachten allerdings: die automatische Erstellung von Untertiteln braucht vergleichsweise viel Computerpower unserer Mobiltelefone. Das bedeutet, dass sie auf älteren Mobiltelefonen mit älteren Versionen der Betriebssysteme nicht verfügbar ist und vermutlich auch nie sein wird. Sollte dein Handy also zu alt sein, so empfehlen wir dir die andere Möglichkeit der Transkription (siehe unten).

Bei Apple ist die Funktion “Live-Untertitel” seit iOS 16 zu haben. Wie man diese einschaltet, kannst du hier nachlesen: Anzeigen von Live-Untertiteln in Echtzeit auf dem iPhone

Bei Google ist die Funktion “Automatische Transkription” seit dem Pixel 7 zu haben. Die Bedienungsanleitung hierfür findest du hier: Automatische Transkription verwenden

Wie so eine automatische Transkription aussieht, kannst du in folgendem Bild sehen:

Probleme mit automatischer Transkription

Auch wenn die moderne Technik uns hier schon weit bringt, versagt sie manchmal doch. Das hier sind die gängigsten Probleme mit automatischer Transkription:

  • Untertitelung nicht erlaubt. Anstatt dass der Text auf dem Display erscheint, bekommst du eine Fehlermeldung, dass die App automatische Untertitel nicht erlaubt. Bei Threema z.B. steht dort dann “Automatische Untertitel sind für diese App deaktiviert”. Das bedeutet, dass die Herausgeber dieser Messenger-App (z.B. Threema) es technisch unterbinden, dass die Untertitelfunktion auf die Daten der App zugreifen kann. Im Falle von Threema ist dies vermutlich so entschieden worden aufgrund von Sicherheitsbedenken. In dem Fall, kannst du diese Funktion also leider nicht mit diesem Messenger benutzen und musst auf die zweite Möglichkeit der Transkription zurückgreifen.
  • Falsche Sprache eingestellt. Es kommt zwar Text während du eine Sprachnachricht abspielt, aber der macht gar keinen Sinn. Das kann passieren, wenn die Sprache der Sprachnachricht nicht in der Sprache ist, die die Untertitelungsfunktion erwartet. Wenn der Sprecher in der Sprachnachricht Deutsch spricht, aber dein Mobiltelefon zum Beispiel Englisch erwartet, dann versucht dein Mobiltelefon das deutsche Sprachsignal als englische Wörter zu erkennen und dabei kommt dann meistens ziemliches Kauderwelsch heraus. Hier hilft es, nachzuprüfen, welche Sprache dein Mobiltelefon erwartet und diese gegebenenfalls umzustellen. Am besten findest du das auf den Hilfeseiten des Herstellers heraus (siehe oben verlinkt).
  • Mundart. Es ist ein häufiges Problem bei Spracherkennung, dass sie nur die Standardsprache versteht, also im Fall von Deutsch Hochdeutsch. Das liegt daran, dass solche Systeme mit großen Mengen Sprachbeispielen trainiert werden. Je mehr Beispiele es in einer Sprache gibt, desto besser wird die Spracherkennung. Daher sind die meisten Spracherkennungen nur für häufig gesprochene Sprachen verfügbar. Da Mundart oft eine sehr regionale Sache ist, lohnt es sich für die Anbieter selten, hier ein System extra für zu trainieren. Hier bleibt zu hoffen, dass auch eines Tages die Spracherkennung auf Dialekten trainiert ist. Bis dahin hilft nur, die Person, die dir die Sprachnachrichten schickt, zu bitten, diese auf Hochdeutsch zu verfassen.
  • Automatische Untertitelung nicht immer gewollt. Wenn man die automatische Untertitelung einschaltet, so ist diese immer “an”. Das heißt, sie fängt bei jeder Gelegenheit an, Text anzuzeigen, auch wenn du vielleicht gerade ein Video guckst, wo dich der Text gar nicht interessiert hat. Das kann bei Sprachnachrichten gewollt sein, bei anderen Situationen nervt es dich vielleicht. In dem Fall musst du sie dann erst wieder ausschalten. Das kann auf Dauer nervig sein.

Sprachnachricht in eine Transkriptions-App teilen

Eine Alternative zur automatischen Transkription des Mobiltelefons ist das Teilen von Sprachnachrichten mit Transkriptions-Apps.

Transkriptions-Apps

Diese Apps sind Programme für unsere Mobiltelefone, die Transkription von Sprache anbieten. Hier gibt es einen ganzen Zoo von verschiedenen Apps, verschiedener Anbieter für verschiedene Arten von Mobiltelefonen. Es ist gar nicht so einfach, sich hier zu entscheiden. Im Folgenden erklären wir, wie die Benutzung von solchen Apps grundsätzlich funktioniert. Details in der Benutzeroberfläche können je nach Mobiltelefon und App variieren.

Transkriptions-Apps nehmen in der Regel eine Aufnahme von einem Sprachsignal als Eingabe an und geben den Text, den sie erkennen, aus. Das ganze funktioniert im Gegensatz zu den Live-Untertiteln nicht immer instantan. Es kann also sein, dass du ein paar Sekunden bis Minuten warten musst, bis du den fertigen Text sehen kannst.

 Wie kann man Sprachnachrichten mit Transkriptions-Apps in Text umwandeln?

Die meisten Transkriptions-Apps können folgendermaßen aufgerufen werden:

  1. Öffne deine Messenger App (also Whatsapp, Signal, etc.) und wähle den Chat aus, in dem dir jemand eine Sprachnachricht geschickt hat.
  2. Drücke länger auf die Nachricht mit der Sprachnachricht.
  3. Dann öffnet sich an der Sprachnachricht oder oben rechts ein Menü wo du die Nachricht mit einer anderen App teilen kannst. Das Symbol dafür sieht so aus: 
  1. Klicke darauf. Dann öffnet sich die Liste aller Apps auf deinem Handy, die eine solche Nachricht akzeptieren.
  2. Suche in der Liste die Transkriptions-App, die du verwenden möchtest und klicke darauf.
  3. Dann geht die Transkriptions-App auf und führt dich durch ihre Benutzeroberfläche. In vielen Fällen bekommst du hier sofort den Text angezeigt. 

Was bei Transkriptions-Apps zu beachten ist

Wie bereits angedeutet, gibt es viele Transkriptions-Apps und alle sind ein bisschen verschieden. Welche du am liebsten magst und für dich am besten funktioniert, ist vermutlich Geschmackssache. Bei der Auswahl der App solltest du allerdings folgendes beachten.

  • Werbung bzw. Kosten. Viele dieser Transkriptions-Apps sind kostenlos. Diese finanzieren sich dann meistens darüber, dass Sie Werbung anzeigen. Das kann für dich akzeptabel sein, allerdings stört die Werbung auch oft sehr in der Benutzerführung. Alternativen sind hier Transkriptions-Apps, die du bezahlen kannst. Damit du nicht die Katze im Sack kaufst, bieten solche Apps oft eine Möglichkeit, diese zunächst kostenlos zu testen. Die Testphase kann zeitlich begrenzt sein (z.B. die ersten 30 Tage seit Installation), in der Länge der Sprachnachrichten (z.B. die ersten 90 Minuten), oder in der Länge des Transkriptes (z.B. nur die ersten 10 Sekunden werden in Text umgewandelt). Wenn du dich für eine App entscheidest, die du bezahlst, solltest du dich auch mit dem Kostenmodell beschäftigen. Es gibt hier Apps, die einmalig einen bestimmten Betrag kosten. Andere wiederum kosten einen monatlichen Betrag und/oder bieten nur ein bestimmtes Kontingent pro Monat (z.B. 300 Minuten für 9,90 EUR pro Monat). Hier solltest du dich vorher gut informieren, was für dich passt und finanzierbar ist.
  • Datenschutz. Eine wichtige Frage bei Spracherkennung ist der Datenschutz. Spracherkennung ist im wesentlichen künstliche Intelligenz, die auf großen Mengen Sprachdaten trainiert wurde. Wenn man nun eine Sprachnachricht in dieses System gibt, so wird die Leistung der Spracherkennung meistens nicht auf deinem Mobiltelefon ausgeführt. Stattdessen wird die Sprachnachricht auf einen Server im Internet hochgeladen und dort transkribiert. Das bedeutet also, dass die Daten deiner Sprachnachricht, die ja sehr privat sein können, außerhalb deines Mobiltelefons gelangen. Das kann für dich in Ordnung sein, will aber eine bewusste Entscheidung sein. 
  • Verlässlichkeit bei schlechten Verbindungen. Das Hochladen von Sprachnachrichten auf einen Server im Internet ist natürlich auch ein Problem, wenn man gerade schlechten Handyempfang hat. In so einem Fall funktioniert die Transkription dann nicht, oder nur sehr langsam. Hier sind manche Apps eben besser oder nicht aufgestellt. 
  • Funktionsumfang der App. Verschiedene Apps können verschiedene Dinge – neben der Grundfunktion der Spracherkennung, zum Beispiel: die Benutzeroberfläche kann in verschiedenen Sprachen sein. Nich jede App hat eine Oberfläche auf Deutsch; verschiedene Sprecher auseinander halten und im Text anzeigen, wer wann gesprochen hat; Zeitstempel des Gesagten anzeigen; Sprachnachrichten verschiedener Sprachen erkennen; Sprachnachrichten sofort in andere Sprachen übersetzen (z.B. eine englische Sprachnachricht in deutschen Text).

Wie finde ich Transkriptions-Apps?

Wie erwähnt, gibt es eine Vielzahl an Transkriptions-Apps. Es ist unmöglich, sie alle aufzulisten und eine solche Liste ist schnell wieder veraltet. 

Es lohnt sich also, immer mal wieder selbst eine Suche danach zu starten. Wenn du eine Transkriptions-App suchst, kannst du im App-Store deines Mobiltelefons, folgende Stichworte verwenden: “Transkription”, “Speech to Text”, “Subtitles”, “Captioning”, “Untertitelung”.

Wir verlinken hier eine Liste der uns bekannten und momentan gängigen Apps – ohne diese in ihrer Qualität zu bewerten:

  • Scribbn – IOSAndroid
  • Transcribe – Sprache zu Text – IOS
  • Transcriber for WhatsApp – Android
  • Voicepop – Turn Voice to Text – IOS
  • Textify – IOS
  • Transcriptor – Android 
  • Audio to Text for WhatsApp – IOS

Diese Anleitung ist in abgewandelter Form in einem Projekt in Zusammenarbeit mit Pro Audito Schweiz entstanden. Pro Audito ist die führenden Anlaufstelle für die 1,3 Millionen Menschen mit Schwerhörigkeit in der Schweiz, http://www.pro-audito.ch.