Inhalt

8. Vom gesprochenen zum geschriebenen Text

App: "Aiko"

Spracherkennung ist nichts Neues. Wir diktieren unsere Nachrichten, stellen mittels Sprachbefehlen den Wecker oder stellen irgendwelche Fragen an ein System, das dann hoffentlich eine brauchbare Antwort liefert.

Beim Diktat eines Textes müssen wir allerdings für Interpunktion und Struktur (etwa Absätze) selbst Sorge tragen. Machen wir einen Fehler, wird nichts korrigiert - oder wenn, dann nur anhand eines Wörterbuchs. Die gesamte Gestaltung liegt in unserem Verantwortungsbereich.
Demzufolge ergibt die automatische Erkennung und Transkription einer Tonaufnahme in geschriebenen Text reinen Fließtext ohne Absätze und ohne Interpunktion, also aneinandergereihte Wörter, wie sie verstanden wurden, inklusive allen "Ahs" und "Ähs", die Redner:innen eventuell einflechten. Der Text ist dann zwar durchsuchbar, aber aufgrund fehlender Interpunktion und Absätzen schwer lesbar. Will man daraus eine echte "Mitschrift" machen, ist viel Nacharbeit erforderlich!

Aber es geht intelligenter

Künstliche Intelligenz versucht, aus dem gesprochenen Text die korrekte Interpunktion abzuleiten. Sie interpretiert längere Pausen als Absätze und "hört" auf die Modulation einer Stimme, um Komma und Satzpunkt zu setzen, sodass bei einem einigermaßen gut gesprochenen Text auch ein gutes Ergebnis zu erwarten ist. Das reduziert die benötigte Nacharbeit für Korrekturen erheblich.

Ich habe versucht, einen kleinen Ausschnitt eines unserer Themenabende mit künstlicher Intelligenz vom gesprochenen Wort in Text übersetzen zu lassen. Dafür benutzte ich die App Aiko auf dem iPhone, der ich das bereits bestehende Audio übergeben habe. Man sollte bei längeren Texten etwas Zeit mitbringen. Ein Smartphone ist kein Hochleistungs-PC und braucht seine Zeit...

Sobald der Vorgang abgeschlossen ist, erhält man mehrere Formate für den Export, darunter auch ein Textformat mit Zeitstempel. Das Endergebnis ist ein Text, in einzelne Sätze zerlegt und darunter eine exakte Zeitangabe in Sekunden. Bei einem langen Vortrag ist das schon hilfreich, wenn man erfährt, dass eine bestimmte wichtige Passage bei 20 Minuten und 8 Sekunden startet. Diese Zeitstempel machen das Lesen natürlich nicht einfacher. Darum empfiehlt sich bei langen Texten auch der Export in mehrere Formate: Eines, um wichtige Passagen anhand von Zeitangaben wiederfinden und eines, um das Ergebnis fließend und störungsfrei lesen zu können.

In unserem Beispiel des Themenabends über dzb lesen (Deutsches Zentrum für barrierefreies Lesen) habe ich nur eine sehr kurze Passage gewählt und ohne Zeitmarken transkribieren und abspeichern lassen. Hier der Link zum Audio.
Und hier ist das Ergebnis, das ich natürlich unverändert gelassen habe.


Unkorrigierte Transkription:

Die Basis unserer Arbeit ist nach wie vor, da ja kommen wir ja auch, ist nach wie vor die Preilschrift.
Und wir haben sicher die größte Sammlung an Preil-Literatur überhaupt.
Und gerade ob der digitalen Möglichkeiten und Alternativen kommt immer wieder das Thema Nutzend der Preilschrift auf, aber für uns ist das ein ganz, ganz wichtiges Thema.
Das ist für uns die Schrift der Blinden.
Es gibt keine andere, über die eben auch Rechtschreibung, Grammatik etc. vermittelt wird, die richtige Schreibweis und ganz wichtig auch für Anwendung an PC mit Preilzeilen etc.
Und deswegen sind wir sehr aktiv im Bereich auch Leseförderung in Zusammenarbeit mit Schulen für blinde und sehbehinderte Kinder, um Programme zu entwickeln, wie man die Preilschrift fördern kann und speziell eben auch Kinder- und Jugendliteratur anzubieten, um das Thema Preilschrift in seiner Bedeutung auch nach wie vor hochzuhalten.

Ende der Transkription

Langes Spulen in Audioaufnahmen, um nach der gesuchten Passage zu suchen, gehört definitiv der Vergangenheit an.
Ein nicht zu unterschätzender Vorteil solcher Transkriptionen ist die Möglichkeit, den entstandenen Text durchsuchen und auch durchsuchbar archivieren zu können. Und auch Menschen mit Hörbehinderung profitieren sicher davon, einen Vortrag "nachlesen" zu können.

Die App Aiko 


Apple
 

Für die Expert:innen unter Windows:


Für den Windows-PC gibt es z.B. das Programm Faster-Whisper-XXL. Damit können auch fremdsprachliche Audios, ja sogar Liedtexte in Schrift übertragen werden.

Eva Papst Oktober 2025