(Live-)Transkription

Video und Audio sind gut und schön – manchmal ist es aber praktisch und im Sinne der Barrierefreiheit schlicht notwendig, Informationen auch in Textform zu bereitzustellen. Wie ihr das anstellt, schauen wir uns in dieser Folge an!

Heute geht es um Transkription und Transkripte. Damit ist gemeint, dass man eine schriftliche Variante von einem Ton oder Video Medium erstellt. Also zum Beispiel für einen Audiopodcast mit Interview, das man dazu eine schriftliche Variante hat. Damit man weiß, wer da was erzählt hat oder dass man ein Skript erhält zu einem Erklärvideo und dann in Ruhe noch mal nachlesen kann, was da genau erklärt wurde oder wie der dritte Schritt funktioniert. Das Ganze gibt es aber mittlerweile auch für Livestreams. Also wenn man jetzt zum Beispiel in einem Onlineworkshop teilnimmt, dann wird parallel ein Transkript des Gesagten erstellt. Dieses Transkript kann man dann einfach als Text weiter verwenden. Oder man geht noch einen Schritt weiter und benutzt das zum Beispiel für Untertitel, wenn man das Video irgendwo hochlädt, zum Beispiel bei YouTube, oder wenn man den Onlineworkshop mitschneidet und daraus ein Video macht, was man dann später noch mal angucken kann, kann man daraus dann gleich Untertitel erstellen. Die sind dann korrekter als die automatisch generierten Untertitel von YouTube und Co.. Solche Transkripte kann man natürlich zum einen händisch erstellen, das ist aber viel Arbeit. Ich weiß, wovon ich spreche, keine angenehme Aufgabe. Oder man kann dafür Tools benutzen, die mit Spracherkennung und intelligenter Software das Ganze vereinfachen und quasi den Großteil schon mal selber transkribieren. Und man muss dann nur noch drüber schauen. Ich persönlich habe dafür Amberscript im Einsatz und bin damit auf jeden Fall zufrieden. Also ich persönlich hatte nicht damit gerechnet, dass die Transkripte in so einer guten Qualität rauskommen durch die automatische Transkription. Klar muss man da noch mal drüber gehen, aber das ist auf jeden Fall viel, viel schneller, als wenn man es händisch machen würde. Außerdem kenne ich noch das Tool Otter.ai – also wie Otter, das Tier. Damit kann man nicht nur normale Transkripte machen, sondern damit kann man zum Beispiel auch Live-Transkripte machen. Ich habe das nicht selber bei mir im Einsatz. Ich nehme aber an einer Workshopreihe teil, wo immer dann im Hintergrund das Live-Transkript von Otter.ai mitläuft. Das finde ich als Besucherin dieses Workshops auf jeden Fall sehr, sehr cool. Jetzt fragt ihr euch vielleicht „Na ja, aber wenn man bei dem Workshop teilnimmt, warum braucht man dann parallel ein Transkript?“ Wenn man irgendwie einen Workshop verpasst hat und dann später die Zusammenfassung durchliest okay, das kann man sich ja irgendwie denken, dass das nützlich ist. Aber warum braucht man das bei Live-Workshops? Dafür gibt es verschiedene Gründe. Also zum Beispiel wenn man nicht die ganze Zeit konzentriert zugucken kann, sondern zwischendurch vielleicht mal wegmuss. Vielleicht betreut man parallel ein Kind und muss dann nach dem Kind gucken. Oder vielleicht kann man sich aus gesundheitlichen Gründen nicht so gut konzentrieren und schweift zwischendurch mal ab. Oder vielleicht lässt die Umgebung es nicht zu, dass man immer konzentriert zuhört. Vielleicht ist man zwischendurch von der Umgebung abgelenkt, aber da gibt es ja viele Gründe. Und jetzt gerade auch zu Zeiten, wo Leute im Homeoffice nicht immer den optimalen, ruhigen Arbeitsplatz haben, hat man da Verständnis für. Wenn man dann also ein Stück verpasst hat, dann kann man quasi einfach im Transkript wieder zurückgehen und dann schnell überfliegen, was zuletzt gesagt wurde. Und dieses Lesen ist in der Regel schneller. Man kann damit schnell Zeit aufholen, sodass man dann nicht viel von dem, was gerade live wieder gesagt und erklärt wird, verpasst. Also das klappt ganz gut, ich habe es ja selber ausprobiert. Dann kann es natürlich auch passieren, dass man vielleicht etwas nicht verstanden hat, entweder einfach akustisch nicht verstanden hat oder weil man es vielleicht in einer Fremdsprache stattfindet und man dann vielleicht die Aussprache nicht richtig verstanden hat. Oder wenn man einfach inhaltlich das Ganze noch mal nachlesen möchte. Auch da hilft es natürlich, wenn man dann hoch scrollen kann, sich das noch mal kurz angucken kann oder sich zum Beispiel direkt raus kopieren in die Notizen, um dann später zum Beispiel noch mal drüber nachzudenken oder sich da noch mal ein Wörterbuch zu schnappen und das noch mal in Ruhe in die eigene Muttersprache zu übersetzen. Da gibt es auf jeden Fall verschiedene Einsatzzwecke, warum das nützlich ist. Egal ob es jetzt ein Live-Transkript ist oder ein herkömmliches, von einem Podcast zum Beispiel, hat das Ganze verschiedene Vorteile. Zum einen ist natürlich Barrierefreiheit ein großer Punkt. Also dass jemand, der sonst den Podcast nicht hören könnte oder Schwierigkeiten hätte, den zu hören, jetzt einfach das Ganze in einem anderen Medium sich zugutekommen lassen kann. Bzw. selbst für Menschen, die eigentlich Podcast hören könnten, mögen das vielleicht einfach nicht so gerne. Vielleicht sind die keine Fans von Podcasts oder auch die Umgebung lässt es hier wieder nicht zu, dass sie sich gerade einen Podcast anhören. Man gibt dadurch einfach mehr Wahlfreiheit, in welchem Medium man sich den Inhalt anhören möchte, also das Gespräch oder das Audio Training oder die Geschichte und so weiter und so fort. Das hat natürlich nur Vorteile für die Konsument:innen und Menschen, die man erreichen möchte. Der zweite Vorteil ist, dass ein Text leichter zu überfliegen ist als ein Podcast-Interview oder Podcast-Gespräch oder ein Video. Klar, man kann da auch springen. Man kann sagen okay, ich spring jetzt ein paar Sekunden vor, das was gerade besprochen wird, interessiert mich nicht. Oder ich hör einfach mal mitten rein oder ich höre mir nur das Ende an. Da ist es aber deutlich schwerer, den Überblick zu behalten, worüber grad gesprochen wird als in einem Text. Vor allem dann natürlich, wenn man den Text dann auch noch ein bisschen formatiert und zum Beispiel mit Überschriften deutlich macht, wo gerade ein neues Thema anfängt oder wo gerade jetzt ein neues Argument besprochen wird oder wo irgendwie ein neuer Abschnitt anfängt. Sprich dieser Text lässt sich viel leichter überfliegen, wenn man zum Beispiel in Eile ist und nur gucken will, was die wichtigsten Punkte waren. Oder wenn man sich erst mal entscheiden möchte, ob das der richtige Workshop oder das richtige Podcast-Interview für mich ist. Sind hier die Informationen drin, zu denen ich mehr erfahren möchte oder nicht? Und das kann dann die Entscheidung erleichtern, ob das das Richtige ist oder nicht. Und dann kann ich sagen okay, das klingt gut, dann gucke ich mir jetzt in Ruhe das Video Training an. Oder okay, das scheint in die Richtung zu gehen, was ich gesucht habe, dann entscheide ich mich jetzt, diesen Podcast anzuhören. Das dritte Argument ist, dass wir mit Textmaterial aus der Transkription dann Material haben, was wir auf unsere Webseite packen können, um die Webseite für die Suchmaschinen zu optimieren. Also Stichwort SEO, das habt ihr bestimmt schon mal gehört. Es ist zwar auch so, dass Videocontent und mittlerweile auch Audiocontent von den Suchmaschinen durchaus als mögliches Ergebnis unserer Suchanfrage erkannt wird, aber natürlich ist es für die Suchmaschinen nach wie vor einfacher, Text zu durchsuchen, um zu bestimmen, was da drin steht und für wen das interessant sein könnte als die anderen Medienformate. Das heißt, wenn man zum Beispiel auf einer Podcastwebseite nicht nur den Player einbezieht, wo man sich die Audiodatei anhören kann, sondern auch gleich ein Transkript, erhält man auf jeden Fall die Chance, dass man über die Suchmaschinen gefunden wird zu den entsprechenden Suchbegriffen. Der vierte und letzte Vorteil, den wir jetzt hier besprechen wollen, es gibt bestimmt noch mehr, ist, dass Text als Ausgangsmaterial leichter zu verarbeiten ist. Also je nachdem, was man dann mit diesem Text machen möchte, ist es einfacher, mit dem Text zu arbeiten als zum Beispiel das Video noch mal um zu schneiden. Sei es, dass man das Ganze kürzen möchte, zum Beispiel eine Zusammenfassung erstellen möchte oder so was wie ein Sitzungsprotokoll mit allem Besprochenen im Meeting. Oder wenn man das Ganze vielleicht irgendwie erweitern möchte, wenn man zum Beispiel von seinen Podcast-Interviews verschiedene Transkripte hat und dann daraus ein E-Book erstellt mit den besten Learnings oder den inspirierenden Zitaten oder den besten Tipps oder was auch immer. Als Text ist es deutlich einfacher, da die relevanten Stellen zu finden, als wenn man das Ganze dann nur als Audio oder nur als Videomaterial hat. Und als Bonus-Vorteil möchte ich noch betonen, dass man dadurch natürlich auch sieht, dass man sich als Creator oder Company oder wer auch immer da kommuniziert, Mühe gibt, Stichwort Barrierefreiheit und leicht zu überfliegen und Wahlmöglichkeit. Das ist natürlich für mich als Nutzerin dann einfacher, das zu nutzen. Und auch hier ist natürlich der Kontext wichtig, wenn ich zum Beispiel einen True-Crime-Podcast habe, es gibt drölftausend True-Crime-Podcasts, jeder Mensch gefühlt erstellt gerade mit zusammen mit der besten Freundin in einem Podcast. Also habe ich da viel Konkurrenz. Warum sollte ich gerade der beste Podcast sein? Wenn ich da also den Menschen so einen Service gebe, kann ich mich dadurch von anderen Podcasts abheben. Wenn es jetzt ein Medium ist in einem Kontext, wo ich nicht so viel Wahlmöglichkeit habe, sondern zum Beispiel: Ich starte einen neuen Job und soll mir da jetzt ein Schulungsvideo angucken, um zu lernen, wie man mit der Software oder so was umgeht. Gut, da habe ich jetzt wie gesagt keine Konkurrenz. Ich muss mir das jetzt angucken. Es zeigt aber, dass der Arbeitgeber oder wer auch immer, der dieses Video mir dann vor die Nase gesetzt hat, mir das Lernen einfacher machen möchte. Wenn er nicht einfach sagt „Guckt dir jetzt hier das Video an, in unserem komischen Player, wo man vielleicht nicht mal die Geschwindigkeit erhöhen oder niedriger machen kann und wo man die Qualität nicht einstellen kann“ Wenn man sich das als Arbeitgeber quasi ganz einfach macht: „Hier guckt das Video, viel Spaß.“ Wenn man aber sagen würde, hier ist das Video, aber wenn du das per Video nicht so gut lernst und lieber den Text durchlesen möchtest, gibts das auch. Das zeigt quasi, dass man sich Gedanken gemacht hat, wie man es den Nutzerinnen und Nutzern einfacher machen kann, damit diese Aufgabe dann jetzt erfolgreich gelöst wird. Also in dem Fall, die Aufgabe, dass ich lerne, wie ich mit der Software umgehen. Okay, zum Schluss noch ein paar Tipps, wenn ihr jetzt selber auch überzeugt seid und Transkriptionen benutzen möchtet für eure digitalen Medien. Ein Tipp wäre auf jeden Fall deutlich zu sprechen. Je deutlicher man spricht, desto einfacher ist es nachher für die Software, das Ganze dann auch wirklich umzuwandeln und dann habt ihr weniger Arbeit. Das ist manchmal schwierig, weil man irgendwelche Fachbegriffe hat. Also zum Beispiel, ich habe mehrere Podcastfolgen über Notion gesprochen, das ist so ein Projektmanagement Tool, kann man super Sachen damit machen, checkt das aus! Und das ist natürlich ein Eigenname, den die Transkription Software nicht kennt. Und deswegen wurde dann aus dem Begriff Notion unter anderem Nürnberg, Neukölln wurde es auch schon und noch irgendwelche anderen komischen Wörter. Wenn man da den Fall hat, dann kann im besten Fall das Tool das schon, Amberscript was ich benutze kann das, wenn man mehrmals sieht, dass aus Notion Nürnberg geworden ist, dass man dann dem Tool das sagt, aus Nürnberg immer Notion zu machen. Wenn das Tool das nicht direkt kann oder wenn man das Transkript in Arbeit gibt und die Person das immer wieder falsch geschrieben hat, kann man natürlich auch einfach ganz normal im Textverarbeitungsprogramm suchen und ersetzen. Der zweite Tipp ist, je klarer man formuliert, desto einfacher ist die Bearbeitung. Also wenn ich jetzt mir noch gar keine Gedanken gemacht habe, was ich in dieser Podcastfolge erzählen möchte, dann würde ich deutlich häufiger mit ähms und ähs arbeiten oder ich würde mitten in der Erklärung den Satz unterbrechen und noch mal von Neuem anfangen, weil mir plötzlich eine bessere Idee gekommen ist, wie ich das erklären kann. Das macht dann auch das Transkript schwieriger zu bearbeiten. Denn es gibt einen großen Unterschied zwischen mündlicher Sprache und schriftlicher Sprache. Falls ihr nicht zufällig Sprachwissenschaftler:innen seid und euch jetzt gerade Fragezeichen über dem Kopf erscheinen mit mündlicher und schriftlicher Sprache, ihr kennt das Phänomen auf jeden Fall. Wenn ihr zum Beispiel mal einen Podcast angehört habt oder sonst irgendwie an etwas teilgenommen hat, habt wo jemand gesprochen hat, das Ganze hat sich aber total komisch, steif und unnatürlich angehört. Die Chance ist sehr groß, dass in dem Fall die Person sich vorbereitet und etwas geschrieben hat. Also ein Skript für einen Podcast oder eine schriftliche Rede zum Beispiel, die die Person dann vorgetragen hat und das eben auf eine sehr schriftliche Art und Weise erstellt hat. Und wenn man das dann nicht mal übt, dann fällt einem gar nicht auf, dass das gesprochen total komisch klingt, weil unsere Sprache mündlich einfach ganz anders ist. Wir haben andere Sätze. Die Sätze sind entweder kürzer oder es sind einfach mehrere Sätze aneinandergekettet. Wir benutzen manche Wörter im Mündlichen nicht, nur im Schriftlichen. Generell unvollständige Wortstrukturen fallen im Mündlichen viel weniger auf als im Schriftlichen. Und manche Sachen kommen vor allem durch die Betonung oder durch andere – Ich kanns jetzt gar nicht richtig erklären, das Studium ist schon lange her. Es gibt auf jeden Fall verschiedene Elemente, die in der mündlichen Sprache ganz normal sind. Da würde niemand irgendwie komisch gucken, wenn ich so spreche. Wenn ich so schreibe, wäre das aber ganz komisch. Und andersherum: Wenn ich so schreibe, dann klingt das ganz normal, als E-Mail würde das super klingen, wenn ich es aber vorlese, klingt es komisch und unnatürlich und das ist nicht gut. Deswegen macht es Sinn, dass ihr euch vorher schon Gedanken macht, was ihr sagen möchtet, aber eben weder komplett Freestlye da reingeht und einfach vor euch hin plappert, noch ein richtiges Wort-für-Wort Skript habt, was ihr abliest. Beides ist nicht gut, sondern versucht einfach einen guten Mittelweg zu finden. Mit Notizen, mit Stichwörtern, worüber ihr reden möchtet, aber gleichzeitig noch frei genug, dass ihr normal redet, aber präzise genug, dass ihr nicht ins Plappern kommt. Und dann ist es in der Regel für euch einfacher, dieses Transkript zu bearbeiten. Und das Transkript hat dann eine gute Qualität, wo sowohl der mündliche Ausgangspunkt gut klingt als auch das Transkript gut zu lesen ist. Der dritte Tipp ist, ihr müsst das auf jeden Fall nachbearbeiten. Also Stand 2022 ist kein Tool so gut, dass einfach euer Transkript komplett perfekt da rauskommt. Vielleicht ist es in ein paar Jahren so weit, aktuell noch nicht. Das bedeutet für euch, dass ihr auch die Zeit einplanen müsst, um dieses Transkript weiter zu bearbeiten. Wenn ihr also einfach denkt „okay, ich lade meine Datei hoch, klicke auf OK, dann lade ich das Ergebnis wieder runter und stelle das auf die Webseite und das Ganze dauert 60 Sekunden“ Nein, das funktioniert so leider nicht. Also plant euch da die Zeit ein oder schaut, wenn ihr das nicht selber machen könnt oder wollt, dass ihr das zum Beispiel mit eurem Team aufteilt und da ein Workflow schafft, wie dieses Transkript dann in euren Contentworkflow mit eingebunden wird. Probiert das gerne mal aus!

Tools

  • Otter.ai
  • Amberscript