- Neu
E-Book, Deutsch, 158 Seiten
Engemann Die Zukunft des Lesens
1. Auflage 2025
ISBN: 978-3-7518-3042-3
Verlag: Matthes & Seitz Berlin
Format: EPUB
Kopierschutz: 6 - ePub Watermark
E-Book, Deutsch, 158 Seiten
ISBN: 978-3-7518-3042-3
Verlag: Matthes & Seitz Berlin
Format: EPUB
Kopierschutz: 6 - ePub Watermark
Das Lesen ist in der Krise, das Schreiben wird durch generative KI automatisiert: Die Alphabetisierung ist im Wandel begriffen. Verlage, Bildungseinreichtungen, die Presse und andere Institutionen der Schriftkultur finden sich in der Defensive wieder. Deren Fixierung auf Literalität übersieht, dass KI es den Plattformen ermöglich hat, das Verhältnis von Mündlichkeit und Schriftlichkeit neu zur Verhandlung zu stellen. Auf Plattformen werden das gesprochene und das geschriebene Wort mit weitreichenden kulturellen, politischen und sozialen Folgen rekombiniert: Wo KI verbale Äußerungen und Texte gleichermaßen verarbeiten kann, beginnen orale über literale Formate zu dominieren. Damit läuft das Lesen Gefahr, eine Kulturtechnik der Wenigen zu werden.
In zeigt Christoph Engemann, wie die neuartige Plattform-Oralität von Podcasts, Onlinevideo und TikTok nicht nur das Lesen verändert, sondern deren KI-gestützte Monopolisierung auch die Offenheit der Sprache infrage stellt.
Autoren/Hrsg.
Weitere Infos & Material
2. Schreibzeug & Plattform-Oralität
Es ist aber nicht nur geschriebener Text, sondern vor allem mündliche Rede, die die derzeitige KI-Revolution des Schreibens hervorgebracht hat. Lange bevor ChatGTP und LLMs ihre öffentlichkeitswirksamen Auftritte machten, fand eine außerhalb der Fachkreise weitgehend unbemerkte Revolution in der Verarbeitung von Sprache statt. Das Problem, Computern mündliche Rede verständlich zu machen und so nicht mehr auf Tastatureingaben angewiesen zu sein, hat die Informatik jahrzehntelang beschäftigt. Schon kurz nach der Entwicklung digitaler Computer in den 1940er Jahren wurden erste Versuche unternommen, aus Mikrofoneingaben Texte zu generieren.
Das Abhören von Telefongesprächen und Funkverbindungen im Kalten Krieg bildete den Hintergrund für diese mit großem finanziellem Aufwand betriebenen Projekte. Zusammen mit Versuchen zur automatischen Übersetzung vor allem vom Russischen ins Englische gehörten diese Unternehmungen zu den ersten großen Projekten des sogenannten »Natural Language Processing«.51 Dort, wo der Begriff »natürlich« im Zusammenhang mit Computern auftritt, ist schon angezeigt, dass eine Sphäre der Ambiguität, der Unordnung und Uneindeutigkeit adressiert ist. Nirgends wird das deutlicher als in der Begegnung des Computers mit der menschlichen Sprache. Den sprachlichen Äußerungen von Menschen wird im (proto-)informatischen Diskurs seit den 1950er-Jahren das Attribut »natural« zugewiesen. Computer gelten dagegen als Domäne der Formalität, die in Sprachen, deren Präfix »formal« lautet, programmiert werden. Der universalistische Anspruch der universellen Maschine scheiterte in ihrer Geschichte regelmäßig an Natürlichsprachlichkeit. Gerade an der Sprache erwiesen sich Computer paradoxerweise als einfältig. Im als Georgetown-IBM-Experiment bekannt gewordenen Projekt sollten 195249 russischsprachige Sätze automatisiert ins Englische übersetzt werden.52 Die zunächst vielversprechenden Ergebnisse verführten die Forscher dazu, gegenüber den Geldgebern zu behaupten, dass das Übersetzungsproblem in vier bis fünf Jahren gelöst sei. Das Scheitern dieses Projekts an »natürlicher« Sprache war ein wesentlicher Faktor für das Ausbleiben weiterer Forschungsgelder für Künstliche Intelligenz Ende der 1960er-Jahre. Für rund fünfzehn Jahre wurden vor diesem Hintergrund Projekte der Künstlichen Intelligenz vorerst nur noch als kuriose Orchideenunternehmungen angesehen. Heute ist diese Zeit als erster KI-Winter bekannt.
An automatisierten Übersetzungen, aber auch an Verfahren zum automatischen Transkribieren von Funksprüchen und Radiosendungen wurde weiterhin gearbeitet. Bis in die 2010er-Jahre allerdings blieb Speech-to-Text (STT), häufig auch Automatic Speech Recognition (ASR) genannt, das heißt die Umwandlung von gesprochener Sprache in Text, ein hartes Problem der Informatik. Bereits ab den 1970ern und bis in die 1990er-Jahre investierte die Forschungsagentur des Pentagon DARPA enorme Summen in die Entwicklung entsprechender Software.53 Im Resultat gab es auch für Konsument:innen sichtbare Fortschritte, wie etwa das Diktierprogramm Dragon Dictate. Insgesamt blieb Speech-to-Text aber trotz jahrzehntelanger Bemühungen hinter den Erwartungen zurück. Die dramatischen Unterschiede in der Audioqualität, bei Umgebungsgeräuschen und in der Inflektion der Sprecher verkomplizierten die zuverlässige Identifikation der gesprochenen Wörter. Fehlerraten von fünfzig Prozent und mehr waren noch 2010 üblich. Doch bereits im Jahr 2017 waren diese auf unter fünf Prozent gesunken54 und nähern sich mittlerweile der beinahe fehlerlosen Erkennung an. Erst in den 2020er-Jahren ist das seit den 1950er-Jahren herbeigesehnte Sprechen mit Computern Alltag geworden. Die enge Verpflechtung von KI und Spracherkennung kann hier nur verknappt wiedergegeben werden und harrt der weiteren medienhisorischen Forschung. Tatsächlich haben aber alle Pioniere der gegenwärtigen, gemeinhin auf 2012 mit der Veröffentlichung von AlexNet datierten kommerziellen KI-Revolution intensiv an Speech Recognition Verfahren gearbeitet. Das gilt für prominente Figuren wie den Turing-Preisträgern Yoshua Bengio, Geoffery Hinton und Yann Le Cun, die als »Godfathers of AI« bezeichnet werden, ebenso wie für Jürgen Schmidhuber, der wichtige Grundlagen rekurrenter neuronaler Netze entwickelt hat. Bengio hatte 1991 seine Dissertation zum Einsatz neuronaler Netze bei der Spracherkennung vorgelegt55 und große Teile seiner späteren Forschungskarriere mit diesem Problem verbracht. Der zwischen 2013 und 2023 bei Google tätige und für seine Forschungen an künstlichen neuronalen Netzen 2024 mit dem Nobelpreis für Physik ausgezeichnete Geoffery Hinton hat ebenfalls eine ganze Reihe von Papers zur Spracherkennung mitverfasst, die bis in die 1980er-Jahre zurückgehen. So ist Hinton beispielsweise ab 2010 Ko-Autor mehrerer Papers, die die Mächtigkeit von Deep-Learning-KIs für Speech Recognition, teilweise mit explizitem Bezug auf das zu Google gehörende YouTube als Anwendungsfall, zeigen.56 Das Grundproblem automatischer Spracherkennung besteht in der Zuordnung von akustischen Wellenformen zu Sprache. Dabei wird verbal geäußerte Sprache computerintern fast ausschließlich zunächst in Schriftsprache, in Texte, übersetzt. Für Text existieren historisch gewachsene, effiziente und zuverlässige Formate, Protokolle und Algorithmen,57 die Computern die Weiterverarbeitung der in Texte übersetzten Wellenformen ermöglichen.
Für Nutzer:innen erfahrbar werden diese Fortschritte, aber auch Schwierigkeiten der Automatic Speech Recognition am unmittelbarsten an sprachgesteuerten Digitalassistenten wie Siri, Alexa und Cortana, die ab 2011 zunächst von Apple, dann von Amazon, Microsoft und Google eingeführt wurden. Ein sehr viel wichtiger Schauplatz dieser KI-basierten Revolution war jedoch die Verarbeitung von Onlinevideos und Podcasts. Inzwischen ist »Podcast« zu einem Containerbegriff für nahtlos zwischen reinen Audiostreams, Videostreams, Reels auf TikTok und Instagram, aber auch in Transkriptionen von Interviews kursierenden Sprechperformanzen switchenden Verlautbarungsformen geworden. 2004 vom Guardian-Journalisten Ben Hammersley geprägt,58 handelt es sich heute um ein die Plattformökonomie prägendes und weiterverzweigtes Dispositiv aus diskursiven Praktiken, medientechnischen Affordanzen und strategischen Assemblagen. Das Smartphone existierte zum Zeitpunkt der Publikation von Hammersleys Text noch nicht und die von ihm beschriebenen Entwicklungen im Internet waren kaum vier Jahre alt. Noch im Jahr 2000 hatte der Blogger Tristan Louis auf einer Mailingliste vorgeschlagen, das RSS-Protokoll und Interviews enthaltende Audiofiles zu kombinieren. Statt des damals im Internet notwendigen aktiven Aufsuchens einer Website, sollte Real Simple Syndication oder RSS die Inhalte von Blogs automatisiert bereitstellen. RSS war für die um das Jahr 2000 explosionsartig wachsenden textbasierten Bloggingformate entwickelt worden. Gleichzeitig entstanden sogenannte Audioblogs, auf denen statt Texten Audiodateien im Stile von Radiosendungen veröffentlicht wurden. Der Programmierer David Winer nahm Tristan Louis Vorschlag auf und erweiterte RSS um eine Funktion für die Einbindung von Audiodateien. Die Software portabler Audioplayer, später auch des iPods, konnte die aktuellen Folgen mitsamt Metadaten anzeigen. Dazu gehörten der Podcast-Titel, eine Summary des Inhalts sowie Angaben über die Sprache, Zeitstempel und die Kategorisierung des Inhalts mittels Stichworten, inklusive Hinweise auf sensiblen Content. Selbst noch 2007, als mit Apples iPhone das erste Smartphone auf den Markt kam, waren Podcasts Downloads, die auf den Endgeräten mit dem knappen Speicherplatz konkurrierten. Heute werden Podcasts nicht mehr lokal, sondern in den Clouds der Plattformen gespeichert, und an die Smartphones via 4G und 5G Netzwerke gestreamt. Die häufig verschlüsselten und komprimierten Datenströme bleiben dabei ephemer, und in den Smartphones liegen jeweils nur kurze Sequenz lokal vor.
Ziel von RSS war die Dezentralisierung von Blog- und Podcastproduktion, die sich sukzessive durch eine Plattformisierung von Podcast in ihr Gegenteil verkehrt hat. Für Plattformen war die Indexikalisierung von Podcasts durch RSS vereinfacht worden Die RSS-Metadaten der Podcasts boten bei der Weiterverarbeitung von Audiocontent – und das bedeutet gesprochene Sprache – wichtige Informationen für die KI-basierte und automatisierte Contentextraktion.
Schreibzeug – Sprechzeug
Podcast ist ein verkürzter Begriff für das inzwischen entstandene komplexe und ausgreifende Dispositiv, in dem – um das von Friedrich Kittler in den 1980er-Jahren strategisch mobilisierte Nietzche-Zitat »Unser Schreibzeug arbeitet mit an unseren Gedanken«59 zu adaptieren – das Sprechzeug an den Gedanken mitarbeitet. Sprechzeug ist das heterogene Ensemble aus Smartphones, Kopfhörern, Smartspeakern, Autoradios, Podcasts, Videostreaming und Reels, den Graphennahmen der Plattformen, deren KI-basierte und automatisierte Contentextraktion mitsamt der im Folgenden nachgezeichneten KIs zur automatischen Spracherkennung, den großen Sprachmodellen, der werbebasierten Feedkonstruktion auf den Graphen, flankiert von den regulatorischen Bedingungen und Entscheidungen, Gesetzen und Architekturen, die dieses Dispositiv mit...