KI-Training: Wie Hollywood beim Aufbau des potenziellen Nachfolgers half
Paul Grieselhuber
Alex Reisner beleuchtet in seinem aufschlussreichen Artikel, der gestern in The Atlantic veröffentlicht wurde, die riesigen Datenbestände, die die KI-Revolution vorantreiben. Im Mittelpunkt seiner Untersuchung steht "The Pile", ein Open-Source-Datensatz, der Ressourcen wie OpenSubtitles.org umfasst - eine riesige Sammlung von Untertiteln von Fernsehsendungen und Filmen. Reisner zeigt auf, wie Datensätze wie diese, die zum Trainieren modernster Sprachmodelle verwendet werden, erhebliche rechtliche und ethische Fragen aufwerfen, insbesondere in Bezug auf das Urheberrecht.
Während diese Datensätze unbestreitbar die KI-Innovation beschleunigt haben, bringt ihr Rückgriff auf urheberrechtlich geschütztes Material die Spannung zwischen technologischem Fortschritt und kreativem Eigentum in den Vordergrund.
Die Rolle von The Pile und OpenSubtitles beim KI-Training
The Pile ist einer der einflussreichsten Open-Source-Datensätze für das Training von KI-Modellen. Er umfasst mehr als 800 GB an Daten und beinhaltet alles von akademischen Arbeiten und Web-Crawls bis hin zu spezifischen kulturellen Artefakten wie Filmuntertiteln. Insbesondere OpenSubtitles hat sich zu einem unschätzbaren Werkzeug entwickelt, um KI beizubringen, wie Menschen in Konversationsumgebungen kommunizieren.
Der Datensatz ermöglicht es KI-Modellen, die Nuancen von Dialogen, das Tempo und sogar die emotionale Resonanz zu lernen. Doch gerade diese Ressource wird nun kritisch hinterfragt. Die überwiegende Mehrheit der Untertitel in OpenSubtitles stammt aus urheberrechtlich geschützten Werken wie Fernsehdrehbüchern, Filmdialogen und anderen kreativen Inhalten. Für KI-Unternehmen liegen die Vorteile auf der Hand: eine Fülle hochwertiger, bereits vorhandener Sprachdaten. Für die Urheber sieht die Sache jedoch anders aus, da ihre Arbeit ohne Zustimmung oder Vergütung verwendet wird.
Das Problem geht über die Legalität hinaus. Es wirft ethische Bedenken auf, wenn man von der intellektuellen Arbeit der Schöpfer profitiert und gleichzeitig riskiert, dass ihre Existenzgrundlage ausgehöhlt wird.
Hollywoods wachsende Gegenwehr
Die Unterhaltungsindustrie nimmt dies nicht ruhig hin. Klagen gegen KI-Unternehmen werden immer häufiger. So verklagte die Komikerin Sarah Silverman im Jahr 2023 OpenAI und Meta, weil ihr urheberrechtlich geschütztes Buch ohne Erlaubnis zum Trainieren von KI-Modellen verwendet wurde. Dieser Fall ist sinnbildlich für einen umfassenderen Konflikt, in dem Urheber Transparenz und eine faire Entschädigung für die Verwendung ihrer Werke in der KI-Entwicklung fordern.
Hollywoods Autoren und Schauspieler, die sich bereits mit dem Potenzial der KI, menschliche Arbeit zu ersetzen, auseinandersetzen, beginnen nun, weitergehende rechtliche Schritte zu prüfen. Die jüngsten Entdeckungen über die Rolle von OpenSubtitles beim Training von KI-Systemen haben ihre Entschlossenheit nur noch verstärkt. Brancheninsider vermuten, dass es in den kommenden Monaten zu einer Klagewelle kommen könnte, wie sie in den Anfängen des Streaming in der Musikindustrie zu beobachten war.
Die Forderungen der Unterhaltungsindustrie sind eindeutig: Wenn KI-Systeme von Hollywoods kreativem Output profitieren, sollten diejenigen, die zu diesem Output beigetragen haben, entschädigt werden. Dies ist nicht nur ein juristischer Kampf - es ist ein Kampf um die Zukunft der kreativen Arbeit.
Die unbeabsichtigte Ironie
An dieser Stelle nimmt die Geschichte eine Wendung. Genau die Drehbücher, Darbietungen und Erzähltechniken, die Hollywood zu einer Ikone gemacht haben, sind nun ein wesentlicher Bestandteil der KI-Systeme, die die Branche umwälzen werden. Ohne den jahrzehntelangen kreativen Output Hollywoods würde der KI der sprachliche Reichtum und die erzählerische Tiefe fehlen, die sie derzeit an den Tag legt. In gewissem Sinne hat die Branche unbewusst eine entscheidende Rolle beim Aufbau ihres potenziellen Ersatzes gespielt.
Diese Ironie ist schwer zu übersehen. KI-Modelle, die anhand von Hollywoods kreativen Werken trainiert wurden, sind heute in der Lage, Dialoge zu generieren, Drehbücher zu schreiben und sogar Auftritte zu simulieren. Die aus diesen Datensätzen entwickelten Tools bedrohen nicht nur die Branche - sie spiegeln ihr eigenes künstlerisches Schaffen wider, wenn auch ohne menschliche Schöpfer.
Die Frage nach der Verantwortung stellt sich in hohem Maße. Hätte Hollywood sein geistiges Eigentum proaktiver schützen müssen? Oder wird die Branche auf unfaire Weise von Unternehmen ausgenutzt, die auf Kosten der Schöpfer nach Innovationen streben?
Ethik im Zeitalter der KI
Das Spannungsverhältnis zwischen Innovation und Ethik ist nicht nur in Hollywood zu beobachten. Andere Industrien werden wahrscheinlich mit ähnlichen Dilemmas konfrontiert werden, wenn KI allgegenwärtig wird. Die Unterhaltungsbranche ist jedoch ein warnendes Beispiel für die Risiken, die entstehen, wenn man ohne Schutzmaßnahmen zum technologischen Fortschritt beiträgt.
Für Kreative ist dieser Moment ein Aufruf zum Handeln. Für Verbraucher und Entwickler ist es eine Gelegenheit, darüber nachzudenken, wie Innovation verantwortungsvoll vorangetrieben werden sollte. Da KI-Systeme immer leistungsfähiger werden, muss sichergestellt werden, dass sie sich so entwickeln, dass die menschliche Kreativität, die sie ermöglicht hat, respektiert und unterstützt wird.
Hollywoods Dilemma ist eine ergreifende Erinnerung daran, dass selbst die fortschrittlichsten Branchen mit den unbeabsichtigten Folgen ihrer Beiträge zum technischen Fortschritt rechnen müssen.
Referenzen
- Reisner, A. (2024). Revealed: The Authors Whose Pirated Books Are Powering Generative AI. The Atlantic. Available online. Accessed: 18. November 2024.
- Gao, L., & Biderman, S. (2020). The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv preprint arXiv:2101.00027. Available online. Accessed: 18. November 2024.
- Hern, A. (2024). Author Lawsuit Against Anthropic AI Raises New Copyright Questions. The Guardian. Available online. Accessed: 18 November 2024.
- Hern, A. (2023). Scarlett Johansson in AI Controversy Over Fake Ad. The Guardian. Available online. Accessed: 18 November 2024.
- Belanger, A. (2023). Sarah Silverman verklagt OpenAI, Meta for Being 'Industrial-Strength Plagiarists'. Ars Technica. Available online. Accessed: 18. November 2024.
- New Scientist (2024). AI Firms Will Face Copyright Infringement Lawsuits in 2024. Available online. Accessed: 18. November 2024.