AI-training: Hoe Hollywood hielp bij het bouwen van zijn potentiële vervanger

Alex Reisner werpt in zijn inzichtelijke artikel dat gisteren is gepubliceerd in The Atlantic een licht op de enorme hoeveelheden gegevensbronnen die de AI-revolutie voeden. De kern van zijn onderzoek is The Pile, een open-source dataset die bronnen bevat zoals OpenSubtitles.org-een enorme opslagplaats van ondertitels van tv-programma's en films. Reisner laat zien hoe datasets als deze, die gebruikt worden om geavanceerde taalmodellen te trainen, belangrijke juridische en ethische vragen oproepen, vooral met betrekking tot auteursrecht.

Hoewel deze datasets de innovatie van AI ontegenzeggelijk hebben versneld, brengt hun gebruik van auteursrechtelijk beschermd materiaal de spanning tussen technologische vooruitgang en creatief eigendom scherp in beeld.

De rol van The Pile en OpenSubtitles in AI-training

The Pile is een van de meest invloedrijke open-source datasets voor het trainen van AI-modellen. Deze dataset bestaat uit meer dan 800 GB aan gegevens en bevat alles van academische papers en webcrawls tot specifieke culturele artefacten zoals ondertitels van films. Met name OpenSubtitles is een hulpmiddel van onschatbare waarde geworden om AI te leren hoe mensen communiceren in gesprekssituaties.

De dataset stelt AI-modellen in staat om de nuances van dialogen, tempo en zelfs emotionele resonantie te leren. Maar juist deze bron wordt kritisch bekeken. De overgrote meerderheid van de ondertitels in OpenSubtitles zijn afkomstig van auteursrechtelijk beschermde werken - tv-scripts, filmdialogen en andere creatieve bronnen. Voor AI-bedrijven zijn de voordelen duidelijk: een schat aan hoogwaardige, reeds bestaande taalgegevens. Voor makers is het echter een ander verhaal, omdat hun werk wordt gebruikt zonder toestemming of compensatie.

Het probleem gaat verder dan legaliteit. Het roept ethische vragen op over het profiteren van de intellectuele arbeid van makers, terwijl tegelijkertijd het risico bestaat dat hun levensonderhoud wordt aangetast.

De groeiende terugslag van Hollywood

De entertainmentindustrie doet hier niet rustig over. Rechtszaken tegen AI-bedrijven komen steeds vaker voor. Zo klaagde de komiek Sarah Silverman in 2023 OpenAI en Meta aan omdat haar auteursrechtelijk beschermde boek zonder toestemming was gebruikt om AI-modellen te trainen. Deze zaak is emblematisch geworden voor een breder conflict, nu makers transparantie en een eerlijke compensatie eisen voor het gebruik van hun werk in AI-ontwikkeling.

De schrijvers en acteurs van Hollywood, die al worstelen met het potentieel van AI om menselijke arbeid te vervangen, beginnen bredere juridische acties te onderzoeken. Recente ontdekkingen over de rol van OpenSubtitles in het trainen van AI-systemen hebben hun vastberadenheid alleen maar versterkt. Insiders uit de industrie suggereren dat er de komende maanden een golf van rechtszaken zou kunnen komen, vergelijkbaar met die van de muziekindustrie in de begindagen van streaming.

De eisen van de entertainmentindustrie zijn duidelijk: als AI-systemen profiteren van de creatieve output van Hollywood, moeten degenen die aan die output hebben bijgedragen worden gecompenseerd. Dit is niet alleen een juridisch gevecht - het is een gevecht voor de toekomst van creatief werk.

De onbedoelde ironie

Hier neemt het verhaal een wending. De scripts, voorstellingen en verteltechnieken die Hollywood tot een icoon hebben gemaakt, zijn nu een integraal onderdeel van de AI-systemen die klaar staan om de industrie te ontwrichten. Zonder de decennialange creatieve productie van Hollywood zou AI de taalkundige rijkdom en narratieve diepgang missen die het nu laat zien. In zekere zin heeft de industrie onbewust een cruciale rol gespeeld bij de ontwikkeling van haar potentiële vervanger.

Deze ironie is moeilijk te negeren. AI-modellen die zijn getraind op de creatieve werken van Hollywood zijn nu in staat om dialogen te genereren, scripts te schrijven en zelfs optredens te simuleren. De tools die op basis van deze datasets worden gebouwd, vormen niet alleen een bedreiging voor de industrie - ze weerspiegelen ook haar eigen kunstzinnigheid, zij het zonder menselijke makers.

De vraag naar verantwoordelijkheid doemt op. Had Hollywood proactiever moeten zijn in het beschermen van zijn intellectuele eigendom? Of wordt de industrie oneerlijk uitgebuit door bedrijven die op zoek zijn naar innovatie ten koste van de makers?

Ethiek in het tijdperk van AI

De spanning tussen innovatie en ethiek is niet uniek voor Hollywood. Andere industrieën zullen waarschijnlijk voor soortgelijke dilemma's komen te staan naarmate AI algemener wordt. Maar de entertainmentsector biedt een waarschuwend verhaal over de risico's van het bijdragen aan technologische vooruitgang zonder de nodige voorzorgsmaatregelen.

Voor makers is dit moment een oproep tot actie. Voor consumenten en ontwikkelaars is het een kans om na te denken over hoe innovatie op verantwoorde wijze moet worden nagestreefd. Nu AI-systemen steeds capabeler worden, is het essentieel om ervoor te zorgen dat ze zich ontwikkelen op een manier die de menselijke creativiteit die ze mogelijk heeft gemaakt, respecteert en ondersteunt.

Hollywoods hachelijke situatie is een schrijnende herinnering: zelfs de meest vooruitdenkende industrieën moeten rekening houden met de onbedoelde gevolgen van hun bijdragen aan de technologische vooruitgang.

Referenties

Reisner, A. (2024). Onthuld: The Authors Whose Pirated Books Are Powering Generative AI. The Atlantic. Available online. Geraadpleegd: 18 november 2024.
Gao, L., & Biderman, S. (2020). De Stapel: Een 800 GB grote dataset van uiteenlopende tekst voor taalmodellering. arXiv preprint arXiv:2101.00027. Available online. Geraadpleegd: 18 november 2024.
Hern, A. (2024). Author Lawsuit Against Anthropic AI Raises New Copyright Questions. The Guardian. Available online. Geraadpleegd: 18 november 2024.
Hern, A. (2023). Scarlett Johansson in AI-controverse over nepadvertentie. The Guardian. Available online. Geraadpleegd: 18 november 2024.
Belanger, A. (2023). Sarah Silverman klaagt OpenAI, Meta aan omdat ze 'plagiaat plegen op industriële schaal'. Ars Technica. Available online. Geraadpleegd: 18 november 2024.
New Scientist (2024). AI-bedrijven krijgen in 2024 te maken met rechtszaken wegens inbreuk op auteursrecht. Available online. Geraadpleegd op: 18 november 2024.