Formazione AI: Come Hollywood ha aiutato a costruire il suo potenziale sostituto

Alex Reisner, nel suo acuto articolo pubblicato ieri su The Atlantic, fa luce sulle vaste fonti di dati che alimentano la rivoluzione dell'intelligenza artificiale. Al centro della sua indagine c'è The Pile, un set di dati open-source che comprende risorse come OpenSubtitles.org un vasto archivio di sottotitoli di spettacoli televisivi e film. Reisner sottolinea come dataset come questi, utilizzati per addestrare modelli linguistici all'avanguardia, sollevino importanti questioni legali ed etiche, in particolare per quanto riguarda il copyright.

Se da un lato questi dataset hanno innegabilmente accelerato l'innovazione dell'IA, dall'altro la loro dipendenza da materiale protetto da copyright mette a fuoco la tensione tra progresso tecnologico e proprietà creativa.

Il ruolo di The Pile e OpenSubtitles nell'addestramento dell'IA

The Pile è uno dei più influenti dataset open-source per l'addestramento di modelli di IA. Composto da oltre 800 GB di dati, include qualsiasi cosa, da documenti accademici e web crawl a specifici artefatti culturali come i sottotitoli dei film. OpenSubtitles, in particolare, è diventato uno strumento prezioso per insegnare alle IA come gli esseri umani comunicano in contesti di conversazione.

Il set di dati consente ai modelli di intelligenza artificiale di apprendere le sfumature del dialogo, il ritmo e persino la risonanza emotiva. Ma è proprio questa risorsa a essere sotto esame. La maggior parte dei sottotitoli presenti in OpenSubtitles proviene da opere protette da copyright: sceneggiature televisive, dialoghi cinematografici e altre risorse creative. Per le aziende che si occupano di AI, i vantaggi sono evidenti: una ricchezza di dati linguistici preesistenti e di alta qualità. Per i creatori, invece, la storia è diversa, perché il loro lavoro viene utilizzato senza consenso o compenso.

Il problema va oltre la legalità. Solleva preoccupazioni di carattere etico sul fatto di trarre profitto dal lavoro intellettuale dei creatori, rischiando al contempo di erodere i loro mezzi di sostentamento.

La crescente reazione di Hollywood

L'industria dell'intrattenimento non sta prendendo la cosa sottogamba. Le cause legali contro le aziende di IA sono sempre più frequenti. Ad esempio, la comica Sarah Silverman ha citato in giudizio OpenAI e Meta nel 2023, sostenendo che il suo libro protetto da copyright è stato utilizzato senza autorizzazione per addestrare i modelli di IA. Questo caso è diventato emblematico di un conflitto più ampio, in quanto i creatori chiedono trasparenza e un giusto compenso per l'uso del loro lavoro nello sviluppo dell'IA.

Gli scrittori e gli attori di Hollywood, già alle prese con il potenziale dell'IA di sostituire il lavoro umano, stanno iniziando a esplorare azioni legali più ampie. Le recenti scoperte sul ruolo di OpenSubtitles nell'addestramento dei sistemi di IA non hanno fatto altro che rafforzare la loro determinazione. Secondo gli addetti ai lavori, nei prossimi mesi si potrebbe assistere a un'ondata di cause legali che rispecchiano quelle dell'industria musicale agli albori dello streaming.

Le richieste dell'industria dell'intrattenimento sono chiare: se i sistemi di intelligenza artificiale traggono vantaggio dalla produzione creativa di Hollywood, coloro che hanno contribuito a tale produzione devono essere compensati. Non si tratta solo di una battaglia legale, ma di una battaglia per il futuro del lavoro creativo.

L'involontaria ironia

Qui la storia prende una piega. Le stesse sceneggiature, le interpretazioni e le tecniche di narrazione che hanno reso Hollywood un'icona sono ora parte integrante dei sistemi di IA pronti a sconvolgere il settore. Senza i decenni di produzione creativa di Hollywood, l'IA non avrebbe la ricchezza linguistica e la profondità narrativa che dimostra attualmente. In un certo senso, l'industria ha svolto un ruolo inconsapevole ma cruciale nella costruzione del suo potenziale sostituto.

Questa ironia è difficile da ignorare. I modelli di intelligenza artificiale addestrati sulle opere creative di Hollywood sono ora in grado di generare dialoghi, scrivere sceneggiature e persino simulare performance. Gli strumenti costruiti a partire da questi set di dati non minacciano solo l'industria, ma riflettono la sua stessa arte, anche se senza la partecipazione di creatori umani.

La questione della responsabilità incombe. Hollywood avrebbe dovuto essere più proattiva nel proteggere la sua proprietà intellettuale? Oppure il settore viene sfruttato ingiustamente da aziende che cercano l'innovazione a spese dei creatori?

Etica nell'era dell'intelligenza artificiale

La tensione tra innovazione ed etica non è esclusiva di Hollywood. È probabile che altri settori si trovino ad affrontare dilemmi simili man mano che l'IA diventa più pervasiva. Ma il settore dell'intrattenimento offre una storia cautelativa sui rischi che si corrono contribuendo al progresso tecnologico senza che vengano adottate delle misure di salvaguardia.

Per i creatori, questo momento è una chiamata all'azione. Per i consumatori e gli sviluppatori, è un'opportunità per riflettere su come l'innovazione debba essere perseguita in modo responsabile. Mentre i sistemi di intelligenza artificiale diventano sempre più capaci, è fondamentale garantire che si evolvano in modi che rispettino e sostengano la creatività umana che li ha resi possibili.

La situazione di Hollywood ci ricorda che anche le industrie più lungimiranti devono fare i conti con le conseguenze indesiderate del loro contributo al progresso tecnologico.

Riferimenti

Reisner, A. (2024). Rivelati: Gli autori i cui libri piratati alimentano l'intelligenza artificiale generativa. The Atlantic. Available online. Accesso: 18 novembre 2024.
Gao, L., & Biderman, S. (2020). Il mucchio: An 800GB Dataset of Diverse Text for Language Modeling. arXiv preprint arXiv:2101.00027. Available online. Accesso: 18 novembre 2024.
Hern, A. (2024). La causa di un autore contro l'IA antropica solleva nuove questioni di copyright. The Guardian. Available online. Accesso: 18 novembre 2024.
Hern, A. (2023). Scarlett Johansson nella polemica sull'AI per un annuncio falso. The Guardian. Available online. Accesso: 18 novembre 2024.
Belanger, A. (2023). Sarah Silverman cita in giudizio OpenAI, Meta per essere "plagiatori di livello industriale ". Ars Technica. Available online. Accesso: 18 novembre 2024.
New Scientist (2024). Le aziende di IA dovranno affrontare cause per violazione di copyright nel 2024. Available online. Accesso: 18 novembre 2024.