Formation à l'IA : Comment Hollywood a contribué à la construction de son remplaçant potentiel
Paul Grieselhuber
Alex Reisner, dans son article perspicace publié hier dans The Atlantic, fait la lumière sur les vastes sources de données qui alimentent la révolution de l'IA. Au cœur de son enquête se trouve The Pile, un ensemble de données en libre accès qui comprend des ressources telles que OpenSubtitles.org, un vaste répertoire de sous-titres d'émissions télévisées et de films. M. Reisner souligne que de tels ensembles de données, utilisés pour former des modèles linguistiques de pointe, soulèvent d'importantes questions juridiques et éthiques, notamment en ce qui concerne les droits d'auteur.
Si ces ensembles de données ont indéniablement accéléré l'innovation en matière d'intelligence artificielle, leur utilisation de matériel protégé par le droit d'auteur met en évidence la tension entre le progrès technologique et la propriété créative.
Le rôle de The Pile et de OpenSubtitles dans l'apprentissage de l'IA
The Pile est l'un des ensembles de données open-source les plus influents pour l'entraînement des modèles d'IA. Comprenant plus de 800 Go de données, il englobe tout, des articles universitaires et des recherches sur le web aux artefacts culturels spécifiques tels que les sous-titres de films. OpenSubtitles, en particulier, est devenu un outil inestimable pour enseigner à l'IA comment les humains communiquent dans le cadre d'une conversation.
Cet ensemble de données permet aux modèles d'IA d'apprendre les nuances du dialogue, le rythme et même la résonance émotionnelle. Mais c'est cette ressource même qui fait l'objet d'un examen minutieux. La grande majorité des sous-titres contenus dans OpenSubtitles proviennent d'œuvres protégées par le droit d'auteur : scripts télévisés, dialogues de films et autres éléments créatifs. Pour les entreprises spécialisées dans l'IA, les avantages sont évidents : une mine de données linguistiques préexistantes de grande qualité. Pour les créateurs, cependant, c'est une autre histoire, car leur travail est utilisé sans consentement ni compensation.
Le problème ne se limite pas à la légalité. Il soulève des questions éthiques sur le fait de tirer profit du travail intellectuel des créateurs tout en risquant d'éroder leurs moyens de subsistance.
La riposte croissante d'Hollywood
L'industrie du divertissement ne se laisse pas faire. Les procès contre les entreprises d'IA sont de plus en plus fréquents. Par exemple, la comédienne Sarah Silverman a poursuivi OpenAI et Meta en 2023, alléguant que son livre protégé par des droits d'auteur avait été utilisé sans autorisation pour entraîner des modèles d'IA. Cette affaire est devenue emblématique d'un conflit plus large, les créateurs exigeant la transparence et une juste rémunération pour l'utilisation de leur travail dans le développement de l'IA.
Les scénaristes et les acteurs d'Hollywood, déjà aux prises avec le potentiel de l'IA à remplacer le travail humain, commencent à envisager des actions en justice plus larges. Les récentes découvertes concernant le rôle d'OpenSubtitles dans l'entraînement des systèmes d'IA n'ont fait que renforcer leur détermination. Les initiés de l'industrie suggèrent que les mois à venir pourraient voir une vague d'actions en justice reflétant celles de l'industrie de la musique pendant les premiers jours de la diffusion en continu.
Les demandes de l'industrie du divertissement sont simples : si les systèmes d'IA bénéficient de la production créative d'Hollywood, ceux qui ont contribué à cette production doivent être indemnisés. Il ne s'agit pas seulement d'un combat juridique, mais d'une bataille pour l'avenir du travail créatif.
L'ironie involontaire
C'est ici que l'histoire prend une tournure inattendue. Les scénarios, les performances et les techniques de narration qui ont fait d'Hollywood une icône font désormais partie intégrante des systèmes d'IA qui s'apprêtent à bouleverser l'industrie. Sans les décennies de production créative d'Hollywood, l'IA n'aurait pas la richesse linguistique et la profondeur narrative dont elle fait actuellement preuve. D'une certaine manière, l'industrie a joué un rôle involontaire mais crucial dans la construction de son remplaçant potentiel.
Il est difficile d'ignorer cette ironie. Les modèles d'IA formés sur les œuvres créatives d'Hollywood sont désormais capables de générer des dialogues, d'écrire des scénarios et même de simuler des performances. Les outils construits à partir de ces ensembles de données ne font pas que menacer l'industrie : ils lui renvoient son propre art, même si les créateurs humains ne sont pas dans la boucle.
La question de la responsabilité se pose avec acuité. Hollywood aurait-il dû être plus proactif dans la protection de sa propriété intellectuelle ? Ou bien l'industrie est-elle injustement exploitée par des entreprises en quête d'innovation au détriment des créateurs ?
L'éthique à l'ère de l'IA
La tension entre l'innovation et l'éthique n'est pas propre à Hollywood. D'autres industries sont susceptibles d'être confrontées à des dilemmes similaires à mesure que l'IA devient plus omniprésente. Mais le secteur du divertissement offre un exemple des risques qu'il y a à contribuer au progrès technologique sans mettre en place des garde-fous.
Pour les créateurs, ce moment est un appel à l'action. Pour les consommateurs et les développeurs, c'est l'occasion de réfléchir à la manière dont l'innovation doit être poursuivie de manière responsable. Alors que les systèmes d'IA deviennent de plus en plus performants, il est essentiel de veiller à ce qu'ils évoluent dans le respect et le soutien de la créativité humaine qui les a rendus possibles.
La situation difficile d'Hollywood est un rappel poignant : même les industries les plus avant-gardistes doivent faire face aux conséquences involontaires de leurs contributions au progrès technologique.
Références
- Reisner, A. (2024). Revealed : Les auteurs dont les livres piratés alimentent l'IA générative. The Atlantic. Available online. Consulté : 18 novembre 2024.
- Gao, L., & Biderman, S. (2020). The Pile : An 800GB Dataset of Diverse Text for Language Modeling. arXiv preprint arXiv:2101.00027. Available online. Accédé : 18 novembre 2024.
- Hern, A. (2024). Le procès d'un auteur contre Anthropic AI soulève de nouvelles questions sur le droit d'auteur. The Guardian. Available online. Consulté : 18 novembre 2024.
- Hern, A. (2023). Scarlett Johansson dans la controverse sur l'IA à propos d'une fausse publicité. The Guardian. Available online. Consulté : 18 novembre 2024.
- Belanger, A. (2023). Sarah Silverman poursuit OpenAI, Meta pour être des "plagiaires de force industrielle ". Ars Technica. Available online. Consulté : 18 novembre 2024.
- New Scientist (2024). AI Firms Will Face Copyright Infringement Lawsuits in 2024 (Les entreprises d'IA seront confrontées à des poursuites pour violation du droit d'auteur en 2024). Available online. Consulté : 18 novembre 2024.