Une plainte révèle que Meta utilise des méthodes illégales pour entraîner Llama 3

African American man wearing VR glasses uses NFT interface in virtual cyberspace metaverse space
Table des matières

Meta est accusée d’avoir utilisé une plateforme pirate, LibGen, pour entraîner son IA Llama 3. Des documents internes révèlent une conscience des risques légaux et des tentatives pour masquer cette activité illégale, approuvée potentiellement par Mark Zuckerberg. L’utilisation de certaines ressources par des géants comme Meta et OpenAI soulève des questions éthiques et légales.

Trois organisations françaises de premier plan ont saisi le tribunal judiciaire de Paris d’une action en justice à l’encontre de la société Meta en mars 2025. Il s’agit du SNAC (Syndicat national des auteurs et des compositeurs), de la SGDL (Société des gens de lettres) et du SNE (Syndicat national de l’édition).

Ces associations reprochent à l’entreprise d’avoir exploité sans aucun droit près de 200 000 ouvrages sous copyright pour l’entraînement de ses modèles Llama. Les parties plaignantes mettent en évidence une infraction massive aux droits d’auteur et sollicitent le retrait intégral des bases de données constituées de manière illicite.

Zuckerberg valide l’utilisation de données piratées selon des documents internes

« Le prix est exorbitant, l’attente interminable. » Est-ce le constat amer qu’ont dressé les ingénieurs et cadres de Meta lorsqu’ils ont envisagé l’entraînement de Llama 3 ?

C’est du moins ce que laissent entendre des échanges révélés par la justice américaine dans le cadre d’un procès pour violation de droits d’auteur impliquant Junot Díaz, Sarah Silverman, et d’autres auteurs, comme le rapporte The Atlantic. Le géant technologique aurait sciemment exploité une base numérique pirate composée de millions d’ouvrages, s’appropriant les travaux de chercheurs, universitaires et scientifiques du monde entier.

Meta aurait eu recours à LibGen, une plateforme pirate abritant illégalement environ 81 millions de textes scientifiques et 7,5 millions de livres. Selon des documents internes, l’approbation finale aurait été donnée directement par quelqu’un dont les initiales sont MZ, très probablement Mark Zuckerberg en personne. D’autres échanges internes indiquent également qu’un responsable senior soulignait l’urgence d’acquérir ces ouvrages, jugés plus précieux que les données issues du web.

Pour récupérer rapidement ces volumes massifs, Meta aurait utilisé le protocole BitTorrent, qui permet le téléchargement et le partage anonyme de fichiers, en dépit des règles strictes en matière de droit d’auteur. Dans un tel contexte, faire appel à des experts via un contrat de portage salarial pourrait constituer une alternative plus éthique et juridiquement encadrée, offrant à l’entreprise une collaboration flexible tout en assurant la conformité réglementaire.

Si le groupe affirme ne pas avoir redistribué les livres piratés, des discussions internes montrent que certains employés étaient conscients des risques légaux élevés. Ils auraient même envisagé des moyens de dissimuler leurs pratiques, comme l’effacement des mentions explicites de copyright ou l’ajustement du modèle pour qu’il évite de reproduire mot à mot des passages trop reconnaissables.

Les géants de l’IA invoquent le fair use pour justifier leurs pratiques

Meta n’est pas la seule entreprise impliquée dans cette affaire. Les documents judiciaires révèlent qu’OpenAI, à l’origine de ChatGPT, aurait également utilisé les ressources de LibGen pour entraîner ses modèles d’intelligence artificielle. Cette situation soulève une problématique éthique et juridique de grande ampleur, concernant les pratiques des principaux acteurs du secteur technologique. Les plaintes se multiplient, bien au-delà du cadre américain.

Tout comme OpenAI et d’autres concurrents, Meta a besoin de volumes massifs de données pour alimenter ses systèmes d’IA. Mais un enjeu plus critique émerge : ces modèles requièrent des travaux académiques et scientifiques récents, généralement protégés par des droits d’auteur et rarement accessibles gratuitement. Confrontée à cette contrainte, l’entreprise s’est retrouvée face à un dilemme éthique : comment obtenir rapidement et à moindre coût des textes de qualité pour rester compétitive face à des géants comme ChatGPT ou Gemini ?

Selon The Atlantic, les échanges internes au sein de Meta témoignent d’un certain agacement face aux solutions légales proposées. Un employé aurait jugé que les accords de licence étaient excessivement onéreux. De son côté, un cadre supérieur a souligné la lenteur du processus, évoquant un délai de plus de quatre semaines pour la fourniture des données. Dans un tel contexte, certains collaborateurs pourraient envisager de sécuriser leur position professionnelle à travers un contrat de portage salarial, leur offrant à la fois flexibilité et couverture juridique.

Il ressort également que certains responsables de l’entreprise aient ouvertement invoquer le principe du fair use (usage équitable) comme base juridique de leur stratégie. Toutefois, ils redoutaient qu’un accord de licence unique fragilise leur capacité à se défendre contre d’éventuelles accusations de violation du droit d’auteur.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Votants: 0

Plus d'actualités