En effet, le modèle GPT-4O d’OpenAI a montré une forte reconnaissance des données issues des livres protégés par le droit d’auteur de la maison d’édition O’Reilly.
Cette recherche soulève ainsi des questions sur la transparence des entreprises et des technologies dans le domaine de l’IA, mettant en évidence un manque de divulgation qui pourrait impacter négativement la qualité et la diversité du contenu en ligne.
Les chercheurs ont utilisé un ensemble de données provenant de 34 livres protégés par le droit d’auteur de O’Reilly pour évaluer si les LLM d’OpenAI avaient été formés sur des données protégées par le droit d’auteur sans le consentement approprié.
Les résultats ont montré que le modèle GPT-4O présentait une forte reconnaissance du contenu des livres O’Reilly, suggérant des violations potentielles d’accès à des données via des sources telles que la base de données Libgen.
Cette étude souligne la nécessité d’une responsabilité accrue dans les processus de pré-formation des modèles d’IA, ainsi que l’importance de la transparence et de la rémunération équitable des données utilisées pour former ces modèles.