L’explosion de l’intelligence artificielle (IA) générative, incarnée par ChatGPT d’OpenAI, a été soudaine fin 2022. Depuis, les vannes sont grandes ouvertes, avec la multiplication des projets à l’international comme dans l’Hexagone, à l’image de la jeune startup Mistral AI. Elle a présenté en septembre son propre modèle de langage open source.
Des projets en augmentation, mais dont la particularité est de nécessiter de très grandes quantités de données pour fonctionner. Or, la nature de ces données peut soulever des enjeux juridiques. C’est le cas si des informations personnelles sont manipulées, une situation pour laquelle le Règlement général pour la protection des données (RGPD) s’applique.
La Commission nationale de l’informatique et des libertés (Cnil), dont le rôle est de veiller justement au bon respect des textes en vigueur quant à la collecte et l’usage de ces données personnelles, vient donc naturellement s’en mêler. Le 11 octobre, elle a mis en ligne ses premières lignes directrices pour concilier l’IA avec le cadre législatif des données personnelles.
Pas d’incompatibilité entre IA et RGPD
L’occasion pour la Cnil d’adresser un message apaisant pour le secteur. L’autorité administrative « [confirme] la compatibilité des recherches et développements en IA avec le RGPD ». Cela, évidemment, tant que l’on reste dans le cadre, en respectant les règles du jeu. Il y a, « certaines lignes rouges » qui demeurent infranchissables et qui pourraient conduire, le cas échéant, à des sanctions.
Quatre notions ont ainsi été rappelées : il reste nécessaire de suivre une politique de minimisation des données, en évacuant tout ce qui est superflu. On peut entraîner une IA sur un énorme corpus, mais son contenu devra quand même être sélectionné et conçu avec soin. Quant à l’emploi de données personnelles, il faut qu’au final ce soit pour un objectif bien précis, et défini à l’avance.
Certes, au démarrage, la Cnil reconnaît qu’une startup ou n’importe quelle autre société ne sera pas forcément en mesure de « définir au stade de l’entraînement de l’algorithme l’ensemble de ses applications futures ». Cependant, il leur faut quand même déterminer le type de système et les principales fonctionnalités envisageables.
Idem pour la durée de conservation : les bases servant à exercer les IA peuvent bénéficier d’une souplesse. La Cnil, ici, tient compte que la constitution de bases de données d’entraînement peut requérir « un investissement scientifique et financier important ». En outre, certaines sont susceptibles de devenir « des standards largement utilisés par la communauté. »
Autre point qui rassurera le secteur : la réutilisation de bases de données déjà constituées est possible « dans de nombreux cas », note la Cnil. Y compris si elles ont été fabriquées à partir de « données publiquement accessibles sur Internet ». Il faudra toutefois « vérifier » que lesdites données n’ont pas été « collectées de manière manifestement illicite. »
Une précision toutefois notable : l’utilisation d’une base de données existante ne doit s’envisager que pour le même usage pour lequel cette base a été mise en place — c’est toujours le principe de finalité. Le corpus ne doit pas être employé pour un tout autre usage en intelligence artificielle. Pour ce cas de figure, il faudra chercher une base compatible ou en créer une ad hoc.
Les lignes directrices de la Cnil sont détaillées dans des fiches thématiques, qui seront amenées à être étoffées et complétées par des ressources complémentaires. La Cnil est dans une phase où elle s’empare d’un sujet relativement neuf — en janvier, elle montait un service dédié à l’IA. En mai, elle présentait son plan d’action, découpé en quatre étapes, et des programmes d’accompagnement.
Un engagement nécessaire, qui inclut aussi un volet plus offensif — incluant des audits et des contrôles de systèmes d’IA. Les enjeux demeurent importants : on l’a vu au printemps lorsque l’homologue italienne de la Cnil s’est émue des infractions au RGPD de ChatGPT, ce qui a entraîné la disparition du chabot du pays pendant un bon mois, avant de revenir plus conforme.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !