Le RGPD laisse de la place à l'IA, mais gare aux « lignes rouges »

La Cnil vient de partager des fiches pour détailler le cadre dans lequel l’intelligence artificielle peut se déployer, en respectant le RGPD. Il y a en somme des marges de manœuvre, mais attention à ne pas franchir les « lignes rouges ».

L’explosion de l’intelligence artificielle (IA) générative, incarnée par ChatGPT d’OpenAI, a été soudaine fin 2022. Depuis, les vannes sont grandes ouvertes, avec la multiplication des projets à l’international comme dans l’Hexagone, à l’image de la jeune startup Mistral AI. Elle a présenté en septembre son propre modèle de langage open source.

Des projets en augmentation, mais dont la particularité est de nécessiter de très grandes quantités de données pour fonctionner. Or, la nature de ces données peut soulever des enjeux juridiques. C’est le cas si des informations personnelles sont manipulées, une situation pour laquelle le Règlement général pour la protection des données (RGPD) s’applique.

La Commission nationale de l’informatique et des libertés (Cnil), dont le rôle est de veiller justement au bon respect des textes en vigueur quant à la collecte et l’usage de ces données personnelles, vient donc naturellement s’en mêler. Le 11 octobre, elle a mis en ligne ses premières lignes directrices pour concilier l’IA avec le cadre législatif des données personnelles.

Pas d’incompatibilité entre IA et RGPD

L’occasion pour la Cnil d’adresser un message apaisant pour le secteur. L’autorité administrative « [confirme] la compatibilité des recherches et développements en IA avec le RGPD ». Cela, évidemment, tant que l’on reste dans le cadre, en respectant les règles du jeu. Il y a, « certaines lignes rouges » qui demeurent infranchissables et qui pourraient conduire, le cas échéant, à des sanctions.

Quatre notions ont ainsi été rappelées : il reste nécessaire de suivre une politique de minimisation des données, en évacuant tout ce qui est superflu. On peut entraîner une IA sur un énorme corpus, mais son contenu devra quand même être sélectionné et conçu avec soin. Quant à l’emploi de données personnelles, il faut qu’au final ce soit pour un objectif bien précis, et défini à l’avance.

Certes, au démarrage, la Cnil reconnaît qu’une startup ou n’importe quelle autre société ne sera pas forcément en mesure de « définir au stade de l’entraînement de l’algorithme l’ensemble de ses applications futures ». Cependant, il leur faut quand même déterminer le type de système et les principales fonctionnalités envisageables.

Idem pour la durée de conservation : les bases servant à exercer les IA peuvent bénéficier d’une souplesse. La Cnil, ici, tient compte que la constitution de bases de données d’entraînement peut requérir « un investissement scientifique et financier important ». En outre, certaines sont susceptibles de devenir « des standards largement utilisés par la communauté. »

Le RGPD // Source : Illustration par Lucie Benoit pour Numerama — Les règles du RGPD s’appliquent toujours, mais offrent un espace pour l’IA. // Source : Illustration par Lucie Benoit pour Numerama

Autre point qui rassurera le secteur : la réutilisation de bases de données déjà constituées est possible « dans de nombreux cas », note la Cnil. Y compris si elles ont été fabriquées à partir de « données publiquement accessibles sur Internet ». Il faudra toutefois « vérifier » que lesdites données n’ont pas été « collectées de manière manifestement illicite. »

Une précision toutefois notable : l’utilisation d’une base de données existante ne doit s’envisager que pour le même usage pour lequel cette base a été mise en place — c’est toujours le principe de finalité. Le corpus ne doit pas être employé pour un tout autre usage en intelligence artificielle. Pour ce cas de figure, il faudra chercher une base compatible ou en créer une ad hoc.

Les lignes directrices de la Cnil sont détaillées dans des fiches thématiques, qui seront amenées à être étoffées et complétées par des ressources complémentaires. La Cnil est dans une phase où elle s’empare d’un sujet relativement neuf — en janvier, elle montait un service dédié à l’IA. En mai, elle présentait son plan d’action, découpé en quatre étapes, et des programmes d’accompagnement.

Un engagement nécessaire, qui inclut aussi un volet plus offensif — incluant des audits et des contrôles de systèmes d’IA. Les enjeux demeurent importants : on l’a vu au printemps lorsque l’homologue italienne de la Cnil s’est émue des infractions au RGPD de ChatGPT, ce qui a entraîné la disparition du chabot du pays pendant un bon mois, avant de revenir plus conforme.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Notre hub sur le RGPD