Qu'est-ce que le « score de suspicion » de la CAF, accusée de discriminer les plus précaires ?

Après des mois de lutte, l’association la Quadrature du Net a réussi à obtenir le code source de l’algorithme utilisé par la CAF pour lutter contre la fraude aux allocations. Elle dévoile une « une surveillance prédictive aux accents dystopiques », qui « cible délibérément les personnes les plus précaires ».

Pour lutter contre les fraudes, la CAF (Caisse d’allocations familiales) utilise un algorithme. Son objectif est d’estimer les risques de fraude afin de permettre à ses enquêteurs de les corriger. Une pratique connue depuis longtemps, mais que la CAF n’avait jamais souhaité détailler. On sait maintenant pourquoi.

Dans une enquête publiée le 27 novembre, la Quadrature du Net dévoile plusieurs enseignements sur son étude de l’algorithme de la CAF, qu’elle a pu obtenir après des mois d’attente. L’association française de défense des droits et des libertés sur Internet n’a pas eu droit au code source de l’algorithme actuellement utilisé, mais à ceux utilisés entre 2010 et 2014 et entre 2014 et 2018. La CAF assume de ne pas vouloir publier toutes les variables qu’elle utilise, un comportement jugé « nauséabond » par la Quadrature. L’association ne mâche pas ses mots dans son article où elle dénonce une « surveillance prédictive aux accents dystopiques » et s’interroge même sur la pertinence de toute cette lutte, plus « politique » et « policière » que sociale.

Un « score de suspicion » attribué à 32 millions de personnes

Ce que révèle la Quadrature du Net est l’existence de ce que l’association renomme « score de suspicion », compris entre 0 et 1 et attribué automatiquement, par une machine, à chaque allocataire.

En se basant sur plusieurs paramètres sociaux, comme la situation familiale, la situation professionnelle, la situation financière, un éventuel handicap et le lieu de résidence, mais aussi des informations collectées par ses agents (type et montants des prestations reçues, fréquence des connexions à l’espace web, délai depuis le dernier déplacement à l’accueil, nombre de mails échangés, délai depuis le dernier contrôle, nombre et types de déclarations, etc.), la CAF attribue un score de risque à chacun de ses inscrits. Au total, 32 millions de personnes, dont 13 millions d’enfants, sont notées.

Votre données méritent d’être mieux défendue

Les escroqueries, les virus et les ransomwares ne sont pas une fatalité. Protégez votre vie privée et vos données avec la protection Bitdefender, encore plus rapide et efficace.

Sans surprise, le fonctionnement de l’algorithme discrimine naturellement les personnes les plus précaires. Pour le prouver, la Quadrature du Net a simulé cinq scores de suspicion, avec cinq profils bien différents :

Une famille « aisée » avec des revenus élevés.
Une famille « modeste » dont les deux parents gagnent le SMIC.
Un parent isolé qui gagne le SMIC.
Une famille dont les deux parents sont bénéficiaires des minima sociaux,
Une famille dont un des parents est un travailleur en situation de handicap.

Le graphique publié par la Quadrature du Net dévoile les scores de suspicion des cinq profils ci-dessus. // Source : Quadrature du Net

Les résultats, présentés dans le graphique ci-dessus, montrent à quel point l’algorithme de la CAF ne prend en compte aucune spécificité humaine. Tout n’est qu’une ligne de code, ce qui l’incite à se méfier des personnes qui gagnent moins.

Le fait qu’une allocation handicapée soit aussi considérée comme un multiplicateur de risques pose d’ailleurs de nombreux problèmes éthiques, au même titre que la situation des mères célibataires, sur lequel la CAF enquête plus. L’algorithme de la CAF part du principe que les personnes les plus précaires sont celles qui trafiqueraient le plus leurs revenus — ce qui épargne de facto celles avec la plus grande stabilité. Cela interroge encore plus sur les variables cachées par la CAF. Qu’a-t-elle voulu cacher ?

« L’algorithme cible délibérément les plus précaires », affirme la Quadrature du Net dans son enquête. L’association a également mis en ligne le code source de la CAF, pour que les curieux s’en emparent.

Selon la Quadrature du Net, le score de suspicion augmente :

si on a des revenus faibles,
si on est au chômage,
si on bénéficie du RSA,
si on habite dans un quartier défavorisé,
si son loyer coûte trop cher
si ses revenus ne sont pas stables.

« Ce que montre notre graphique c’est justement que les variables socio-économiques ont un poids prépondérant dans le calcul du score », détaille-t-elle.

L'algorithme de la CAF peut être consulté sur GitHub. — L’algorithme de la CAF peut être consulté sur GitHub. // Source : Capture Numerama

Existe-t-il un système plus juste ?

La CAF peut-elle faire mieux ? C’est tout le débat. Si traquer efficacement la fraude sociale est un objectif légitime pour un organisme public, la Quadrature du Net souligne qu’ « il ne peut exister de modèle de l’algorithme qui ne cible pas les plus défavorisé·es, et plus largement celles et ceux qui s’écartent de la norme définie par ses concepteurs. »

Dans son enquête, la Quadrature du Net s’interroge de la pertinence de tout ce combat qui, selon elle, ne détecte pas assez de trop perçus pour justifier une aussi grande entrave sur les données personnelles. La Quadrature du Net met également en lumière « une lutte contre l’assistanat » qui oublie que plein de personnes ne perçoivent pas leurs aides et que les dispositifs anti-fraudes ont toujours conduit à augmenter les erreurs déclaratives. Bref, l’algorithme de la CAF fait débat.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !