toggle menu
Offre d'emploi t3://page?uid=957

Ce que les générateurs de données synthétiques signifient pour les lois sur la protection des données (ou pour le RGPD)

Auteur :  Dr Helena CANEVER (du Centre de Recherche Talan)

 

La valeur du marché mondial des données est estimée à 271,83 milliards de dollars et la croissance annuelle moyenne du volume de création de données est estimée à 40 %. Un environnement aussi dynamique présente des opportunités et des défis pour l'innovation dans l'utilisation et le stockage des données. Si les entreprises tournées vers l'avenir ont commencé à envisager l'utilisation de ce que l'on appelle les "données synthétiques" pour répondre à ces opportunités et défis, de nombreuses entreprises ne sont pas encore familiarisées avec les subtilités de l'intégration et de l'utilisation des données synthétiques.

Cet article explique ce que sont les données synthétiques, pourquoi elles sont utiles pour le stockage des données, comment elles peuvent accroître la confidentialité de données autrement identifiables individuellement, et pourquoi leur utilisation par les entreprises doit être revue et améliorée afin de garantir la conformité réglementaire.

 

Les Données Synthétiques et leur usage

Les données synthétiques sont définies comme des données artificielles qui sont générées par une IA à partir de données existantes tout en conservant les qualités statistiques des données d'origine. Cette définition s'applique à tous les types de données, qu'elles soient structurées (bases de données relationnelles et tabulaires) ou non structurées (images, vidéo, texte).

Il a déjà été prouvé que les données synthétiques augmentent la précision des modèles, réduisent les coûts et le temps de développement de l'IA et les estimations actuelles montrent que d'ici 2024, elles constitueront 60% de toutes les données d'entraînement. Une application prometteuse des données synthétiques est le stockage de données à long terme en utilisant des ressources limitées, car une IA entraînée serait capable de générer n'importe quelle quantité de données synthétiques tout en utilisant moins de stockage que les données réelles, même si la source d'information originale est supprimée. Alors pourquoi les données synthétiques ne sont-elles pas actuellement exploitées comme une alternative au stockage et à la conservation des données ?

 

Le poids de l'identifiabilité

Dans les secteurs de la santé et de la finance, les données synthétiques sont souvent saluées comme une solution totalement anonyme qui peut permettre l'utilisation de données sensibles tout en restant dans les limites des réglementations sur la protection des données comme le Règlement général sur la protection des données (RGPD) de l'Union européenne.

Les partisans de l'utilisation des données synthétiques soutiennent que, puisque les données générées n'identifient plus aucun individu réel spécifique, elles sont totalement anonymes. En réalité, des violations de données personnelles peuvent toujours se produire, même à partir de données synthétiques.

Le texte actuel du RGPD définit les données personnelles comme suit " toute information se rapportant à une personne physique identifiée ou identifiable ".

Les données synthétiques générées à partir de données personnelles concerneront toujours une personne physique puisque les données personnelles sont le substrat sur lequel les données synthétiques sont générées. La clé pour déclencher la réglementation européenne actuelle est l'identifiabilité des individus. Un individu est identifié si les données contiennent des informations personnelles telles que le nom, l'adresse, l'âge, et il est identifiable si d'autres informations sont présentes qui ont le potentiel de se rapporter à un individu en particulier.

En ce sens, un ensemble de données synthétiques qui reproduit parfaitement toutes les propriétés statistiques de l'ensemble de données original peut néanmoins exposer l'identité ou les informations personnelles des valeurs aberrantes en raison de leur caractère unique. Le plus souvent, pour que les données synthétiques soient sûres, il faut ajouter un certain niveau de bruit ou de distorsion par rapport à l'original. En d'autres termes, l'utilité de l'ensemble de données, qui correspond à sa similarité avec l'original, est diminuée. Cet équilibre entre la similarité entre les données synthétiques et réelles et la préservation de la confidentialité est souvent appelé le compromis utilité-confidentialité.

Lorsqu'il s'agit d'adopter des données synthétiques pour le stockage, du point de vue d'une entreprise, les données sont un actif important qui pourrait être utilisé pour développer des analyses, des idées et des modèles d'IA. L'incertitude entourant le compromis utilité/confidentialité des données générées, qui peut être difficile à évaluer et à quantifier a priori, pourrait dissuader les entreprises d'adopter pleinement les générateurs de données synthétiques comme alternative de stockage.

En outre, l'identifiabilité des données synthétiques dépend fortement du contexte et peut changer au fil du temps avec l'évolution de la technologie, ce qui entraîne une plus grande incertitude. Ainsi, les normes élevées en matière de protection de la confidentialité des individus et les risques latents d'identifiabilité peuvent devenir une raison pour une entreprise de ne pas adopter les données synthétiques.

 

Une justification légale pour traiter les données

L'utilisation des données personnelles est soumise à une réglementation stricte par le RGPD, même dans les limites d'une entreprise. Selon l'article 5 du RGPD, les données personnelles : " conservées sous une forme permettant l'identification des personnes concernées pendant une durée n'excédant pas celle nécessaire au regard des finalités pour lesquelles elles sont traitées ".

En d'autres termes, une entreprise ne peut traiter des données à caractère personnel que si elle a une base légale pour le faire, pour une finalité spécifique et limitée et pour une durée limitée. Il arrive souvent que l'utilisation interne de données à caractère personnel pour développer des solutions d'IA ne soit pas justifiée, car un modèle d'apprentissage automatique ne peut pas être formé à partir de données à caractère personnel si une entreprise ne dispose pas de motifs légitimes, comme le consentement, l'exécution du contrat ou un intérêt légitime pour le faire.

Nous soulignons que l'article 5 du RGPD limite également la conservation à long terme de la plupart des données personnelles. Par exemple, une entreprise ne peut pas conserver les données de ses anciens employés une fois leur contrat terminé ou un fournisseur de services ne peut pas conserver les données personnelles des utilisateurs finaux une fois leur abonnement au service terminé au-delà de ce qui est strictement nécessaire.

L'utilisation d'un générateur de données synthétiques pour conserver certaines des informations utiles que ces données personnelles peuvent offrir, par exemple pour améliorer l'attrition, peut nécessiter le consentement explicite des personnes et une mise à jour des conditions générales. L'utilisation de solutions d'IA pour contourner les limites de la conservation des données peut constituer une zone grise juridique dans laquelle les entreprises, sensibles au risque de violation du RGPD, peuvent hésiter à s'engager.

 

Un problème de cybersécurité

Les modèles d'apprentissage automatique peuvent être vulnérables aux cyberattaques qui provoquent des violations de données et certaines attaques constituent un risque particulier pour les données personnelles. Dans les attaques par inversion de modèle, les connaissances sur le modèle peuvent conduire à des connaissances sur les données d'entraînement avec un certain degré de précision.

En revanche, dans les attaques par inférence d'appartenance, les connaissances sur les données d'entraînement ne sont pas récupérées, mais il est possible de déduire si un individu particulier figurait ou non dans l'ensemble d'entraînement. Ces deux types d'attaques peuvent être menées uniquement sur la base de l'accès aux requêtes, par exemple par le biais d'une API (attaques de type boîte noire), ou avec des connaissances sur l'architecture du modèle (attaques de type boîte blanche). En raison de ces vulnérabilités, les experts dans le domaine de la protection des données et de l'IA affirment que les modèles d'apprentissage automatique peuvent être considérés non seulement comme de la propriété intellectuelle, mais aussi comme des données personnelles en soi.

Que la Cour Suprême de Justice de l'Union Européenne adapte ou non à l'avenir son interprétation du RGPD pour remédier à ces vulnérabilités, les entreprises qui forment des générateurs de données synthétiques sur des données sensibles pourraient devoir examiner de près leur IA pour identifier les violations potentielles.

 

Une occasion manquée

Dans cet article, nous avons mis en évidence les raisons qui pourraient dissuader les entreprises axées sur les données d'entraîner les IA à reproduire des données, en particulier des données personnelles. Nous soutenons que le manque de connaissances sur la façon dont les données synthétiques sont générées et sur leurs applications potentielles est la principale cause du manque de confiance dans cette technologie.

Nous pensons que les générateurs de données synthétiques constituent une alternative valable qui peut être conforme à la réglementation sur les données personnelles. Par exemple, de nombreux progrès ont été réalisés dans le développement de métriques d'utilité qui permettent de mieux comparer les données réelles et synthétiques. De plus, des garanties formelles de confidentialité peuvent maintenant être intégrées dans les modèles génératifs afin de diminuer le risque d'identification dans les données synthétiques. Nous soutenons également que les données synthétiques constituent plus souvent un moyen d'accroître la confidentialité qu'un risque pour les données personnelles des individus. Les entreprises devraient revoir et améliorer leurs pratiques de gouvernance des données pour garantir la conformité réglementaire et porter le défi des données synthétiques à l'attention des institutions réglementaires telles que le RGPD.

 


Sources

General Data Protection Regulation (GDPR) (https://gdpr-info.eu/)

López, C. A. F. On the legal nature of synthetic data. In NeurIPS 2022 Workshop on Synthetic Data for Empowering ML Research. 

Veale, M., Binns, R., & Edwards, L. (2018). Algorithms that remember: model inversion attacks and data protection law. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 376(2133), 20180083.