Pseudonymiser pour concilier IA et sécurité des données ?

En ligne :

Rechercher

Dossiers

Pseudonymiser pour concilier IA et sécurité des données ?

Par Timothée Rebours, co-fondateur et CEO de Seald

Publication: Avril 2021

Partagez sur

Face à l’explosion des cyberattaques, les entreprises doivent faire de la sécurité informatique une priorité...

Mais pour proposer de nouveaux produits, services ou fonctionnalités, elles ont besoin de recourir au Machine Learning (ML) et à l’IA, des technologies nécessitant d’utiliser des données lisibles. Pseudonymiser les données utiles à l’IA et chiffrer de bout-en-bout les autres est la solution.

Envisager la sécurité informatique de manière traditionnelle est faillible

En 2020, le nombre de cyberattaques à l’encontre d’entreprises de tous secteurs a explosé. Face à cela et aux conséquences dramatiques qu’elles peuvent entraîner en termes d’image, mais aussi d’un point de vue financier (le coût des cyberattaques avoisinera les 6 000 milliards de dollars fin 2021), les entreprises continuent d’adopter une attitude désinvolte vis-à-vis de leur sécurité informatique. Et pour cause. Lancées dans une course effrénée de développements de nouveaux produits, services ou fonctionnalités, elles jugent le déploiement d’outils sécuritaires comme une perte de temps et une source de coût à court terme. Par ailleurs, elles les considèrent comme un obstacle à l’utilisation de techniques de machine learning ou d’intelligence artificielle, ceux- ci nécessitant d’accéder à de grands volumes de données. Toute la problématique pour les entreprises est donc de concilier rapidité d’exécution de leur activité et sécurité informatique. Mais est-ce compatible ? Aujourd’hui des entreprises comme Zoom, Doctolib, Alan ou encore Google pour sa messagerie, ont changé la façon d’aborder la cybersécurité en intégrant du chiffrement de bout-en-bout, premier pas vers le zero-trust, un concept qui place le principe de moindre privilège au centre de la conception de nouveaux produits et architectures.

Décrit dès 2003 par le Jericho Forum puis par Forrester en 2010, le zero-trust fait le constat que la façon traditionnelle d’envisager la sécurité informatique en plaçant une grande « barrière » autour des systèmes d’information était toujours faillible. Le zero-trust préconise donc de protéger les données à chaque étape, y compris d’intégrer cette protection directement au niveau des applications plutôt que de faire confiance aveuglément à « l’infrastructure ». La responsabilité est, de ce fait, déportée sur les développeurs d’applications. Techniquement, la protection des données la plus stricte est atteinte en mettant en place du chiffrement de bout- en-bout. Grâce à cette technologie, les données ne peuvent plus être lues que par l’expéditeur et le destinataire de l’information. À titre d’exemple, la spécificité de WhatsApp (ou Olvid son concurrent français) est d’assurer à ses utilisateurs qu’aucune conversation ne peut être lue par un tiers. Mais si ce chiffrement de bout-en-bout des données rend illisible les informations, il interdit aussi toute possibilité d’effectuer du ML, de l’IA ou même de lancer une recherche sur ces données. Les entreprises ne peuvent donc plus utiliser ces technologies indispensables à leur compétitivité et leur rapidité de commercialisation des offres. D’où leurs réticences à mettre sous cloche toutes leurs données.

Protéger les données en préservant la capacité à utiliser le ML et l’IA

Existe-t-il des moyens de lever cette antinomie entre données sécurisées et IA ? Outre l’utilisation de techniques de chiffrement dites « homomorphes » qui n’en sont qu’à leurs débuts, cette difficulté peut, en effet, être contournée par le tri des données selon la finalité qui leur est destinée. Ainsi, pour celles utiles aux projets de ML et d’IA, les entreprises peuvent les pseudonymiser, c’est-à-dire remplacer les données identifiantes par un « pseudonyme » unique et aléatoire. Les données identifiantes originales sont alors conservées dans une table de pseudonymes, elle-même protégée par un chiffrement de bout-en-bout. Ce processus revient donc à couper les données en deux catégories, d’un côté les pseudonymisées que l’on exploite de façon automatisée et de l’autre celles chiffrées de bout-en-bout. En d’autres termes, cela revient à appliquer le principe du moindre privilège (fondation du zero-trust) et cela se rapproche du RGPD qui, rappelons-le, impose de « mettre en œuvre les mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque » et qui cite notamment « la pseudonymisation et le chiffrement des données à caractère personnel » comme moyens à employer.

Le chiffrement de bout-en-bout implémenté de cette façon et le zero-trust en général permettent donc de protéger les données tout en préservant la capacité à utiliser le ML et l’IA. Toutefois cela impose une véritable transformation de la gestion de la sécurité informatique pour qu’elle soit plus préventive que réactive et de la gouvernance de la donnée pour mieux savoir où sont collectées et utilisées les données. Cette transformation est probablement inexorable, la retarder c’est mettre en danger ses données et donc prendre des risques pouvant gravement nuire à une entreprise. Réagir aux cyberattaques et fuites de données au lieu de les anticiper c’est analogue à reconstruire un gratte-ciel après chaque séisme plutôt que d’y intégrer des techniques parasismiques lors de son édification. Tout va bien tant qu’il n’y pas de tremblement de terre !

https://www.seald.io/