Mais pour proposer de nouveaux produits, services ou fonctionnalités, elles ont besoin de recourir au Machine Learning (ML) et à l’IA, des technologies nécessitant d’utiliser des données lisibles. Pseudonymiser les données utiles à l’IA et chiffrer de bout-en-bout les autres est la solution.
En 2020, le nombre de cyberattaques à l’encontre d’entreprises de tous secteurs a explosé. Face à cela et aux conséquences dramatiques qu’elles peuvent entraîner en termes d’image, mais aussi d’un point de vue financier (le coût des cyberattaques avoisinera les 6 000 milliards de dollars fin 2021), les entreprises continuent d’adopter une attitude désinvolte vis-à-vis de leur sécurité informatique. Et pour cause. Lancées dans une course effrénée de développements de nouveaux produits, services ou fonctionnalités, elles jugent le déploiement d’outils sécuritaires comme une perte de temps et une source de coût à court terme. Par ailleurs, elles les considèrent comme un obstacle à l’utilisation de techniques de machine learning ou d’intelligence artificielle, ceux- ci nécessitant d’accéder à de grands volumes de données. Toute la problématique pour les entreprises est donc de concilier rapidité d’exécution de leur activité et sécurité informatique. Mais est-ce compatible ? Aujourd’hui des entreprises comme Zoom, Doctolib, Alan ou encore Google pour sa messagerie, ont changé la façon d’aborder la cybersécurité en intégrant du chiffrement de bout-en-bout, premier pas vers le zero-trust, un concept qui place le principe de moindre privilège au centre de la conception de nouveaux produits et architectures.
Décrit dès 2003 par le Jericho Forum puis par Forrester en 2010, le zero-trust fait le constat que la façon traditionnelle d’envisager la sécurité informatique en plaçant une grande « barrière » autour des systèmes d’information était toujours faillible. Le zero-trust préconise donc de protéger les données à chaque étape, y compris d’intégrer cette protection directement au niveau des applications plutôt que de faire confiance aveuglément à « l’infrastructure ». La responsabilité est, de ce fait, déportée sur les développeurs d’applications. Techniquement, la protection des données la plus stricte est atteinte en mettant en place du chiffrement de bout- en-bout. Grâce à cette technologie, les données ne peuvent plus être lues que par l’expéditeur et le destinataire de l’information. À titre d’exemple, la spécificité de WhatsApp (ou Olvid son concurrent français) est d’assurer à ses utilisateurs qu’aucune conversation ne peut être lue par un tiers. Mais si ce chiffrement de bout-en-bout des données rend illisible les informations, il interdit aussi toute possibilité d’effectuer du ML, de l’IA ou même de lancer une recherche sur ces données. Les entreprises ne peuvent donc plus utiliser ces technologies indispensables à leur compétitivité et leur rapidité de commercialisation des offres. D’où leurs réticences à mettre sous cloche toutes leurs données.
Existe-t-il des moyens de lever cette antinomie entre données sécurisées et IA ? Outre l’utilisation de techniques de chiffrement dites « homomorphes » qui n’en sont qu’à leurs débuts, cette difficulté peut, en effet, être contournée par le tri des données selon la finalité qui leur est destinée. Ainsi, pour celles utiles aux projets de ML et d’IA, les entreprises peuvent les pseudonymiser, c’est-à-dire remplacer les données identifiantes par un « pseudonyme » unique et aléatoire. Les données identifiantes originales sont alors conservées dans une table de pseudonymes, elle-même protégée par un chiffrement de bout-en-bout. Ce processus revient donc à couper les données en deux catégories, d’un côté les pseudonymisées que l’on exploite de façon automatisée et de l’autre celles chiffrées de bout-en-bout. En d’autres termes, cela revient à appliquer le principe du moindre privilège (fondation du zero-trust) et cela se rapproche du RGPD qui, rappelons-le, impose de « mettre en œuvre les mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque » et qui cite notamment « la pseudonymisation et le chiffrement des données à caractère personnel » comme moyens à employer.
Le chiffrement de bout-en-bout implémenté de cette façon et le zero-trust en général permettent donc de protéger les données tout en préservant la capacité à utiliser le ML et l’IA. Toutefois cela impose une véritable transformation de la gestion de la sécurité informatique pour qu’elle soit plus préventive que réactive et de la gouvernance de la donnée pour mieux savoir où sont collectées et utilisées les données. Cette transformation est probablement inexorable, la retarder c’est mettre en danger ses données et donc prendre des risques pouvant gravement nuire à une entreprise. Réagir aux cyberattaques et fuites de données au lieu de les anticiper c’est analogue à reconstruire un gratte-ciel après chaque séisme plutôt que d’y intégrer des techniques parasismiques lors de son édification. Tout va bien tant qu’il n’y pas de tremblement de terre !