Dans le paysage numérique actuel, l’authentification documentaire et la vérification biométrique constituent des éléments fondamentaux de la sécurisation des interactions en ligne, de l’ouverture d’un compte bancaire à l’accès aux services de santé. Toutefois, la sophistication croissante des cybermenaces et des violations de données met en évidence un besoin urgent de trouver un équilibre entre précision et protection de la vie privée.
Deux incidents récents très médiatisés illustrent les enjeux fondamentaux. Le premier concerne l’action engagée par la Federal Trade Commission (FTC) des États-Unis à l’encontre d’OkCupid et de sa société affiliée Match Group Americas.
Selon la FTC, OkCupid aurait transmis à un tiers non affilié des millions de photos d’utilisateurs, accompagnées de données de localisation et d’autres informations personnelles connexes, afin de contribuer au développement, fondé sur l’exploitation de données, d’un système biométrique de reconnaissance faciale appartenant à ce tiers.
Un rapport indiquant qu’à la suite de l’action de la FTC, ce fournisseur a supprimé trois millions d’images faciales reçues d’OkCupid met en lumière les volumes considérables de données extrêmement sensibles qui avaient été conservés et stockés, à des fins d’entraînement, avec un risque important de fuite.
Dans le prolongement de ce constat, un second incident impliquant Mercor,¹ une entreprise d’IA valorisée à 10 milliards de dollars et fournissant des données biométriques d’entraînement à des acteurs majeurs tels qu’OpenAI et Meta, souligne encore davantage l’ampleur du défi. Selon plusieurs rapports, Mercor a été victime d’une violation majeure de données consécutive à une attaque de la chaîne d’approvisionnement ciblant la bibliothèque open source LiteLLM. Cette compromission a conduit à l’exposition de plusieurs gigaoctets de documents d’identité sensibles et de données biométriques faciales. Au-delà de l’atteinte à la vie privée des individus concernés, dont les données faciales ont été dérobées, cet événement met en lumière les risques pesant sur l’intégrité des systèmes de vérification d’identité (IDV) reposant largement sur l’utilisation de données biométriques réelles pour l’entraînement de leurs modèles.
Les données synthétiques désignent des informations générées artificiellement qui imitent des jeux de données du monde réel sans contenir de données personnelles ou sensibles réelles. Elles sont créées à l’aide d’algorithmes avancés tels que les réseaux antagonistes génératifs (GAN) ou d’autres modèles d’apprentissage automatique conçus pour reproduire les propriétés statistiques de données authentiques, tout en garantissant l’absence de lien direct avec des individus identifiables. Dans les technologies de vérification d’identité (IDV), les jeux de données synthétiques peuvent simuler des caractéristiques faciales ou des images de documents nécessaires au paramétrage des systèmes, sans exposer les informations réelles des utilisateurs.
On pourrait supposer que le caractère artificiel des données synthétiques compromet la précision. Pourtant, utilisées correctement, elles améliorent les performances des modèles en fournissant des scénarios variés qui peuvent être sous-représentés dans des jeux de données réels limités. Les visages synthétiques peuvent couvrir un large éventail d’origines ethniques, d’âges, de conditions d’éclairage ou d’angles, de manière plus complète que les collections traditionnelles. Cela permet aux algorithmes de mieux fonctionner lorsqu’ils vérifient des identités à l’échelle de populations mondiales.
Imaginons que le Père Noël se présente pour une vérification d’identité afin de louer son cabriolet pour son voyage de janvier à Miami. Le « complexe de la barbe blanche » est bien connu dans le monde de l’IDV : les hommes portant une longue barbe blanche échouent souvent aux contrôles de présence (« selfie liveness ») en raison de la forte réflexion de la lumière sur leur teint et leur barbe. La solution appropriée n’est pas d’utiliser l’image réelle du visage du Père Noël pour entraîner le système jusqu’à surmonter ce problème. Une approche plus efficace et moins intrusive consiste à entraîner le système d’IA en générant automatiquement des images synthétiques d’hommes à barbe blanche, couvrant différentes origines ethniques, âges et profils faciaux. Cela améliore la capacité du système à reconnaître des centaines d’hommes à barbe blanche à l’avenir, sans recourir au véritable sourire du Père Noël (c’est-à-dire sans utiliser de données personnelles identifiables).
L’action de la FTC et la violation de données chez Mercor illustrent de manière particulièrement frappante comment la dépendance à des bases de données biométriques réelles crée des vulnérabilités exploitables par des acteurs malveillants, notamment pour la création de deepfakes ou des attaques d’ingénierie sociale. À l’inverse, les données synthétiques éliminent ces risques, car elles ne contiennent aucune donnée personnelle identifiable. Les organisations qui adoptent des jeux de données synthétiques réduisent considérablement leur surface d’attaque tout en maintenant des niveaux élevés de qualité pour l’entraînement des modèles.
Si les données synthétiques offrent des avantages prometteurs en matière de protection de la vie privée et d’amélioration de la précision, les entreprises doivent naviguer dans des cadres juridiques complexes encadrant l’utilisation des données biométriques, tels que le RGPD en Europe, qui impose des contrôles stricts sur le traitement et le partage des données personnelles. La transparence quant à la manière dont les jeux de données synthétiques sont générés et validés est essentielle, tout comme la mise en place de protocoles de test rigoureux, afin de s’assurer qu’ils n’introduisent pas involontairement des biais issus des données sources utilisées lors de leur création.
À l’avenir, la vérification d’identité basée sur l’IA continuera d’évoluer rapidement face à l’augmentation des menaces en cybersécurité, illustrées par des incidents tels que la violation de données chez Mercor. Cette évolution aura des conséquences. Les entreprises qui placent les solutions d’IDV en première ligne de leurs processus en ligne privilégieront : (1) des solutions robustes intégrant des technologies de pointe, associées à (2) des stratégies d’enrichissement par données synthétiques renforçant la confiance des utilisateurs finaux. Il suffira d’un seul article médiatique très visible pour accélérer l’adoption d’approches plus sûres.
Oui, l’innovation doit continuer à progresser afin d’améliorer le réalisme des données synthétiques tout en développant des outils de détection capables de distinguer les utilisateurs légitimes des attaques sophistiquées de type deepfake ou injection de données issues de biométriques volées. En définitive, trouver l’équilibre entre protection de la vie privée et prévention de la fraude reste essentiel, alors que les organisations s’efforcent de créer des environnements numériques plus sûrs, respectant les droits de leurs clients tout en offrant des expériences d’authentification fluides.
1. The Record, “Mercor confirms security incident tied to LiteLLM,” 2026.Comprenez le comportement des utilisateurs, grâce à des données d'analyse comportementale gestuelle en temps réel
Learn MoreEmailage® est une solution reconnue d'évaluation des risques qui permet de vérifier l'identité des consommateurs et de les protéger contre la fraude.
Learn MoreAlimenté par une IA propriétaire, IDVerse fournit une authentification entièrement automatisée des identités en quelques secondes
Learn MoreIntégrez rapidement de gros volumes de clients grâce à une plateforme de conformité unique
Learn MoreCybersécurité grâce à des innovations en science des données et à des renseignements partagés
Learn More