Recherche

Deepfake : menace ou opportunité ?

Entretien avec Nicolas Obin.

Publié le 29/02/2024 - Mis à jour le 5/03/2024

Lecture 8 min.

Apparu sur le réseau Reddit en 2017, le phénomène du deepfake augmente d’année en année. Maître de conférences à Sorbonne Université et chercheur à l’Ircam, Nicolas Obin fait le point sur ces manipulations numériques qui mettent un visage sur un autre, transforment les voix ou font parler les morts.

Pouvez-vous nous expliquer ce qu'est un deepfake ?

Nicolas Obin : Le terme « deepfake » est une contraction de « deep learning », qui renvoie à l'apprentissage de réseaux de neurones profonds utilisés en intelligence artificielle, et de « fake », faux. Apparus il y a moins de dix ans, les premiers deepfakes étaient des manipulations numériques pour appliquer l’identité d’une personne - en général publiquement connue - dans des scènes de films pornographiques.

Depuis, de nombreuses vidéos hypertruquées à l'aide de techniques d'intelligence artificielle ont fleuri sur le web, comme, par exemple, un faux Barak Obama avertissant sur les risques des deepfakes ou un faux Donald Trump annonçant l’éradication du SIDA.

Vous travaillez à l’Ircam, un centré créé sous l’impulsion de Pierre Boulez, dédié à la recherche scientifique et l’innovation technologique pour la création musicale. Comment en êtes-vous arrivé à vous intéresser aux deepfakes ?

N. O. : Mon activité principale ne tourne pas autour des deepfakes. Les missions de l’Ircam sont essentiellement liées au développement de nouveaux moyens d’expressions technologiques pour la création sonore et musicale. Dans mes recherches, je m’intéresse à la modélisation générative de comportements humains, notamment du son et de la voix. Historiquement, on construisait des algorithmes qui pouvaient, par exemple, transformer en temps réel une voix masculine en une voix féminine, la rajeunir, la vieillir, etc. Avec l’essor des réseaux de neurones profonds, vers 2015, le réalisme a pris une autre dimension.

Dès 2018, les chercheurs de Google ont réalisé pour la première fois une voix de synthèse jugée aussi naturelle qu’une voix humaine. Mais il leur a fallu, à l’époque, s’appuyer sur près de 20 heures d’enregistrement vocal. Aujourd’hui, nous sommes capables de cloner une identité vocale avec un réalisme encore supérieur à partir d’un extrait de seulement 5 à 10 secondes. Cette bascule vers l'ultra réalisme fait que ces nouvelles générations sonores et audiovisuelles posent potentiellement des problèmes de sécurité.

Et notre expertise dans ce domaine intéresse les acteurs spécialisés en cyber-sécurité pour optimiser les IA qui pourront les détecter. L’amélioration des systèmes de génération progresse en tandem avec celle des systèmes de détection. Plus le contrefaiseur s’améliore, plus le détecteur doit s'améliorer et vice et versa. C’est pourquoi nous avons récemment développé des collaborations sur ce sujet.

Quels sont les dangers potentiels des deepfakes, notamment en dehors des cas évidents de manipulation de l'information ?

N. O. : En tant que manipulation sémantique d’un contenu audio-visuel, les deepfakes peuvent être utilisés à des fins malveillantes comme l’usurpation d'identité, etc. Deux propriétés de l’IA moderne rendent les deepfakes particulièrement dangereux : d’une part le réalisme des générations rendu possible par la combinaison d’algorithmes d’apprentissage performants et les masses de données disponibles pour réaliser ces apprentissages ; d’autre part la démocratisation de ces outils avec des ressources partagées (les modèles de voix de chanteurs, sont par exemple, en libre accès sur des canaux de communication).

Aujourd’hui tout le monde publie en permanence des données personnelles sur les réseaux en grande partie accessibles publiquement. En conséquence, toute personne est susceptible d’être la victime d’un deepfake. Néanmoins, les personnalités publiques sont largement plus exposées par la quantité de données librement accessibles. Ces attaques malveillantes peuvent alors s’avérer critiques dans le cas de personnalités sensibles, comme récemment avec les fausses déclarations de Volodymyr Zelensky ou de Joe Biden.

Mais il existe d’autres manipulations plus pernicieuses, comme la manipulation des émotions, qui s’adresse à nos affects. Par exemple, un assistant vocal pourrait avoir des interactions émotionnelles ou expressives et influencer nos comportements en infléchissant nos émotions, ou en nous incitant à acheter quelque chose, etc. En politique, un même discours pourrait être adressé à chaque citoyen avec des variations de ton adapté pour obtenir un effet optimal de persuasion.

Pensez-vous que les deepfakes pourraient être utilisés pour des usages créatifs plus positifs ?

N. O. : Sans aucun doute. L’artiste ne se limite pas à l’imitation réaliste (ou ultra-réaliste) du réel, il cherche au contraire à le sublimer pour créer de nouveaux mondes singuliers, inouïs ou jamais vus. Pour cela, il a toujours utilisé tous les moyens à sa disposition (naturels ou artificiels). Or les possibilités offertes par IA et les rendus spectaculaires des deepfakes constituent une formidable opportunité pour la création.

À l’Ircam, nous avons déjà produit des applications variées de recréation de personnalités historiques, depuis le poétique film Marilyn de Philipe Parreno, à l’entretien de Dalida par Thierry Ardisson, ou encore le discours du Général de Gaulle réinterprété avec François Morel. Bien sûr, nous ne prétendons pas avoir recréé une archive historique. Dans le cas du discours de Général de Gaulle, par exemple, nous avons fait du transfert de timbres à partir des enregistrements de la voix de De Gaulle, mais c’est bien François Morel qui en a incarné l’interprétation. Mais même si on prononce les mêmes mots, la façon dont on les dit, avec une respiration, un soupir, est hautement signifiant et peut changer l'interprétation du message.

Comment pouvons-nous repérer les deepfakes et nous protéger contre leur diffusion ?

N. O. : Par leur ultra-réalisme, il devient de plus en plus difficile voire impossible de distinguer un vrai d’un faux. Il peut cependant subsister des indices, comme par exemple des déformations ou des incohérences de synchronisation labiale ou entre les expressions du visage. Mais elles sont de plus en plus subtiles. Néanmoins, toute manipulation laisse une trace caractéristique, même imperceptible par un être humain. La détection de ces traces par des IA nécessite de les retrouver et de les identifier. Le problème est qu’il existe une grande variété d’algorithmes de génération, ce qui augmente considérablement la complexité pour les identifier. Et comme l’algorithme utilisé pour la génération est inconnu lorsque nous devons essayer d’identifier un deepfake, il devient extrêmement difficile de proposer une solution universelle de détection robuste à toutes les formes d’attaque.

En quoi consiste vos projets DeTOX et BRUEL pour lutter contre les deepfakes vidéos et audios ?

N. O. : Le projet DeTOX est mené en partenariat avec l’Eurecom (école d'ingénieur et centre de recherche en sciences du numérique). Au lieu d’essayer de développer une solution universelle trop complexe à mettre en œuvre et peu fiable, notre objectif est de proposer une réponse personnalisée aux attaques pour la détection des deepfakes pour des personnalités ciblées.

Le projet BRUEL, mené en collaboration avec le laboratoire d’informatique d’Avignon, l’Eurecom, le Commissariat à l’énergie atomique et le centre national de la police judiciaire, s’intéresse, quant à lui, à la détection des deepfakes audio. Il explore les possibilités de combiner la détection de la manipulation avec l’authentification du locuteur.

Par ailleurs, nous sommes en train d’essayer de définir une grille permettant d’échelonner les attaques en fonction de leur complexité de mise en œuvre (expertise, ressources matérielles et logistiques, etc.). Cela permet, par exemple, de distinguer une attaque réalisée par un individu sans expertise particulière, avec des moyens librement accessibles et facilement utilisables, d’attaques réalisées par des États nécessitant une forte expertise et des ressources conséquentes. Nous souhaitons ensuite évaluer la fiabilité des algorithmes de détection en fonction du niveau d’attaque.

Quelles sont vos projections concernant l'évolution de la technologie des deepfakes dans les années à venir ?

N. O. : Si des propositions sont faites pour faire barrage aux deepfakes à la source, dès la captation, en créant une sorte de sceau d’authenticité, la réponse principale n’est, selon moi, pas technologique : une large campagne d’éducation aux risques du numérique doit être pensée.

Face au déferlement massif de fausses informations sur les réseaux, leur vitesse de propagation et leur réalisme toujours plus poussé, toute donnée médiatisée par le numérique doit être sujette à caution et à l’exercice d’un doute systématique. Nous devons apprendre à vérifier l’information, par exemple en la recoupant avec d’autres sources.

Nicolas Obin

Maître de conférences à la faculté des Sciences et Ingénierie de Sorbonne Université et chercheur dans l'équipe Analyse et synthèse des sons du laboratoire Sciences et technologies de la musique et du son (Ircam, CNRS, Sorbonne Université, Ministère de la Culture), Nicolas Obin s’intéresse notamment à la communication entre les humaines, les animaux, et les robots, notamment vocale et à la modélisation de comportements humains. Il est spécialisé en modélisation générative de signaux sonores et notamment pour la simulation de productions humaines complexes (chant, parole, musique) avec diverses applications dans la synthèse et la transformation de la parole, comme par exemple les assistants vocaux, l'animation d'agents virtuels, la robotique humanoïde et les deep fakes.

Responsable du master Ingénierie des systèmes intelligents (ISI) et co-responsable de la formation professionnelle Deep learning par la pratique, il enseigne le traitement numérique du signal audio, le deep learning, et la biométrie.

En 2020, il a fondé DeepVoice, un événement parisien sur les technologies vocales et l'intelligence artificielle, en 2021, SophIA, l'association étudiante de Sorbonne Université pour l'Intelligence Artificielle en collaboration avec SCAI, et, en 2022, les Fast-Forward, des rencontres informelles et expérimentales des sciences et technologies et du sound design au cinéma qui rassemblent la communauté des sound designers du cinéma pour imaginer les pratiques sonores du futur.

Impliqué dans la promotion des sciences et technologies numériques pour les arts, la culture et le patrimoine, il a collaboré avec des musiciens et artistes comme Eric Rohmer, Philippe Parreno, Roman Polansky, Leos Carax, George Aperghis ou Alexander Schubert.