Lors de l'appel : fake !

Quelques secondes d'un enregistrement vocal suffisent aujourd'hui pour cloner une voix et lui faire dire tout ce que l'on veut. Les progrès fulgurants des technologies de clonage vocal devraient avoir de graves conséquences pour l'économie et la société. Les principaux antidotes : l'éducation, une oreille entraînée et des systèmes de reconnaissance encore mieux entraînés.

© IA-généré

Un clip audio dans lequel le Premier ministre britannique Keir Starmer aurait avoué sur la plateforme X avoir trompé son électorat a été visionné 1,4 million de fois. L'été dernier, l'entreprise Ferrari a échappé de justesse à une escroquerie deepfake. En effet, un manager prudent a réagi intelligemment à un appel suspect du chef d'entreprise à la voix trompeuse : il a posé une question dont seul le vrai chef pouvait connaître la réponse.

Les cas de désinformation, d'escroquerie ou d'espionnage industriel par le biais de voix falsifiées sont en augmentation dans le monde entier. Selon le rapport sur la fraude à l'identité de l'Entrust Cybersecurity Institute, il y aurait eu une tentative de fraude deepfake toutes les cinq minutes en 2024. Le fournisseur de sécurité Signicat a enregistré en trois ans une augmentation de 2 137 pour cent de telles attaques contre des banques, des assurances et des spécialistes du paiement européens. Parallèlement, les nouvelles possibilités offertes par la parole générée par l'IA ne s'accompagnent pas seulement de risques, mais aussi d'opportunités : qu'il s'agisse de la reconstruction de la voix de personnes handicapées de la parole, de nouveaux développements dans le domaine du doublage de films ou même de la conservation numérique de la voix de personnes décédées.

Une chose est sûre : Les technologies deepfake vont de plus en plus modifier notre réalité médiatique. C'est ce que constate l'étude «Deepfakes et réalités manipulées» du Fraunhofer-Institut für System- und Innovationsforschung ISI. Les recommandations des auteurs : Outre les efforts de l'État pour réguler les plateformes, il faut améliorer la responsabilité personnelle de chacun et chacune par des offres de formation appropriées. Les médias peuvent contribuer à une meilleure reconnaissance et à une meilleure information de la population grâce à des normes journalistiques élevées. En outre, les entreprises et les organisations devraient se préparer à la propagation croissante des deepfakes en procédant à des évaluations internes des risques et en prenant des mesures préventives et réactives.

Homme vs. IA : qui détecte le mieux les contrefaçons ?

Contrairement à la création encore assez complexe de vidéos deepfake, les contenus audio de haute qualité peuvent déjà être manipulés avec relativement peu d'efforts. En même temps, ils sont plus difficiles à identifier en raison de l'absence d'indices visuels. Dans quelle mesure les humains sont-ils capables de reconnaître de telles pistes audio manipulées ? C'est ce qu'a étudié le Dr Nicolas Müller de l'Institut Fraunhofer pour la sécurité appliquée et intégrée AISEC dans le cadre d'une expérience. Il a fait concourir 472 participants contre un algorithme d'IA dans le cadre d'un jeu visant à distinguer les échantillons audio authentiques des échantillons falsifiés. Les personnes et l'IA ont chacune entendu une piste audio et ont dû décider s'il s'agissait d'une vraie voix ou d'un deepfake.

«Sans formation, les gens tombent dans le panneau d'une fausse voix sur trois».»

Bilan après près de 15 000 fichiers écoutés : «L'être humain, non entraîné, reconnaît environ deux tiers des contrefaçons, mais avec un peu d'entraînement, il peut monter jusqu'à 80 pour cent», explique le chercheur. «Le taux de réussite de l'IA - toujours en fonction du niveau de difficulté - dépasse largement les 95 pour cent». Mais le jeu a livré d'autres résultats précieux : ainsi, les personnes âgées se laissent plus souvent tromper par des deepfakes que les jeunes. Les locuteurs natifs montrent de nets avantages par rapport à ceux qui ne le sont pas, mais pas les professionnels de l'informatique par rapport aux profanes. «Ces connaissances peuvent être utiles pour développer des programmes de formation plus efficaces en matière de cybersécurité et pour améliorer les algorithmes de détection», explique Müller. La pratique étant un facteur si important pour la reconnaissance des fakes audio générés par l'IA, lui et son équipe ont publié le jeu interactif «Spot the Deepfake» sur leur plateforme Deepfake Total (voir code QR), le rendant ainsi accessible à tous.

Détection des fakes audio : la diversité gagne

La plateforme Deepfake Total a été développée par Nicolas Müller et son équipe comme outil public de détection des fakes audio. Chacun peut y télécharger gratuitement des pistes audio suspectes et les faire analyser par une IA. Contrairement à d'autres outils de reconnaissance commerciaux sur le marché, la plateforme de Fraunhofer est gratuite - et hébergée en Allemagne. Les chercheurs entraînent leur modèle d'IA à l'aide de jeux de données publics et de jeux de données qu'ils ont eux-mêmes créés et qui contiennent des exemples de pistes audio originales et falsifiées. La fiabilité de la reconnaissance dépend de la qualité de ces données d'entraînement. Il ne s'agit pas seulement de rassembler le plus de données possible, mais aussi de les combiner intelligemment et de les traiter de manière équilibrée afin d'éviter tout effet d'apprentissage indésirable. «La seule caractéristique distinctive dans un bon jeu de données d'entraînement doit être de savoir si la piste de voiture est vraie ou fausse», explique Müller. «Il faut donc éviter que l'IA apprenne par exemple que les voix d'hommes sont plus souvent contrefaites que celles des femmes, ou qu'elle distingue des jeux de données en fonction du bruit de fond, de l'accent, de la longueur ou du volume». Comme les données proviennent de sources si différentes, ce n'est pas si simple. «Il faut comprendre quelles sont les informations individuelles contenues dans ces pistes audio, puis les arranger de manière à ce que les caractéristiques non pertinentes soient aussi équilibrées que possible. Alors que pour les vidéos, il est déjà facile aujourd'hui d'analyser à partir de quelle partie de l'image l'IA fait la différence, c'est encore un peu plus difficile pour l'audio».»

Les chercheurs du Fraunhofer AISEC développent en permanence un tel jeu de données avec le Multi-Language Audio Antispoofing Dataset (MLAAD). Il sert de base d'entraînement pour leur modèle de reconnaissance IA, mais est également à la disposition de la communauté scientifique. Le défi : il existe une multitude de systèmes text-to-speech pour manipuler les pistes audio, chacun ayant ses propres caractéristiques. Alors que certains sont doués pour produire un langage émotionnel, d'autres créent une ressemblance vocale presque parfaite avec la personne cible. Afin de couvrir le plus grand nombre possible de ces particularités, le jeu de données MLAAD comprend actuellement plus de 90 systèmes différents de ce type et est constamment complété par les plus récents. L'outil atteint ainsi des taux de reconnaissance élevés même pour les nouveaux deepfakes audio encore inconnus. En plus de la diversité technologique, le jeu de données offre également, avec plus de 35 langues, la plus grande diversité linguistique en comparaison avec les jeux de données actuellement disponibles dans le domaine public, dont la plupart ne contiennent que des pistes audio en anglais ou en chinois.

La diversité et l'équilibre ne sont pas seulement les clés du succès pour les données d'entraînement des outils de reconnaissance de l'IA. C'est également le cas dans la lutte contre les conséquences négatives des fakes audio. «Nous ne pourrons faire face à l'ère émergente des deepfakes qu'en combinant une meilleure détection technique, l'éducation ainsi qu'une sensibilisation accrue de l'ensemble de la population», est convaincu Nicolas Müller.

Reconnaître gratuitement les fakes audio à l'aide de la plateforme Deepfakes Total - jeu d'entraînement inclus

Mandy Bartel

Attachée de presse, Fraunhofer Gesellschaft

fraunhofer.de

Ce texte est d'abord paru dans le magazine Fraunhofer 2/25. Vous pouvez lire l'intégralité du magazine sur le thème de la sécurité et de l'infrastructure ici.

(Visited 205 times, 28 visits today)

Plus d'articles sur le sujet

ACTUALITÉS SUR LA SÉCURITÉ

Restez informé sur les thèmes actuels de la sécurité - de manière pratique et fiable. Recevez des contenus exclusifs directement dans votre boîte de réception. Ne manquez aucune mise à jour.

Inscrivez-vous maintenant !
s'inscrire
Vous pouvez vous désinscrire à tout moment !
close-link