Quando si chiama: falso!
Wenige Sekunden einer Sprachaufnahme reichen heute aus, um eine Stimme zu klonen und sie alles sagen zu lassen, was man will. Der rasante Fortschritt von Voice-Cloning-Technologien dürfte gravierende Folgen für Wirtschaft und Gesellschaft haben. Die wichtigsten Gegenmittel: Aufklärung, ein geschultes Gehör und noch besser trainierte Erkennungssysteme.

Un clip audio in cui il primo ministro britannico Keir Starmer avrebbe confessato di aver frodato i suoi elettori sulla piattaforma X è stato visualizzato 1,4 milioni di volte. L'estate scorsa l'azienda Ferrari è sfuggita per poco a una truffa deepfake. Un manager prudente ha reagito in modo intelligente a una telefonata sospetta da parte del capo dell'azienda che suonava ingannevolmente genuino: ha posto una domanda di cui solo il vero capo poteva conoscere la risposta.
I casi di disinformazione, frode e spionaggio industriale che utilizzano voci false sono in aumento in tutto il mondo. Secondo l'Entrust Cybersecurity Institute's Identity Fraud Report, nel 2024 ci sarà un tentativo di frode deepfake ogni cinque minuti. Il fornitore di sicurezza Signicat ha registrato un aumento del 2.137% di tali attacchi a banche, compagnie assicurative e specialisti dei pagamenti europei nell'arco di tre anni. Allo stesso tempo, le nuove possibilità del parlato generato dall'intelligenza artificiale non sono associate solo a rischi, ma anche a opportunità: che si tratti della ricostruzione della voce di persone con problemi di pronuncia, di nuovi sviluppi nella sincronizzazione dei film o persino della conservazione digitale delle voci di persone decedute.
Una cosa è certa: Le tecnologie deepfake cambieranno sempre più la nostra realtà mediatica. Questa è la conclusione dello studio «Deepfakes and manipulated realities» del Fraunhofer Institute for Systems and Innovation Research ISI. Le raccomandazioni degli autori: Oltre agli sforzi dei governi per regolamentare le piattaforme, è necessario migliorare la responsabilità personale di ogni singolo individuo attraverso programmi educativi adeguati. Con elevati standard giornalistici, i media possono contribuire a riconoscere ed educare meglio la popolazione. Inoltre, le aziende e le organizzazioni dovrebbero prepararsi alla crescente diffusione dei deepfakes attraverso valutazioni interne del rischio e misure preventive e reattive.
Umani contro IA: chi è più bravo a riconoscere le contraffazioni?
A differenza della creazione ancora piuttosto complessa di video deepfake, i contenuti audio di alta qualità possono essere manipolati con uno sforzo relativamente ridotto. Allo stesso tempo, sono più difficili da identificare perché non ci sono indizi visivi. Quanto sono brave le persone a riconoscere queste tracce audio manipolate? Il dottor Nicolas Müller dell'Istituto Fraunhofer per la sicurezza applicata e integrata AISEC ha condotto un esperimento in merito. Ha messo 472 partecipanti contro un algoritmo di intelligenza artificiale in un gioco per distinguere tra campioni audio reali e falsi. Sia gli esseri umani che l'IA hanno ascoltato una traccia audio e hanno dovuto decidere se si trattava di una voce reale o di un falso.
«Senza formazione, le persone si innamorano di una voce falsa su tre».»
Il risultato è stato ottenuto dopo l'ascolto di quasi 15.000 file: «Senza addestramento, gli esseri umani riconoscono circa due terzi delle contraffazioni, ma con un po» di pratica possono arrivare all«80%», spiega il ricercatore. «La percentuale di successo dell'intelligenza artificiale supera il 95%, a seconda del livello di difficoltà». Tuttavia, il gioco ha fornito anche altre preziose scoperte: le persone anziane hanno maggiori probabilità di essere ingannate dai deepfakes rispetto ai giovani. I madrelingua mostrano chiari vantaggi rispetto ai non madrelingua, ma i professionisti dell'IT no. «Questi risultati possono essere utili per sviluppare programmi di formazione sulla sicurezza informatica più efficaci e per migliorare gli algoritmi di rilevamento», spiega Müller. Poiché la pratica è un fattore così importante per riconoscere i falsi audio generati dall'intelligenza artificiale, Müller e il suo team hanno pubblicato il gioco interattivo "Spot the Deepfake" sulla loro piattaforma Deepfake Total (vedi codice QR), rendendolo accessibile a tutti.
Rilevamento dei falsi audio: la diversità vince
Nicolas Müller e il suo team hanno sviluppato la piattaforma Deepfake Total come strumento pubblico per riconoscere i falsi audio. Chiunque può caricarvi gratuitamente tracce audio sospette e farle analizzare da un'intelligenza artificiale. A differenza di altri strumenti di rilevamento commerciali presenti sul mercato, la piattaforma del Fraunhofer è gratuita e ospitata in Germania. I ricercatori addestrano il loro modello di intelligenza artificiale utilizzando set di dati pubblici e autogenerati contenenti esempi di tracce audio originali e false. L'affidabilità del riconoscimento dipende dalla qualità dei dati di addestramento. L'obiettivo non è solo quello di raccogliere il maggior numero di dati possibile, ma anche di combinarli in modo intelligente e di elaborarli in modo equilibrato, in modo da evitare effetti di apprendimento indesiderati. «L'unica caratteristica che distingue un buon set di dati di addestramento dovrebbe essere la genuinità o meno della traccia dell'auto», spiega Müller. «È quindi importante evitare che l'IA impari che le voci maschili sono più spesso false di quelle femminili, ad esempio, o che differenzi i set di dati in base al rumore di fondo, all'accento, alla lunghezza o al volume». Poiché i dati provengono da fonti così diverse, non è così facile. «Bisogna capire quali singole informazioni contengono queste tracce audio e poi disporle in modo che le caratteristiche irrilevanti siano il più possibile bilanciate». Mentre è già facile analizzare quale parte dell'immagine l'IA utilizza per differenziare i video, è un po' più difficile con l'audio".»
I ricercatori del Fraunhofer AISEC sviluppano continuamente un set di dati di questo tipo con il Multi-Language Audio Antispoofing Dataset (MLAAD). Costituisce la base per l'addestramento del loro modello di riconoscimento AI, ma è anche pubblicamente disponibile per la comunità di ricerca. La sfida: esistono diversi sistemi text-to-speech per la manipolazione di tracce audio, ognuno dei quali ha caratteristiche uniche. Mentre alcuni sono bravi a generare un discorso emotivo, altri creano una somiglianza vocale quasi perfetta con la persona di riferimento. Per coprire il maggior numero possibile di queste caratteristiche, il set di dati MLAAD comprende attualmente oltre 90 diversi sistemi di questo tipo e viene costantemente ampliato per includere quelli più recenti. Ciò consente allo strumento di raggiungere tassi di riconoscimento elevati anche per i nuovi deepfake audio ancora sconosciuti. Oltre alla diversità tecnologica, il set di dati offre anche la più ampia gamma linguistica fino ad oggi, con oltre 35 lingue rispetto ai set di dati attualmente disponibili pubblicamente, la maggior parte dei quali contiene solo tracce audio in inglese o cinese.
La diversità e l'equilibrio sono la chiave del successo, e non solo quando si tratta di dati di addestramento per gli strumenti di riconoscimento dell'intelligenza artificiale. Anche nella lotta contro le conseguenze negative dei falsi audio. «Saremo in grado di contrastare l'emergente era dei deepfake solo grazie a una combinazione di migliore rilevamento tecnico, educazione e maggiore consapevolezza da parte della popolazione nel suo complesso», è convinto Nicolas Müller.
Mandy Bartel
Addetto stampa, Fraunhofer Gesellschaft
fraunhofer.de
Questo testo è apparso per la prima volta sulla rivista Fraunhofer 2/25. Potete leggere l'intera rivista su sicurezza e infrastrutture qui.

