Bei Anruf: fake!
Wenige Sekunden einer Sprachaufnahme reichen heute aus, um eine Stimme zu klonen und sie alles sagen zu lassen, was man will. Der rasante Fortschritt von Voice-Cloning-Technologien dürfte gravierende Folgen für Wirtschaft und Gesellschaft haben. Die wichtigsten Gegenmittel: Aufklärung, ein geschultes Gehör und noch besser trainierte Erkennungssysteme.

Ein Audioclip, in dem der britische Premier Keir Starmer auf der Plattform X angeblich gestand, seine Wählerschaft zu hintergehen, wurde 1,4 Millionen Mal aufgerufen. Das Unternehmen Ferrari entging im letzten Sommer nur knapp einem Deepfake-Betrug. Denn ein umsichtiger Manager reagierte klug auf einen verdächtigen Anruf des täuschend echt klingenden Unternehmenschefs: Er stellte eine Frage, deren Antwort nur der echte Chef wissen konnte.
Fälle von Desinformation, Trickbetrug oder Industriespionage durch gefälschte Stimmen nehmen weltweit zu. Alle fünf Minuten soll es 2024 laut dem Identity Fraud Report des Entrust Cybersecurity Institute einen Deepfake-Betrugsversuch gegeben haben. Der Sicherheitsanbieter Signicat registrierte innerhalb von drei Jahren ein Plus von 2 137 Prozent solcher Angriffe auf europäische Banken, Versicherungen und Zahlungsspezialisten. Gleichzeitig gehen mit den neuen Möglichkeiten KI-generierter Sprache nicht nur Risiken einher, sondern auch Chancen: sei es die Rekonstruierung der Stimme sprachbehinderter Menschen, neue Entwicklungen in der Synchronisierung von Filmen oder gar die digitale Bewahrung von Stimmen verstorbener Menschen.
Fest steht: Deepfake-Technologien werden unsere mediale Realität zunehmend verändern. Das konstatiert die Studie «Deepfakes und manipulierte Realitäten» des Fraunhofer-Instituts für System- und Innovationsforschung ISI. Die Empfehlungen der Autorinnen und Autoren: Neben staatlichen Bemühungen zur Plattformregulierung muss die Selbstverantwortung jedes und jeder Einzelnen durch entsprechende Bildungsangebote verbessert werden. Medien können mit hohen journalistischen Standards zur besseren Erkennung und Aufklärung der Bevölkerung beitragen. Zudem sollten sich Unternehmen und Organisationen durch interne Risikoabschätzungen sowie präventive und reaktive Massnahmen auf die zunehmende Verbreitung von Deepfakes vorbereiten.
Mensch vs. KI: Wer erkennt Fälschungen besser?
Im Gegensatz zur noch recht aufwändigen Erstellung von Deepfake-Videos lassen sich Audioinhalte mit hoher Qualität schon mit vergleichsweise geringem Aufwand manipulieren. Gleichzeitig sind sie schwerer zu identifizieren, weil visuelle Hinweise fehlen. Wie gut sind Menschen darin, solche manipulierten Audiospuren zu erkennen? Das hat Dr. Nicolas Müller vom Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC in einem Experiment untersucht. Er liess 472 Teilnehmende in einem Spiel gegen einen KI-Algorithmus antreten, um zwischen echten und gefälschten Audio-Proben zu unterscheiden. Sowohl die Menschen als auch die KI hörten jeweils eine Audiospur und mussten entscheiden, ob es sich um eine echte Stimme oder ein Deepfake handelte.
«Ohne Training fallen Menschen auf jede dritte Fake-Stimme herein.»
Die Bilanz nach fast 15 000 angehörten Dateien: «Der Mensch erkennt ungeübt etwa zwei Drittel der Fälschungen, kann sich mit etwas Übung aber bis auf 80 Prozent hocharbeiten», so der Forscher. «Die Erfolgsquote der KI liegt – immer abhängig vom Schwierigkeitsgrad – bei weit über 95 Prozent.» Doch das Spiel lieferte noch weitere wertvolle Befunde: So lassen sich ältere Personen häufiger von Deepfakes täuschen als jüngere. Muttersprachler zeigen deutliche Vorteile gegenüber Nicht-Muttersprachlern, IT-Profis gegenüber Laien jedoch nicht. «Diese Erkenntnisse können bei der Entwicklung effektiverer Trainingsprogramme für Cybersicherheit und bei der Verbesserung von Erkennungsalgorithmen hilfreich sein», erklärt Müller. Weil Übung ein so wichtiger Faktor für das Erkennen KI-generierter Audiofakes ist, haben er und sein Team das interaktive Spiel «Spot the Deepfake» auf ihrer Plattform Deepfake Total (siehe QR Code) veröffentlicht und somit für jeden zugänglich gemacht.
Audiofake-Erkennung: Vielfalt gewinnt
Die Plattform Deepfake Total entwickelte Nicolas Müller mit seinem Team als öffentliches Erkennungstool für Audiofakes. Jeder kann dort verdächtige Audiospuren kostenlos hochladen und von einer KI analysieren lassen. Im Gegensatz zu anderen kommerziellen Erkennungstools auf dem Markt ist die Fraunhofer-Plattform kostenlos – und in Deutschland gehostet. Ihr KI-Modell trainieren die Forschenden sowohl mit öffentlichen als auch selbst erstellten Datensätzen, die Beispiele originaler und gefälschter Audiospuren enthalten. Von der Qualität dieser Trainingsdaten hängt die Zuverlässigkeit der Erkennung ab. Dabei geht es nicht nur darum, möglichst viele Daten zusammen zu tragen, sondern sie auch clever zu kombinieren und ausgewogen aufzubereiten, damit es keine unerwünschten Lerneffekte gibt. «Das einzige Unterscheidungsmerkmal in einem guten Trainingsdatensatz soll sein, ob die Autospur echt oder falsch ist», erklärt Müller. «Es gilt also zu vermeiden, dass die KI lernt, dass etwa Männer häufiger als Frauenstimmen gefälscht sind, oder Datensätze anhand von Hintergrundgeräuschen, Akzent, Länge oder Lautstärke unterscheidet.» Weil die Daten aus so unterschiedlichen Quellen stammen, ist das nicht so einfach. «Man muss verstehen, welche einzelnen Informationen diese Audiospuren enthalten und sie dann so arrangieren, dass die nicht relevanten Eigenschaften möglichst ausgewogen sind. Während sich bei Videos heute schon gut analysieren lässt, anhand welches Bildteils die KI unterscheidet, ist das bei Audio noch etwas schwieriger.»
Einen solchen Datensatz entwickeln die Forschenden am Fraunhofer AISEC mit dem Multi-Language Audio Antispoofing Dataset (MLAAD) kontinuierlich weiter. Er ist Trainingsgrundlage für ihr KI-Erkennungsmodell, steht aber auch der Forschungsgemeinschaft öffentlich zur Verfügung. Die Herausforderung: Es gibt eine Vielzahl an Text-to-Speech-Systemen, um Audiospuren zu manipulieren, die jeweils ganz eigene Charakteristika haben. Während die einen gut darin sind, emotionale Sprache zu erzeugen, stellen andere eine nahezu perfekte stimmliche Ähnlichkeit zur Zielperson her. Um möglichst viele solcher Eigenheiten abzudecken, umfasst der MLAAD-Datensatz derzeit über 90 verschiedene solcher Systeme und wird ständig um die neuesten erweitert. So erreicht das Tool auch bei neuen, noch unbekannten Audio-Deepfakes hohe Erkennungsraten. Neben der technologischen Vielfalt bietet der Datensatz mit über 35 Sprachen auch die bislang grösste sprachliche Bandbreite im Vergleich zu derzeit öffentlich verfügbarer Datensätze, von denen die meisten nur englische oder chinesische Audiospuren beinhalten.
Nicht nur bei den Trainingsdaten für KI-Erkennungstools sind Vielfalt und Ausgewogenheit der Schlüssel zum Erfolg. Auch im Kampf gegen die negativen Folgen von Audiofakes. «Dem aufkommenden Deepfake-Zeitalter werden wir nur mit einer Kombination aus besserer technischer Erkennung, Aufklärung sowie einem gestärkten Bewusstsein in der Gesamtbevölkerung entgegentreten können», ist Nicolas Müller überzeugt.
Audiofakes gratis erkennen mithilfe der Plattform Deepfakes Total – inklusive Trainingsspiel
Mandy Bartel
Pressereferentin, Fraunhofer Gesellschaft
fraunhofer.de
Dieser Text erschien zuerst im Fraunhofer Magazin 2/25. Das gesamte Magazin zum Thema Sicherheit und Infrastruktur können Sie hier lesen.

