KI-Stimmen sind schwer zu erkennen, selbst wenn man weiß, dass es sich möglicherweise um einen Deepfake handelt

Im Jahr 2019 fiel der Direktor eines britischen Unternehmens auf einen Betrug herein. Er erhielt eine gefälschte Voicemail von seinem Vorgesetzten, in der er ihn aufforderte, 220.000 Euro (240.000 US-Dollar) an einen Lieferanten zu überweisen. Ein Jahr später erhielt ein Bankmanager in Hongkong einen Anruf von jemandem, der ihm bekannt vorkam. Da zwischen ihnen eine Geschäftsbeziehung bestand, überwies der Bankier 400.000 US-Dollar, bevor ihm klar wurde, dass etwas nicht stimmte. Betrügereien wie diese, bei denen die Technologie zum Klonen von Stimmen mithilfe künstlicher Intelligenz (KI) zum Einsatz kommt, kommen immer häufiger vor, und das Erkennen gefälschter Stimmen wird immer schwieriger, da sich die KI rasch verbessert, selbst für geschulte Personen, die spezielle Tools verwenden.

Eine kürzlich in Plos One veröffentlichte Studie mit 529 Teilnehmern ergab, dass Menschen Schwierigkeiten haben, zwischen echten und gefälschten Sprachnachrichten genau zu unterscheiden. Die Studie ergab, dass die Teilnehmer in 25 % der Fälle scheiterten, als sie versuchten, Voice-Deepfakes zu erkennen, und selbst das Training hatte nur minimale Auswirkungen. Die Hälfte der Teilnehmer erhielt zuvor ein Training durch Anhören von fünf synthetisierten Sprachbeispielen, ihre Leistung war jedoch nur 3 % besser als die der nicht trainierten Gruppe.

Die Studie von Forschern des University College London (UK) zielte auch darauf ab, herauszufinden, ob die Herausforderung je nach den Merkmalen der verschiedenen Sprachen einfacher oder schwieriger war, und führten die Tests daher auf Englisch und Mandarin durch. Die Ergebnisse deuten darauf hin, dass beide Gruppen die Authentizität der Nachrichten gleich bewerteten. Als wichtige Faktoren betrachteten sie Attribute wie Natürlichkeit und das Fehlen einer roboterhaft klingenden Stimme. „Sowohl englischsprachige als auch mandarinsprachige Teilnehmer gaben häufig falsche Aussprache und atypische Betonung in den Soundclips als Faktoren an, die ihren Entscheidungsprozess beeinflussten“, sagte Kimberly Mai, Hauptautorin der Studie.

Die Teilnehmer erwähnten dieselben Merkmale, unabhängig von der Genauigkeit der Antwort. Dies liegt daran, dass Audio subjektiv ist. Im Gegensatz zur Erkennung visueller Deepfakes, bei denen die Authentizität anhand der Beobachtung von Objekten und Hintergründen beurteilt werden kann, führt die subjektive Natur der Sprache dazu, dass die Wahrnehmung stärker variiert. „Wenn man sich ein potenziell gefälschtes Bild einer Person ansieht, kann man die Anzahl der Finger zählen oder sehen, ob ihre Kleidung und Accessoires übereinstimmen“, sagte Mai.

Um menschliche und technologische Fähigkeiten zu vergleichen, testeten die Forscher außerdem zwei automatisierte Erkennungssysteme. Die erste verwendete Software wurde auf einer unabhängigen Datenbank trainiert und erreichte eine Genauigkeit von 75 %, ähnlich wie menschliche Antworten. Der zweite Detektor, der sowohl auf die Original- als auch auf die synthetisierte Sprachversion trainiert wurde, erreichte eine 100-prozentige Genauigkeit bei der Identifizierung von gefälschten und echten Audiodaten. Mai sagt, dass fortschrittliche Programme den Menschen aufgrund ihrer Fähigkeit übertreffen, subtile akustische Nuancen zu erkennen, was Menschen nicht können.

Komplexe Geräusche bestehen wie die menschliche Sprache aus verschiedenen Frequenzen. Die Frequenz gibt an, wie oft sich eine Schallwelle in einer Sekunde wiederholt. „Automatisierte Detektoren analysieren während ihrer Trainingsphase Tausende von Sprachproben und lernen Besonderheiten in bestimmten Frequenzbereichen und rhythmischen Unregelmäßigkeiten kennen, die Menschen nicht erkennen können“, sagte Mai.

Automatisierte Detektoren haben sich bei dieser Aufgabe als effektiver als Menschen erwiesen, sie weisen jedoch auch Einschränkungen auf. Erstens sind sie nicht für den täglichen Gebrauch verfügbar. Darüber hinaus nimmt ihre Leistung ab, wenn der Audiopegel schwankt und in lauten Umgebungen. Die größte Herausforderung besteht jedoch darin, mit den Fortschritten der generativen künstlichen Intelligenz Schritt zu halten, die immer realistischere Inhalte produziert, die viel schneller synthetisiert werden. Früher erforderte das Trainieren eines Programms zum Erstellen von Deepfakes stundenlange Aufzeichnungen, doch jetzt ist dies in Sekundenschnelle erledigt.

Laut Fernando Cucchietti, einem Experten auf diesem Gebiet, weisen die Ergebnisse der Studie gewisse Einschränkungen auf. Die Versuchsbedingungen waren streng kontrolliert und nicht repräsentativ für die realen Herausforderungen, die diese Technologie mit sich bringt. „Sie sind nicht wirklich praktisch in Situationen, in denen Deepfakes Probleme verursachen können, etwa wenn man die nachgeahmte Person persönlich kennt“, sagte Cuchietti, Leiter der Datenanalyse und -visualisierung am Barcelona Supercomputing Centre des spanischen Science Media Center. Cucchietti weist jedoch darauf hin, dass diese Ergebnisse mit anderen Studien in kontrollierten Umgebungen übereinstimmen und „... die Ergebnisse weniger von Faktoren wie Vorurteilen oder vorgefassten Meinungen beeinflusst werden, wie in Studien zu Fehlinformationen zu sehen ist.“

Auf individueller Ebene fällt es den Menschen schwer, Voice-Deepfakes zuverlässig zu erkennen. Untersuchungen legen jedoch nahe, dass die Aggregation der Meinungen mehrerer Personen und das Treffen von Entscheidungen auf der Grundlage von Mehrheitsentscheidungen die Erkennungsfähigkeiten verbessern. „Wenn Sie auf eine ungewöhnliche Audionachricht stoßen, die Zweifel aufkommen lässt, etwa wenn Sie dazu aufgefordert werden, einen großen Geldbetrag zu überweisen, ist es immer eine gute Idee, mit anderen zu sprechen und noch einmal zu überprüfen, woher die Nachricht kommt“, sagte Mai.

Mai schlägt vor, automatisierte Detektoren zu verbessern, indem ihre Widerstandsfähigkeit gegenüber Schwankungen im Testton erhöht wird. Ihr Team adaptiert derzeit erfolgreiche Modelle aus anderen Bereichen, etwa Text und Bild. „Da diese Modelle viele Daten für das Training verwenden, können wir davon ausgehen, dass sie Variationen in Soundclips besser erkennen können.“ Mai ist auch der Ansicht, dass Institutionen handeln müssen. „Sie sollten es zu einer Priorität machen, Strategien wie Vorschriften und Richtlinien umzusetzen, um die Risiken im Zusammenhang mit Voice Deepfakes zu mindern.“

Melden Sie sich für unseren wöchentlichen Newsletter an, um weitere englischsprachige Nachrichten aus der EL PAÍS USA Edition zu erhalten