Wenn die KI anruft – Hacker klonen Stimme in 5 Sekunden

Hacker Symbolbild

KI-Experten haben eine neue Waffe in die Hände von Hackern gegeben, die es ihnen ermöglicht, die Stimmen von beliebigen Personen zu klonen und somit eine besonders effektive Form des Telefonbetruges durchzuführen. Dafür wird nur eine 5 Sekunden lange Stimmprobe des Opfers benötigt.

Kennen Sie schon unsere Services im Bereich der IT-Sicherheit?

Voice Phishing: Wenn der Hacker zum Telefon greift

Phishing E-Mails sind dank der wachsenden Beliebtheit von Security Awareness Trainings mittlerweile vielen Leuten ein Begriff. Dabei werden gefälschte E-Mails versendet, die den Anschein erwecken, von seriösen Quellen wie Banken, Einkaufswebsites und Online-Diensten zu stammen. Im Falle von Unternehmen nutzen Hacker Informationsquellen wie Xing oder die Firmenwebsite, um an die Identität von Vorgesetzten und Kollegen zu gelangen.

Mit zunehmender Beliebtheit verwenden Hacker eine Abwandlung der Phishing Angriffe, die den Namen Voice Phishing trägt. Diese Angriffe funktionieren ähnlich wie Phishing-E-Mails, mit dem Unterschied, dass der Hacker zum Telefonhörer greift. Er ruft einen Mitarbeiter auf dessen Handy oder Festnetztelefon an und gibt sich als Chef oder eine andere hochrangige Führungskraft aus. Der Hacker bittet unter einem Vorwand um sensible Informationen wie einem Passwort oder interne Informationen über derzeitige Kunden. Auch die Überweisung von Firmengeldern zählt zu den beliebten Zielen der Angreifer.

Künstliche Intelligenz erzeugt „menschliche“ Stimmen

„Alexa, mach das Licht an!“ – Die Antwort klingt meist noch etwas künstlich, doch das muss nicht sein. Die Forscher des bekannten Webbrowser-Entwicklers Mozilla haben mit ihrem Open-Source Projekt Mozilla TTS (Kurzform von Text-to-Speech) bereits 2021 demonstriert, dass KI-Technologien die Synthetisierung von Stimmen basierend auf einer Texteingabe ermöglicht. Ein hohes Budget ist dafür nicht erforderlich – das Tool ist kostenlos. Die Ergebnisse sind von einer menschlichen Stimme kaum noch zu unterscheiden. Dabei stehen dem Nutzer ein gutes Dutzend verschiedener Deep Learning Modelle zur Verfügung, die sich in Sprache, Geschlecht, Qualität und Stimme unterscheiden. Jedes dieser Modelle wurde über Tage mit Stimmproben einer Person trainiert. Die Qualität der Proben und Dauer des Trainings ist dabei maßgeblich für die Qualität der synthetisierten Stimme.

Neue KI-Technologie benötigt nur noch 5 Sekunden Stimmprobe

Mehrere Stunden hochqualitative Stimmproben von einem Geschäftsführer zu erhalten, ist praktisch kaum umsetzbar. Einige Minuten Stimmproben aus einem YouTube-Video des Firmenkanals oder einem Interview zu erhalten, ist hingegen möglich.

Das wissenschaftliche Paper Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis von Jua et al. (2018) stellte eine Technik vor, die es ermöglicht, mit nur 5 Sekunden Stimmprobe eine Stimme nahezu perfekt zu klonen. Programme wie Real-Time-Voice-Cloning implementiert diese Technik und macht sie für jeden frei zugänglich. Dabei wird ein vortrainiertes KI-Modell verwendet, welches beispielsweise auf 200 Stunden deutscher Stimmproben verschiedener Personen trainiert wurde. Im letzten Schritt wird durch das sogenannte „Transfer Learning“ die 5 Sekunden lange Stimmprobe der eigentlichen Zielperson verwendet, um das Machine Learning Modell umzuprogrammieren.

Stimmproben und Beispielausgaben finden Sie hier

Eine Demonstration dieser Technologie finden Sie auf dieser Seite. Dabei sehen Sie 5 verschiedene, jeweils 5 Sekunden lange, Stimmproben und darunter die Ergebnisse der KI, welche auf diese Stimmprobe umprogrammiert wurde.

Hacker nutzen KI bei Voice Phishing Angriffen und erbeuten Millionen

Die Technik des Transfer Learnings wurde bereits von Hackern angewendet. So erhielt eine Bank in Hongkong einen Anruf von dem vermeintlichen Geschäftsführer einer ihrer Kunden. Der Auftrag: 35 Millionen Dollar des eigenen Firmenkontos an ein anderes Unternehmen zu überweisen. Da der Bankmanager die Stimme wiedererkannte und eine augenscheinlich valide Bestätigung über E-Mail erhielt, begann er mit den Überweisungen. Dahinter verbarg sich jedoch nicht der besagte Kunde, sondern ein Hacker der einen Voice Phishing Angriff ausführte. (Quelle: Forbes)

Einziger Schutz: Security Awareness

Eine technische Lösung wie ein Antivirenprogramm existiert derzeit nicht. Für den Schutz vor solchen Angriffen führen wir bei unseren Kunden Security Awareness Trainings durch. Bei diesen Schulungen wird das Bewusstsein für Sicherheitsrisiken geschärft und so sichere Computerpraktiken gefördert. Sie helfen den Teilnehmern, gängige Arten von Angriffen zu verstehen und zu vermeiden, und zeigen ihnen, wie sie reagieren können, wenn sie Opfer eines Angriffs werden. Forscher arbeiten derzeit an entgegengesetzten KI’s, die die KI-gestützte Manipulation (z.B. auch Deepfakes) erkennen kann. Das „Katz und Maus“ Spiel hat begonnen.