KI ist vermutlich das Buzzword des Jahrzehnts. Kaum eine Innovation prägt derzeit unsere technische Entwicklung und den gesellschaftlichen Diskurs so sehr wie die künstliche Intelligenz. Programme wie ChatGPT können dabei ziemlich nützlich sein und so gibt es immer mehr Nutzer*innen, die sich dieser Technologie zuwenden. Doch was passiert, wenn die Technologie zu gut wird, so wie Microsofts neueste Sprach-KI?

KI mit menschlicher Qualität

Aussagen von Microsoft-Entwickler*innen zufolge, die an dem Projekt VALL-E 2 mitgearbeitet haben, erreicht die neue Sprach-KI „erstmals menschliche Parität” heißt es in einem Artikel der Microsoft-Entwickler*innen auf dem Preprint-Server arXiv – und das mit nur wenigen Sekunden an Audiomaterial, um das Programm zu trainieren.

Das KI-Modell sei dabei „präzise, natürliche Sprache in der exakten Stimme des ursprünglichen Sprechers zu erzeugen, vergleichbar mit menschlicher Leistung“, führen sie fort. Damit soll VALL-E 2 so gut darin sein, menschliche Stimmen nachzuahmen, dass man es aus Angst vor Missbräuchen nicht öffentlich machen will.

Lesetipp: Erste KI gegen wütende Kunden*innen

Das Geheimrezept der Sprach-KI

Zwei entscheidende Funktionen der Sprach-KI machen diese Leistung möglich: Das sogenannte „Repetition Aware Sampling“ und „Grouped Code Modeling“.
Repetition Aware Sampling soll dabei helfen, dass VALL-E 2 besser klingende Sprache erzeugt. Es verhindert, dass Wörter oder Wortteile ständig wiederholt werden, wodurch die KI flüssiger und natürlicher spricht.

Grouped Code Modeling macht die KI hingegen schneller und effizienter. Dafür verringert es die Anzahl der Wörter oder Wortteile, die zeitgleich verarbeitet werden. Dadurch kann VALL-E 2 schneller Sprache erzeugen und besser mit langen Tonfolgen umgehen.

Um zu überprüfen, wie gut VALL-E 2 menschliche Stimmen nachahmen kann, nutzten die Forscher*innen Sprachaufnahmen aus den Bibliotheken LibriSpeech und VCTK. Darüberhinaus zogen sie ELLA-V heran – ein Bewertungssystem, um die Genauigkeit und Qualität der Ergebnisse der Sprach-KI bei schwierigeren Aufgaben zu messen. Anschließend kamen die Forschenden zu dem Schluss: Die KI VALL-E 2 „ist das erste seiner Art, das bei diesen Benchmarks menschliches Niveau erreicht.“

Auch interessant: Asylverfahren per KI – Scholz präsentiert kontroversen Plan

Zu gefährlich, trotzdem praktische Anwendungsfelder?

Trotz der beeindruckenden Leistungsfähigkeit dieser KI soll VALL-E auf absehbare Zeit nicht das Licht der Öffentlichkeit erblicken. Dafür gibt es seitens Microsoft zu viele Sorgen, für mögliche Missbräuche des Sprach-Modells.

„VALL-E 2 ist ein reines Forschungsprojekt. Derzeit haben wir keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den Zugang für die Öffentlichkeit zu erweitern“, erklärten die Microsoft-Entwickler*innen in einem Blogbeitrag. „Es kann potenzielle Risiken bei Missbrauch des Modells bergen, wie etwa die Fälschung der Stimmerkennung oder die Nachahmung eines bestimmten Sprechers.“

Dennoch können die Entwickler*innen sich auch praktische Einsatzfelder der Sprach-KI vorstellen: „VALL-E 2 könnte Sprache synthetisieren, die die Identität des Sprechers beibehält und für pädagogisches Lernen, Unterhaltung, journalistische Inhalte, selbst verfasste Inhalte, Zugänglichkeitsfunktionen, interaktive Sprachantwortsysteme, Übersetzungen, Chatbots usw. verwendet werden könnte“

Quellen: Microsoft, arXiv

Seit dem 24. Februar 2022 herrscht Krieg in der Ukraine. Hier kannst du den Betroffenen helfen.

Zu gefährlich: Diese Sprach-KI hält Microsoft vor Nutzern verborgen

KI mit menschlicher Qualität

Das Geheimrezept der Sprach-KI

Zu gefährlich, trotzdem praktische Anwendungsfelder?