Da sich Deepfakes immer weiter verbreiten, verfeinert OpenAI die Technologie zum Klonen von Stimmen – das Unternehmen besteht jedoch darauf, dass es dabei verantwortungsvoll vorgeht.
Heute ist das Vorschau-Debüt von OpenAI Sprachmaschine, eine Erweiterung der bestehenden Text-to-Speech-API des Unternehmens. Voice Engine befindet sich seit etwa zwei Jahren in der Entwicklung und ermöglicht Benutzern das Hochladen einer beliebigen 15-sekündigen Sprachprobe, um eine synthetische Kopie dieser Stimme zu erstellen. Es gibt jedoch noch keinen Termin für die öffentliche Verfügbarkeit, so dass das Unternehmen Zeit hat, auf die Art und Weise zu reagieren, wie das Modell genutzt und missbraucht wird.
„Wir möchten sicherstellen, dass sich alle mit der Art und Weise ihrer Bereitstellung wohl fühlen – dass wir verstehen, wo diese Technologie gefährlich ist, und dass wir Abhilfemaßnahmen dafür ergreifen“, sagte Jeff Harris, Mitglied des Produktteams bei OpenAI TechCrunch im Interview.
Trainieren des Modells
Das generative KI-Modell, das Voice Engine antreibt, sei schon seit einiger Zeit im Verborgenen verborgen, sagte Harris.
Das gleiche Modell liegt den Sprach- und „Vorlese“-Funktionen in ChatGPT, dem KI-gestützten Chatbot von OpenAI, sowie den voreingestellten Stimmen zugrunde, die in der Text-to-Speech-API von OpenAI verfügbar sind. Und Spotify nutzt es seit Anfang September, um Podcasts für hochkarätige Moderatoren wie Lex Fridman in verschiedenen Sprachen zu synchronisieren.
Ich habe Harris gefragt, woher die Trainingsdaten des Modells stammen – ein etwas heikles Thema. Er würde nur sagen, dass das Voice Engine-Modell auf einem trainiert wurde mischen lizenzierter und öffentlich verfügbarer Daten.
Modelle wie das, das Voice Engine antreibt, werden anhand einer enormen Anzahl von Beispielen trainiert – in diesem Fall Sprachaufzeichnungen –, die normalerweise von öffentlichen Websites und Datensätzen im Internet stammen. Viele generativ KI-Anbieter betrachten Trainingsdaten als Wettbewerbsvorteil und halten diese und die damit verbundenen Informationen daher immer griffbereit. Aber auch Details zu Trainingsdaten sind eine potenzielle Quelle für Klagen im Zusammenhang mit geistigem Eigentum, ein weiterer Anreiz, viel preiszugeben.
OpenAI ist bereits Sein verklagt wegen Vorwürfen, das Unternehmen habe gegen IP-Recht verstoßen, indem es seine KI auf urheberrechtlich geschützte Inhalte trainiert habe, darunter Fotos, Grafiken, Code, Artikel und E-Books, ohne den Erstellern oder Eigentümern eine Nennung oder Bezahlung zu geben.
OpenAI verfügt über Lizenzvereinbarungen mit einigen Inhaltsanbietern wie Shutterstock und dem Nachrichtenverlag Axel Springer und ermöglicht es Webmastern, seinen Webcrawler daran zu hindern, ihre Website nach Trainingsdaten zu durchsuchen. OpenAI ermöglicht es Künstlern auch, sich von den Datensätzen abzumelden und ihre Arbeit daraus zu entfernen, die das Unternehmen zum Trainieren seiner bildgenerierenden Modelle, einschließlich seines neuesten DALL-E 3, verwendet.
Aber OpenAI bietet für seine anderen Produkte kein solches Opt-out-System an. Und in einer aktuellen Erklärung vor dem britischen Oberhaus wies OpenAI darauf hin, dass es „unmöglich“ sei, nützliche KI-Modelle ohne urheberrechtlich geschütztes Material zu erstellen, und bekräftigte, dass „Fair Use“ – die Rechtsdoktrin, die die Nutzung urheberrechtlich geschützter Werke für die Erstellung einer sekundären Schöpfung erlaubt solange es transformativ ist – schirmt es dort ab, wo es das Modelltraining betrifft.
Stimme synthetisieren
Überraschenderweise wurde die Voice Engine anhand von Benutzerdaten trainiert oder optimiert. Das liegt zum Teil an der kurzlebigen Art und Weise, wie das Modell – eine Kombination aus einem Diffusionsprozess und Transformator – erzeugt Sprache.
„Wir nehmen eine kleine Audioprobe und einen Text und erzeugen eine realistische Sprache, die dem ursprünglichen Sprecher entspricht“, sagte Harris. „Das verwendete Audio wird gelöscht, nachdem die Anfrage abgeschlossen ist.“
Wie er es erklärte, analysiert das Modell gleichzeitig die Sprachdaten, aus denen es zieht, und die Textdaten, die vorgelesen werden sollen, und generiert so eine passende Stimme, ohne dass für jeden Sprecher ein benutzerdefiniertes Modell erstellt werden muss.
Es ist keine neuartige Technologie. Eine Reihe von Startups liefern seit Jahren Produkte zum Klonen von Stimmen, von ElevenLabs über Replica Studios und Papercup bis hin zu Deepdub und Respeecher. Das gilt auch für etablierte Big-Tech-Unternehmen wie Amazon, Google und Microsoft – letzteres ist übrigens ein großer OpenAI-Investor.
Harris behauptete, dass der Ansatz von OpenAI insgesamt eine höhere Sprachqualität liefere.
Wir wissen auch, dass der Preis aggressiv sein wird. Obwohl OpenAI die Preise für Voice Engine aus den heute veröffentlichten Marketingmaterialien entfernt hat, wird in von TechCrunch eingesehenen Dokumenten angegeben, dass Voice Engine 15 US-Dollar pro einer Million Zeichen oder etwa 162.500 Wörter kostet. Das würde mit etwas Spielraum zu Dickens' „Oliver Twist“ passen. (Eine „HD“-Qualitätsoption kostet das Doppelte, aber verwirrenderweise sagte ein OpenAI-Sprecher gegenüber TechCrunch, dass es keinen Unterschied zwischen HD- und Nicht-HD-Stimmen gebe. Machen Sie daraus, was Sie wollen.)
Das entspricht etwa 18 Stunden Audio, was einem Preis von etwa 1 US-Dollar pro Stunde entspricht. Das ist in der Tat günstiger als das, was einer der bekannteren Konkurrenzanbieter, ElevenLabs, verlangt – 11 US-Dollar für 100.000 Zeichen pro Monat. Dies geht jedoch zu Lasten einiger Anpassungen.
Voice Engine bietet keine Steuerelemente zum Anpassen des Tons, der Tonhöhe oder der Kadenz einer Stimme. Tatsächlich bietet es derzeit keine Feinabstimmungsknöpfe oder -regler, obwohl Harris anmerkt, dass die Ausdruckskraft des 15-Sekunden-Stimmenbeispiels über nachfolgende Generationen hinweg erhalten bleibt (wenn Sie beispielsweise in einem aufgeregten Tonfall sprechen, wird die… Die resultierende synthetische Stimme wird durchweg aufgeregt klingen). Wir werden sehen, wie die Qualität der Messwerte im Vergleich zu anderen Modellen abschneidet, wenn diese direkt verglichen werden können.
Sprachtalent als Ware
Die Gehälter von Synchronsprechern bei ZipRecruiter liegen zwischen 12 und 79 US-Dollar pro Stunde – viel teurer als bei Voice Engine, selbst im unteren Preissegment (Schauspieler mit Agenten verlangen einen viel höheren Preis pro Projekt). Sollte es sich durchsetzen, könnte das OpenAI-Tool die Spracharbeit kommerzialisieren. Wo bleiben also die Schauspieler?
Die Talentbranche würde davon nicht überrascht sein – sie kämpft schon seit einiger Zeit mit der existenziellen Bedrohung durch generative KI. Von Synchronsprechern wird zunehmend verlangt, die Rechte an ihren Stimmen abzugeben, damit Kunden mithilfe von KI synthetische Versionen erzeugen können, die sie schließlich ersetzen könnten. Spracharbeit – insbesondere billige Einstiegsarbeit – läuft Gefahr, zugunsten KI-generierter Sprache abgeschafft zu werden.
Nun versuchen einige KI-Sprachplattformen, einen Ausgleich zu finden.
Replica Studios unterzeichnete letztes Jahr einen etwas umstritten Vertrag mit SAG-AFTRA über die Erstellung und Lizenzierung von Kopien der Stimmen der Mitglieder der Medienkünstlergewerkschaft. Die Organisationen sagten, dass die Vereinbarung faire und ethische Geschäftsbedingungen festlege, um die Zustimmung der Künstler sicherzustellen, während Bedingungen für die Verwendung synthetischer Stimmen in neuen Werken, einschließlich Videospielen, ausgehandelt würden.
ElevenLabs betreibt unterdessen einen Marktplatz für synthetische Stimmen, der es Benutzern ermöglicht, eine Stimme zu erstellen, zu überprüfen und öffentlich zu teilen. Wenn andere eine Stimme verwenden, erhalten die ursprünglichen Urheber eine Vergütung – einen festgelegten Dollarbetrag pro 1.000 Zeichen.
OpenAI wird keine derartigen Gewerkschaftsverträge oder Marktplätze einrichten, zumindest nicht in naher Zukunft, und verlangt lediglich, dass Benutzer eine „ausdrückliche Zustimmung“ von den Personen einholen, deren Stimmen geklont werden, und „klare Offenlegungen“ machen, aus denen hervorgeht, welche Stimmen KI-generiert sind vereinbaren, die Stimmen von Minderjährigen, Verstorbenen oder politischen Persönlichkeiten ihrer Generationen nicht zu verwenden.
„Wie sich dies mit der Synchronsprecherwirtschaft überschneidet, beobachten wir genau und sind sehr neugierig“, sagte Harris. „Ich denke, dass es durch diese Art von Technologie viele Möglichkeiten geben wird, die Reichweite als Synchronsprecher zu vergrößern. Aber das sind alles Dinge, die wir lernen werden, wenn die Leute die Technologie tatsächlich einsetzen und ein wenig damit spielen.“
Ethik und Deepfakes
Apps zum Klonen von Stimmen können – und wurden – auf eine Weise missbraucht werden, die weit über die Bedrohung der Existenz von Schauspielern hinausgeht.
Das berüchtigte Message Board 4chan, bekannt für seine verschwörerischen Inhalte, gebraucht Die Plattform von ElevenLabs zum Teilen hasserfüllter Nachrichten, die Prominente wie Emma Watson nachahmen. James Vincent von The Verge war in der Lage, KI-Tools zu nutzen, um Stimmen schnell und böswillig zu klonen. Erstellen Proben, die alles von gewalttätigen Drohungen bis hin zu rassistischen und transphoben Äußerungen enthalten. Und bei Vice dokumentierte der Reporter Joseph Cox die Erstellung eines Sprachklons, der überzeugend genug war, um das Authentifizierungssystem einer Bank zu täuschen.
Es gibt Befürchtungen, dass schlechte Akteure versuchen werden, Wahlen durch das Klonen von Stimmen zu beeinflussen. Und sie sind nicht unbegründet: Im Januar wurde in einer Telefonkampagne ein gefälschter Präsident Biden eingesetzt, um die Bürger von New Hampshire vom Wählen abzuhalten – was die FCC dazu veranlasste, Maßnahmen zu ergreifen, um solche Kampagnen in Zukunft illegal zu machen.
Abgesehen vom Verbot von Deepfakes auf politischer Ebene: Welche Schritte unternimmt OpenAI gegebenenfalls, um den Missbrauch von Voice Engine zu verhindern? Harris erwähnte einige.
Erstens wird Voice Engine zunächst nur einer außergewöhnlich kleinen Gruppe von Entwicklern – etwa 10 – zur Verfügung gestellt. OpenAI priorisiert Anwendungsfälle, die „risikoarm“ und „sozial vorteilhaft“ sind, sagt Harris, beispielsweise im Gesundheitswesen und in der Barrierefreiheit, und experimentiert außerdem mit „verantwortungsvollen“ synthetischen Medien.
Zu den ersten Anwendern von Voice Engine gehören Age of Learning, ein Edtech-Unternehmen, das das Tool nutzt, um Voice-Overs von zuvor gecasteten Schauspielern zu generieren, und HeyGen, eine Storytelling-App, die Voice Engine für Übersetzungen nutzt. Livox und Lifespan verwenden Voice Engine, um Stimmen für Menschen mit Sprachbehinderungen und Behinderungen zu erstellen, und Dimagi entwickelt ein Voice Engine-basiertes Tool, um Gesundheitspersonal Feedback in ihren Hauptsprachen zu geben.
Hier sind generierte Stimmen von Lifespan:
Und hier ist eines von Livox:
Zweitens werden mit Voice Engine erstellte Klone mithilfe einer von OpenAI entwickelten Technik mit einem Wasserzeichen versehen, das unhörbare Kennungen in Aufzeichnungen einbettet. (Andere Anbieter, darunter Resemble AI und Microsoft, verwenden ähnliche Wasserzeichen.) Harris versprach nicht, dass es keine Möglichkeiten gibt, das Wasserzeichen zu umgehen, sondern beschrieb es als „manipulationssicher“.
„Wenn es da draußen einen Audioclip gibt, können wir uns diesen Clip ganz einfach ansehen und feststellen, dass er von unserem System und dem Entwickler generiert wurde, der diese Generierung tatsächlich durchgeführt hat“, Harris sagte. „Bisher ist es kein Open-Source-Angebot – wir haben es vorerst intern. Wir sind gespannt darauf, es öffentlich zugänglich zu machen, aber das birgt natürlich zusätzliche Risiken in Bezug auf Offenlegung und Zerstörung.“
Drittens plant OpenAI, Mitgliedern seines Red-Teaming-Netzwerks, einer beauftragten Expertengruppe, die bei der Risikobewertung und Risikominderungsstrategien des KI-Modells des Unternehmens helfen, Zugriff auf Voice Engine zu gewähren, um böswillige Nutzungen aufzuspüren.
Einige Experten argumentieren dass das KI-Red-Teaming nicht umfassend genug ist und dass es Aufgabe der Anbieter ist, Tools zu entwickeln, um sich gegen Schäden zu verteidigen, die ihre KI verursachen könnte. OpenAI geht mit Voice Engine nicht ganz so weit – aber Harris behauptet, dass das „oberste Prinzip“ des Unternehmens darin bestehe, die Technologie sicher zu veröffentlichen.
Allgemeine Veröffentlichung
Je nachdem, wie die Vorschau verläuft und wie die öffentliche Resonanz auf Voice Engine ausfällt, könnte OpenAI das Tool für seine breitere Entwicklerbasis freigeben, aber derzeit zögert das Unternehmen, sich auf etwas Konkretes festzulegen.
Harris gibt jedoch einen kurzen Einblick in die Roadmap von Voice Engine und enthüllt, dass OpenAI einen Sicherheitsmechanismus testet, der Benutzer dazu bringt, zufällig generierten Text zu lesen, um zu beweisen, dass sie anwesend sind und wissen, wie ihre Stimme verwendet wird. Dies könnte OpenAI das Vertrauen geben, das es braucht, um Voice Engine mehr Menschen zugänglich zu machen, sagte Harris – oder es könnte nur der Anfang sein.
„Was uns in Bezug auf die eigentliche Voice-Matching-Technologie weiter vorantreiben wird, wird wirklich davon abhängen, was wir aus dem Pilotprojekt lernen, von den Sicherheitsproblemen, die aufgedeckt werden, und von den Abhilfemaßnahmen, die wir ergreifen“, sagte er. „Wir wollen nicht, dass Menschen zwischen künstlichen Stimmen und echten menschlichen Stimmen verwechselt werden.“
Und im letzten Punkt können wir uns einig sein.