OpenVoice: Vielseitiges Instant Voice Cloning

Carl Geisler

Februar 5, 2024

Bei der Text-to-Speech-Synthese (TTS) ermöglicht Instant Voice Cloning (IVC) dem TTS-Modell, die Stimme eines beliebigen Referenzsprechers anhand eines kurzen Audiobeispiels zu klonen, ohne dass ein zusätzliches Training für den Referenzsprecher erforderlich ist. Diese Technik wird auch als Zero-Shot Text-to-Speech-Synthese bezeichnet. Der Ansatz des Instant Voice Cloning ermöglicht eine flexible Anpassung der erzeugten Stimme und hat sich in einer Vielzahl von realen Situationen bewährt, z. B. bei der Entwicklung von Chatbots, der Erstellung von Inhalten und der Interaktion zwischen Menschen und großen Sprachmodellen (LLMs).

Obwohl die aktuellen Frameworks zum Klonen von Stimmen ihre Aufgabe gut erfüllen, sind sie mit einigen Herausforderungen konfrontiert, z. B. Flexible Steuerung des Sprachstils d.h. den Modellen fehlt die Möglichkeit, die Stimmstile nach dem Klonen der Stimme flexibel zu verändern. Ein weiteres großes Hindernis für die aktuellen Instant-Cloning-Frameworks ist Zero-Shot Cross-Lingual Voice Cloning d.h. für das Training benötigen aktuelle Modelle Zugang zu einem umfangreichen mehrsprachigen oder MSML-Datensatz mit vielen Sprechern, unabhängig von der Sprache.

Um diese Probleme anzugehen und zur Verbesserung von Instant Voice Cloning-Modellen beizutragen, haben die Entwickler an OpenVoice gearbeitet, einem vielseitigen Instant Voice Cloning-Framework, das die Stimme eines beliebigen Nutzers repliziert und anhand eines kurzen Audioclips des Referenzsprechers Sprache in mehreren Sprachen erzeugt. OpenVoice zeigt, dass Instant Voice Cloning-Modelle die Klangfarbe des Referenzsprechers nachbilden und eine granulare Kontrolle über Sprachstile wie Akzent, Rhythmus, Intonation, Pausen und sogar Emotionen erreichen können. Noch beeindruckender ist, dass das OpenVoice-Framework auch bemerkenswerte Fähigkeiten beim Zero-Shot Cross-Lingual Voice Cloning für Sprachen außerhalb des MSML-Datensatzes demonstriert, so dass OpenVoice Stimmen in neue Sprachen klonen kann, ohne sie vorher ausgiebig zu trainieren. OpenVoice liefert überragende Ergebnisse beim sofortigen Klonen von Stimmen und ist dabei rechnerisch bis zu zehnmal günstiger als die derzeit verfügbaren APIs mit geringerer Leistung.

In diesem Artikel befassen wir uns ausführlich mit dem OpenVoice-Framework und stellen seine Architektur vor, die es ermöglicht, überragende Leistungen bei Instant Voice Cloning-Aufgaben zu erzielen. Fangen wir also an.

Wie bereits erwähnt, ermöglicht Instant Voice Cloning, auch als Zero-Shot Text to Speech Synthesis bezeichnet, dem TTS-Modell, die Stimme eines beliebigen Referenzsprechers anhand eines kurzen Audiobeispiels zu klonen, ohne dass der Referenzsprecher zusätzlich trainiert werden muss. Instant Voice Cloning ist seit jeher ein heißes Forschungsthema. Zu den bestehenden Arbeiten gehören XTTS- und VALLE-Frameworks, die Sprecher-Einbettungen und/oder akustische Token aus dem Referenz-Audio extrahieren, die als Bedingung für das autoregressive Modell dienen. Das autoregressive Modell generiert dann nacheinander akustische Token und dekodiert diese Token in eine rohe Audiowellenform.

Obwohl autoregressive Modelle zum sofortigen Klonen von Stimmen die Klangfarbe bemerkenswert gut klonen, können sie andere Stilparameter wie Akzent, Emotion, Pausen und Rhythmus nur unzureichend manipulieren. Außerdem ist die Inferenzgeschwindigkeit bei autoregressiven Modellen gering und ihre Betriebskosten sind recht hoch. Bestehende Ansätze wie das YourTTS-Framework verwenden einen nicht-autoregressiven Ansatz, der im Vergleich zu autoregressiven Ansätzen eine deutlich schnellere Inferenzgeschwindigkeit aufweist, aber dennoch nicht in der Lage ist, den Nutzern eine flexible Kontrolle über die Stilparameter zu ermöglichen. Darüber hinaus benötigen sowohl autoregressive als auch nicht-autoregressive Verfahren zum sofortigen Klonen von Sprache Zugang zu einem großen MSML- oder Massensprecher-Datensatz für das sprachübergreifende Klonen von Sprache.

Um die Herausforderungen zu bewältigen, mit denen aktuelle Instant Voice Cloning-Frameworks konfrontiert sind, haben die Entwickler an OpenVoice gearbeitet, einer Open-Source-Bibliothek für Instant Voice Cloning, die die folgenden Probleme der aktuellen IVC-Frameworks lösen soll.

Die erste Herausforderung besteht darin, IVC-Frameworks in die Lage zu versetzen, neben der Klangfarbe auch Stilparameter wie Akzent, Rhythmus, Intonation und Pausen flexibel zu steuern. Stilparameter sind entscheidend, um natürliche Gespräche und Sprache im Kontext zu erzeugen, anstatt den Eingabetext monoton zu erzählen.
Die zweite Herausforderung besteht darin, IVC-Frameworks in die Lage zu versetzen, sprachübergreifende Stimmen in einer Null-Situation zu klonen.

Die letzte Herausforderung besteht darin, hohe Echtzeit-Inferenzgeschwindigkeiten zu erreichen, ohne die Qualität zu beeinträchtigen.

Um die ersten beiden Hürden zu meistern, ist die Architektur des OpenVoice-Frameworks so konzipiert, dass die Komponenten der Stimme so gut wie möglich entkoppelt werden. Außerdem generiert OpenVoice Klangfarbe, Sprache und andere Merkmale der Stimme unabhängig voneinander, so dass das Framework flexibel mit einzelnen Sprachtypen und Sprachstilen umgehen kann. Das OpenVoice-Framework bewältigt die dritte Herausforderung standardmäßig, da die entkoppelte Struktur die Rechenkomplexität und die Anforderungen an die Modellgröße reduziert.

OpenVoice : Methodik und Architektur

Der technische Rahmen des OpenVoice-Frameworks ist effektiv und überraschend einfach zu implementieren. Es ist kein Geheimnis, dass es eine Herausforderung sein kann, die Klangfarbe für jeden Sprecher zu klonen, eine neue Sprache hinzuzufügen und gleichzeitig eine flexible Steuerung der Sprachparameter zu ermöglichen. Das liegt daran, dass die gleichzeitige Ausführung dieser drei Aufgaben erfordert, dass sich die kontrollierten Parameter mit einem großen Teil der kombinatorischen Datensätze überschneiden. Außerdem ist es bei der regulären Text-zu-Sprache-Synthese mit nur einem Sprecher bei Aufgaben, die kein Klonen der Stimme erfordern, einfacher, die Kontrolle über andere Stilparameter hinzuzufügen. Darauf aufbauend zielt das OpenVoice Framework darauf ab, die Instant Voice Cloning-Aufgaben in Teilaufgaben zu entkoppeln. Das Modell schlägt vor, ein Text-to-Speech-Modell für den Basissprecher zu verwenden, um die Sprach- und Stilparameter zu steuern, und setzt einen Tonfarbenkonverter ein, um die Referenztonfarbe in die erzeugte Stimme einzubinden. Die folgende Abbildung veranschaulicht die Architektur des Frameworks.

Das OpenVoice-Framework besteht im Wesentlichen aus zwei Komponenten: einem Klangfarbenkonverter und einem Text-to-Speech- oder TTS-Modell für den Basissprecher. Das Text-to-Speech-Modell ist entweder ein Ein-Sprecher- oder ein Mehr-Sprecher-Modell, das eine genaue Kontrolle über Stilparameter, Sprache und Akzent ermöglicht. Das Modell erzeugt eine Stimme, die dann an den Klangfarbenkonverter weitergegeben wird, der die Klangfarbe des Basissprechers in die Klangfarbe des Referenzsprechers ändert.

Das OpenVoice-Framework bietet viel Flexibilität, wenn es um das Text-to-Speech-Modell für den Basissprecher geht, denn es kann das VITS-Modell mit leichten Modifikationen verwenden, so dass es Sprach- und Stileinbettungen in seinem Duration Predictor und Text-Encoder akzeptiert. Das Framework kann auch Modelle wie Microsoft TTS verwenden, die kommerziell günstig sind, oder es kann Modelle wie InstructTTS einsetzen, die in der Lage sind, Style Prompts zu akzeptieren. Im Moment verwendet das OpenVoice Framework das VITS-Modell, obwohl auch die anderen Modelle eine mögliche Option sind.

Die zweite Komponente, der Tone Color Converter, ist eine Encoder-Decoder-Komponente mit einem invertierbaren Normalisierungsfluss in der Mitte. Die Encoder-Komponente des Tone Color Converters ist ein eindimensionales CNN, das das kurzzeittransformierte Fourier-Spektrum des Text-to-Speech-Modells des Basissprechers als Eingabe akzeptiert. Der Encoder erzeugt dann Feature-Maps als Ausgabe. Der Tonfarbenextraktor ist ein einfacher zweidimensionaler CNN, der das Mel-Spektrogramm der Eingabestimme verarbeitet und einen einzelnen Merkmalsvektor als Ausgabe erzeugt, der die Informationen der Tonfarbe kodiert. Die normalisierenden Flussschichten nehmen die vom Encoder erzeugten Merkmalskarten als Eingabe auf und erzeugen eine Merkmalsdarstellung, die alle Stileigenschaften beibehält, aber die Klangfarbeninformationen eliminiert. Das OpenVoice-Framework wendet dann die normalisierenden Flussschichten in umgekehrter Richtung an und nimmt die Feature-Repräsentationen als Eingabe und gibt die normalisierenden Flussschichten aus. Das Framework dekodiert dann die normalisierenden Flussschichten in rohe Wellenformen, indem es einen Stapel transponierter eindimensionaler Faltungen verwendet.

Die gesamte Architektur des OpenVoice-Frameworks ist ein Feed-Forward-Verfahren, bei dem keine autoregressive Komponente zum Einsatz kommt. Die Komponente zur Umwandlung von Klangfarben ähnelt der Sprachumwandlung auf konzeptioneller Ebene, unterscheidet sich aber in Bezug auf die Funktionalität, die Trainingsziele und die induktive Verzerrung in der Modellstruktur. Die normalisierenden Flussschichten haben die gleiche Struktur wie die flussbasierten Text-zu-Sprache-Modelle, unterscheiden sich aber in Bezug auf die Funktionalität und die Trainingsziele.

Darüber hinaus gibt es einen anderen Ansatz für die Extraktion von Merkmalsrepräsentationen, wobei die im OpenVoice Framework implementierte Methode eine bessere Audioqualität liefert. Es ist auch erwähnenswert, dass das OpenVoice-Framework nicht die Absicht hat, Komponenten in der Modellarchitektur zu erfinden, sondern dass die beiden Hauptkomponenten, d.h. der Klangfarbenkonverter und das Basis-Sprecher-TTS-Modell, aus bestehenden Arbeiten stammen. Das Hauptziel des OpenVoice-Frameworks ist es, ein entkoppeltes Framework zu bilden, das die Sprachsteuerung und den Sprachstil vom Klonen der Klangfarbe trennt. Obwohl der Ansatz recht einfach ist, ist er sehr effektiv, vor allem bei Aufgaben, die Stile und Akzente kontrollieren, oder bei Aufgaben zur Generalisierung neuer Sprachen. Die gleiche Kontrolle mit einem gekoppelten Rahmenwerk zu erreichen, erfordert eine große Menge an Rechenleistung und Daten und lässt sich nicht gut auf neue Sprachen verallgemeinern.

Die Hauptphilosophie des OpenVoice Frameworks besteht darin, die Erzeugung von Sprach- und Stimmstilen von der Erzeugung der Klangfarbe zu entkoppeln. Eine der größten Stärken des OpenVoice-Frameworks ist, dass die Klonstimme fließend und von hoher Qualität ist, solange der Ein-Sprecher-TTS fließend spricht.

OpenVoice : Experiment und Ergebnisse

Die Bewertung von Aufgaben zum Klonen von Stimmen ist aus vielen Gründen ein schwieriges Unterfangen. Zunächst einmal verwenden bestehende Arbeiten oft unterschiedliche Trainings- und Testdaten, was einen Vergleich dieser Arbeiten von vornherein unfair macht. Obwohl Crowd-Sourcing zur Auswertung von Kennzahlen wie dem Mean Opinion Score genutzt werden kann, beeinflussen die Schwierigkeit und die Vielfalt der Testdaten das Gesamtergebnis erheblich. Zweitens haben verschiedene Methoden des Stimmenklonens unterschiedliche Trainingsdaten, und die Vielfalt und der Umfang dieser Daten beeinflussen die Ergebnisse erheblich. Und schließlich unterscheidet sich das Hauptziel bestehender Arbeiten oft voneinander, sodass sie sich in ihrer Funktionalität unterscheiden.

Aus den drei oben genannten Gründen ist es unfair, die bestehenden Stimmklon-Frameworks numerisch zu vergleichen. Stattdessen ist es viel sinnvoller, diese Methoden qualitativ zu vergleichen.

Akkurates Klonen von Klangfarben

Um die Leistung zu analysieren, erstellen die Entwickler ein Testset mit anonymen Personen, Spielfiguren und Prominenten als Referenzsprecher und einer breiten Stimmverteilung, die sowohl neutrale Samples als auch einzigartige ausdrucksstarke Stimmen enthält. Das OpenVoice-Framework ist in der Lage, die Referenztonfarbe zu klonen und Sprache in mehreren Sprachen und Akzenten für jeden der Referenzsprecher und die 4 Basissprecher zu erzeugen.

Flexible Kontrolle über Sprachstile

Eines der Ziele des OpenVoice-Frameworks ist die flexible Steuerung der Sprachstile mithilfe des Tonfarbenkonverters, der den Farbton ändern kann, während alle anderen Merkmale und Eigenschaften der Stimme erhalten bleiben.

Experimente zeigen, dass das Modell die Sprachstile nach der Umwandlung in die Referenztonfarbe beibehält. In einigen Fällen neutralisiert das Modell jedoch die Emotionen leicht, ein Problem, das gelöst werden kann, indem weniger Informationen an die Flow-Layer weitergegeben werden, so dass diese die Emotion nicht loswerden können. Das OpenVoice-Framework ist in der Lage, die Stile der Basisstimme zu erhalten, da es einen Tonfarbenkonverter verwendet. Damit kann das OpenVoice-Framework das Text-to-Speech-Modell des Basissprechers manipulieren, um die Sprachstile einfach zu steuern.

Sprachübergreifender Stimmenklon

Das OpenVoice-Framework enthält keine Massensprecherdaten für eine unbekannte Sprache und ist dennoch in der Lage, eine nahezu sprachenübergreifende Stimmenklonierung in einer Null-Shoot-Umgebung zu erreichen. Die Fähigkeiten des OpenVoice-Frameworks zum sprachübergreifenden Klonen von Stimmen sind zweifach:

Das Modell ist in der Lage, die Klangfarbe des Referenzsprechers genau zu klonen, wenn die Sprache des Referenzsprechers in einem Multi-Speaker-Multi-Language- oder MSML-Datensatz nicht zu erkennen ist.
Wenn die Sprache des Referenzsprechers nicht bekannt ist, kann das OpenVoice-Framework die Stimme des Referenzsprechers klonen und in dieser Sprache sprechen, vorausgesetzt, das Text-to-Speech-Modell des Basissprechers unterstützt diese Sprache.

Abschließende Überlegungen

In diesem Artikel haben wir über OpenVoice gesprochen, ein vielseitiges Framework zum sofortigen Klonen von Stimmen, das die Stimme eines beliebigen Nutzers nachbildet und anhand eines kurzen Audioclips des Referenzsprechers Sprache in mehreren Sprachen erzeugt. Der Grundgedanke hinter OpenVoice ist, dass ein Framework ein TTS-Modell für den Basissprecher verwenden kann, um die Sprache und den Sprachstil zu steuern, solange das Modell nicht die Klangfarbe des Referenzsprechers klonen muss.

OpenVoice zeigt, dass Instant Voice Cloning-Modelle die Klangfarbe des Referenzsprechers nachbilden und eine granulare Kontrolle über Sprachstile wie Akzent, Rhythmus, Intonation, Pausen und sogar Emotionen erreichen können. OpenVoice liefert überragende Ergebnisse beim Instant Voice Cloning und ist dabei rechnerisch bis zu zehnmal günstiger als derzeit verfügbare APIs mit minderer Leistung.

Carl Geisler

Carl ist ein online Marketer und Content Creator mit einer Leidenschaft für künstliche Intelligenz und innovative Technik. Er ist einer der Gründer von KI-Techlab.de und schreibt hier über neue KI-Tools und Innovationen.

Teilen

OpenVoice: Vielseitiges Instant Voice Cloning

Carl Geisler

OpenVoice : Methodik und Architektur

OpenVoice : Experiment und Ergebnisse

Akkurates Klonen von Klangfarben

Flexible Kontrolle über Sprachstile

Sprachübergreifender Stimmenklon

Abschließende Überlegungen

Carl Geisler

Weitere KI-News:

PauseAI protestors demand a halt to training of AI models

Alles, was du über das neue Flaggschiff von OpenAI, das GPT-4o, wissen musst

Sam Altman says international agency should monitor AI models

KI-Chatbots der Toten könnten uns für immer „digital heimsuchen“, warnt eine neue Studie

Apple unveils new M4 chip as its generative AI strategy warms up

Today’s AI models are actively deceiving us to achieve their goals, says MIT study

Neuste

PauseAI protestors demand a halt to training of AI models

Alles, was du über das neue Flaggschiff von OpenAI, das GPT-4o, wissen musst

Sam Altman says international agency should monitor AI models

Subscribe Us

Sichere dir eine GRatis KI-beratung

Stimme für mich ab und sichere dir eine kostenlose KI-Beratung