Als Kurzvideo-Blogger lassen sich Videoformate grob in zwei Kategorien einteilen: gesichtszeigende und gesichtslose. Verglichen mit der Zufälligkeit von Gesichtsvideos ist die Form der Aufzeichnung und Zuordnung von Materialien bei der Erstellung von Wissens- und Tutorialvideos besser kontrollierbar. Der Produktionsprozess umfasst in der Regel zunächst das Schreiben der Kopie, dann das Aufnehmen und schließlich das Überlagern des passenden Materials in einer Bearbeitungssoftware.
Allerdings stoßen Blogger in der Praxis auf Schwierigkeiten: Wenn der Hals unangenehm ist, die Stimmung schlecht ist oder die Umgebung laut ist, kann keine Aufnahme durchgeführt werden, was wiederum zu Videounterbrechungen und dem Verlust von Fans führt. Daraus entstand für den Blogger die Idee, die eigene Stimme von der KI klonen zu lassen, d. Tatsächlich hat der Blogger diese Idee bereits umgesetzt und der Ton im Video wird auf diese Weise erzeugt.
Um das Klonen von KI-Stimmen zu implementieren, müssen Sie zunächst ein geeignetes Modell auswählen. Unter den vielen TTS-Modellen ist Cozy Voice dasjenige mit den besten Bewertungen und den besten von Bloggern getesteten Ergebnissen. Zunächst stellte der Blogger Cozy Voice auf seinem Computer bereit, der Generierungsprozess war jedoch äußerst zeitaufwändig. Schließlich verbraucht die lokale Ausführung großer Modellanwendungen viele GPU-Ressourcen und es besteht keine Notwendigkeit, für diesen Zweck eine 4090-Maschine zu reservieren.
Durch Zufall kam der Blogger bei seiner Recherche zu Stall-Setting-KI mit der GPU-Rechenleistungsmietplattform Zhiling in Kontakt. Die Plattform unterstützt den schnellen Start von Instanzen und das On-Demand-Computing von Rechenressourcen und kann auch externe Dienste in Form von Serverless bereitstellen, wodurch diese Anforderung perfekt erfüllt wird.
Dieser Build erfordert zwei serverlose Dienste, von denen einer ein Speech-to-Text-Dienst ist. Da Cozy Voice beim Klonen des Sounds den Text des Beispielaudios übertragen muss, hat sich der Blogger zur Vereinfachung des Vorgangs für Whisper entschieden, um diese Aufgabe auszuführen. Die Zhiling-Plattform bietet nicht nur offizielle Whisper-Vorlagen, sondern unterstützt auch benutzerdefinierte Vorlagen. Interessierte Studierende können exklusive AIGC-Vorlagen gemäß den offiziellen Tutorials der Plattform erstellen, um individuelle AIGC-Anforderungen zu erfüllen.
Die spezifischen Konstruktionsschritte lauten wie folgt: Fügen Sie einen Serverless-Dienst hinzu, benennen Sie ihn und setzen Sie den Active Worker der Grafikkartenkonfiguration auf Null, dh es gibt keinen festen Worker und es fallen keine Gebühren an, wenn er nicht aufgerufen wird. Skalierungsrichtlinien werden als Warteschlangen konfiguriert. Wenn zu viele Aufgaben vorhanden sind, werden diese in die Warteschlange gestellt. Behalten Sie die Standardeinstellungen bei. Wählen Sie Whisper für die Vorlagenkonfiguration, da der Dienst den der Stimme entsprechenden Text synchron zurückgibt und keinen zusätzlichen Speicher benötigt. Nachdem Sie auf „Hinzufügen“ geklickt haben, um erfolgreich zu starten, wird ein Beispiel für eine Curl-Anfrage angezeigt. Sie müssen ihn durch Ihren eigenen Schlüssel ersetzen und einen permanenten Schlüssel generieren, indem Sie auf API-Schlüssel klicken. Basierend auf dem offiziellen Beispielprojekt werden die Eingabeparameter im Base64-Format übertragen, andere Parameter bleiben unverändert. Nach der Anfrage erfolgt eine schnelle Antwort und die Kopie wird korrekt extrahiert.
Als Nächstes erstellen Sie den Cozy Voice-Dienst, wobei Sie ebenfalls die offizielle Vorlage verwenden und andere Konfigurationen mit Whisper konsistent halten. Nachdem Sie auf den Start des Dienstes gewartet haben, generieren Sie den API-Schlüssel und ersetzen Sie ihn im Curl-Befehl. Nachdem die Eingabeparameter festgelegt wurden, kopieren Sie den bearbeiteten Curl zur Ausführung in die Befehlskonsole. Zu diesem Zeitpunkt ist der gesamte Sound-Klondienst abgeschlossen. Es ist erwähnenswert, dass der serverlose Serviceaufbau der Zhiling-Plattform sehr flexibel ist und jeder die AIGC-Produkte, an denen er interessiert ist, in Services umwandeln kann. Um weitere Informationen zu erhalten, empfiehlt der Blogger jedem das offizielle Lehrvideo und das GitHub-Repository.
Nachdem der Dienst eingerichtet ist, beginnen wir mit dem Schreiben des Clients. Diesmal entschied sich der Blogger dafür, eine Einzelseitenanwendung zu erstellen und sie mit dem Cursor zu vervollständigen. Schüler, die mit Cursor nicht vertraut sind, können verwandte Videos ansehen, die zuvor von Bloggern gepostet wurden. Die Anwendung ist ein Formular, das vier Konfigurationsparameter enthält: Whisper-ID, Whisper-API-Schlüssel, Cozy-Voice-ID, Cozy-Voice-API-Schlüssel und zwei Geschäftsparameter: Beispielaudio und Klonkopie. Nachdem Sie auf „Ausführen“ geklickt haben, kodiert JS das Beispielaudio intern mit Base64, ruft den Whisper-Dienst auf, um eine Kopie des Beispielaudios zu erhalten, und ruft dann Cozy Voice auf, um den Ton zu klonen und zu generieren.
Während des Tests stellte der Blogger fest, dass Whisper nicht jedes Mal genau die erforderliche Kopie erhalten konnte und dass es bestimmte Tippfehler gab. Daher wurde der Benutzeroberfläche eine separate Speech-to-Text-Schaltfläche hinzugefügt. Wenn der Benutzer auf diese Schaltfläche klickt, wird das Sprach-zu-Text-Ergebnis wiedergegeben, sodass der Benutzer falschen Text ändern und die Genauigkeit des Sprachklonens sicherstellen kann. Wenn der Benutzer direkt auf „Voice Clone“ klickt, wird der Sprach-zu-Text-Schritt intern vom Programm verarbeitet und nicht wiedergegeben.
Insgesamt hat das Projekt gut funktioniert. Der Blogger lädt das gesamte Projekt einschließlich Code und Eingabeaufforderungen auf GitHub hoch. Nachdem Sie es lokal heruntergeladen haben, ersetzen Sie es durch Ihren eigenen API-Schlüssel und Ihre eigene API und Sie können es normal verwenden. Alle im Video erwähnten Links und Ressourcen werden in den Top-Kommentaren für Studierende in Not zur Selbsthilfe platziert.
Auf Twitter teilen Auf Facebook teilen
Kommentare
Derzeit liegen keine Kommentare vor