짧은 비디오 블로거로서 비디오 형식은 대략 얼굴 표시와 얼굴 없음의 두 가지 범주로 나눌 수 있습니다. 얼굴 공개 영상의 임의성에 비해 지식 및 튜토리얼 영상을 제작할 때 자료를 녹화하고 일치시키는 형식을 더 쉽게 제어할 수 있습니다. 제작 과정에는 일반적으로 먼저 사본을 작성한 다음 녹음하고 마지막으로 편집 소프트웨어에서 일치하는 자료를 오버레이하는 작업이 포함됩니다.
그러나 블로거들은 실제로 목이 불편하거나, 기분이 나쁘거나, 환경이 시끄러우면 녹화가 불가능해 영상이 중단되고 팬이 없어지는 등 실제로 어려움을 겪는다. 여기서 블로거는 AI가 자신의 목소리를 복제하도록 하는 아이디어를 내놓았습니다. 즉, 카피라이팅만 제공하면 해당 오디오를 생성할 수 있다는 것입니다. 실제로 블로거는 이미 이 아이디어를 실현했고, 영상 속 사운드도 이런 방식으로 제작됐다.
AI 음성 복제를 구현하려면 먼저 적합한 모델을 선택해야 합니다. 많은 TTS 모델 중에서 Cozy Voice는 최고의 리뷰와 블로거 테스트 결과를 자랑하는 모델입니다. 처음에 블로거는 자신의 컴퓨터에 Cozy Voice를 배포했지만 생성 프로세스에 극도로 시간이 많이 걸렸습니다. 결국 대규모 모델 애플리케이션을 로컬에서 실행하면 많은 GPU 리소스가 소비되므로 이 목적을 위해 4090 머신을 전용으로 사용할 필요가 없습니다.
우연히 블로거는 스톨 설정 AI를 연구하던 중 Zhiling GPU 컴퓨팅 파워 렌탈 플랫폼을 접하게 되었습니다. 플랫폼은 인스턴스의 빠른 시작과 컴퓨팅 자원의 온디맨드 컴퓨팅을 지원하며, 서버리스 형태로 외부 서비스도 제공할 수 있어 이러한 요구를 완벽하게 충족합니다.
이 빌드에는 두 개의 서버리스 서비스가 필요하며 그 중 하나는 음성-텍스트 서비스입니다. Cozy Voice는 사운드 복제 시 샘플 오디오의 텍스트를 전송해야 하므로 작업을 단순화하기 위해 블로거는 Whisper를 선택하여 이 작업을 완료했습니다. Zhiling 플랫폼은 공식 Whisper 템플릿을 제공할 뿐만 아니라 맞춤형 템플릿도 지원합니다. 관심 있는 학생들은 맞춤형 AIGC 요구 사항을 충족하기 위해 플랫폼의 공식 튜토리얼에 따라 독점적인 AIGC 템플릿을 만들 수 있습니다.
구체적인 구축 단계는 다음과 같습니다. 서버리스 서비스를 추가하고 이름을 지정한 후 그래픽 카드 구성의 Active Worker를 0으로 설정합니다. 즉, 고정된 Worker가 없으며 호출되지 않을 때 수수료가 발생하지 않습니다. 조정 정책은 대기열로 구성됩니다. 작업이 너무 많으면 대기열에 추가됩니다. 기본 설정을 유지합니다. 서비스가 음성에 해당하는 텍스트를 동기적으로 반환하고 탑재 저장소가 필요하지 않기 때문에 템플릿 구성으로 Whisper를 선택하십시오. 추가를 클릭하여 성공적으로 시작하면 컬 요청 예제가 나타납니다. 이를 자신의 키로 교체하고 API Key를 클릭하여 영구 키를 생성해야 합니다. 공식 샘플 프로젝트를 기반으로 입력 매개변수는 base64 형식으로 전송되며 기타 매개변수는 변경되지 않습니다. 요청 후 응답이 빠르고 사본이 정확하게 추출됩니다.
다음으로 공식 템플릿을 사용하고 다른 구성을 Whisper와 일관되게 유지하면서 Cozy Voice 서비스를 구축합니다. 서비스 시작을 기다린 후 API 키를 생성하고 이를 컬 명령으로 교체합니다. 입력 매개변수가 설정된 후 편집된 컬을 명령 콘솔에 복사하여 실행합니다. 이로써 전체 사운드 복제 서비스가 완료되었습니다. Zhiling 플랫폼의 서버리스 서비스 구축은 매우 유연하며 누구나 관심 있는 AIGC 제품을 서비스로 전환할 수 있다는 점은 언급할 가치가 있습니다. 블로거는 모든 사람이 더 많은 정보를 얻을 수 있도록 공식 교육 비디오와 GitHub 저장소를 권장합니다.
서비스가 설정된 후 클라이언트 작성을 시작합니다. 이번에 블로거는 단일 페이지 애플리케이션을 만들고 커서를 사용하여 이를 완료하기로 결정했습니다. 커서에 익숙하지 않은 학생도 이전에 블로거가 게시한 관련 동영상을 볼 수 있습니다. 애플리케이션은 Whisper id, Whisper api key, Cozy voice id, Cozy voice api key의 4가지 구성 매개변수와 2개의 비즈니스 매개변수(샘플 오디오 및 복제 사본)를 포함하는 양식입니다. Execute를 클릭하면 JS는 내부적으로 샘플 오디오를 base64로 인코딩하고 Whisper 서비스를 호출하여 샘플 오디오의 복사본을 얻은 다음 Cozy Voice를 호출하여 사운드를 복제하고 생성합니다.
테스트 중에 블로거는 Whisper가 매번 필요한 사본을 정확하게 얻을 수 없으며 특정 오타가 있음을 발견했습니다. 따라서 별도의 음성-텍스트 버튼이 인터페이스에 추가되었습니다. 사용자가 이 버튼을 클릭하면 음성-텍스트 결과가 에코되어 사용자가 잘못된 텍스트를 수정하고 음성 복제의 정확성을 보장할 수 있습니다. 사용자가 음성 복제를 직접 클릭하면 음성-텍스트 단계가 프로그램에 의해 내부적으로 처리되며 에코되지 않습니다.
전반적으로 프로젝트는 잘 진행되었습니다. 블로거는 코드 및 프롬프트 단어를 포함하여 전체 프로젝트를 GitHub에 업로드합니다. 로컬로 다운로드한 후, 자신의 API 키와 ID로 교체하면 정상적으로 사용하실 수 있습니다. 영상에 언급된 모든 링크와 자료는 자조적 도움이 필요한 학생들을 위해 상단 댓글에 배치됩니다.
트위터에 공유 페이스북에 공유
코멘트
현재 댓글이 없습니다