Как короткометражный видеоблогер, форматы видео можно условно разделить на две категории: с показом лица и без лица. По сравнению со случайными видеороликами с демонстрацией лиц при создании обучающих и обучающих видеороликов форма записи и сопоставления материалов более контролируема. Производственный процесс обычно включает в себя сначала написание копии, затем запись и, наконец, наложение соответствующего материала в программном обеспечении для редактирования.
Однако на практике блогеры сталкиваются с трудностями: когда болит горло, плохое настроение или шумно, запись невозможно провести, что, в свою очередь, приводит к прерыванию видео и потере поклонников. Исходя из этого, у блогера возникла идея позволить ИИ клонировать собственный голос, то есть ему нужно лишь обеспечить копирайтинг для генерации соответствующего аудио. На самом деле, блогер уже реализовал эту идею, и звук в видео получается именно таким образом.
Чтобы реализовать клонирование голоса ИИ, сначала необходимо выбрать подходящую модель. Среди множества моделей TTS Cozy Voice — модель с лучшими отзывами и лучшими результатами, протестированными блоггерами. Изначально блогер развернул Cozy Voice на своем компьютере, но процесс генерации был крайне трудоемким. В конце концов, локальный запуск приложений больших моделей потребляет много ресурсов графического процессора, и для этой цели нет необходимости выделять машину 4090.
Совершенно случайно блоггер познакомился с платформой аренды вычислительных мощностей Zhiling GPU во время исследования искусственного интеллекта для настройки стойла. Платформа поддерживает быстрый запуск экземпляров и обработку вычислительных ресурсов по требованию, а также может предоставлять внешние услуги в форме Serverless, полностью удовлетворяя этот спрос.
Для этой сборки требуются две бессерверные службы, одна из которых — служба преобразования речи в текст. Поскольку Cozy Voice при клонировании звука необходимо передавать текст образца аудио, чтобы упростить операцию, блоггер выбрал Whisper для выполнения этой задачи. Платформа Zhiling не только предоставляет официальные шаблоны Whisper, но также поддерживает индивидуальные шаблоны. Заинтересованные студенты могут создавать эксклюзивные шаблоны AIGC в соответствии с официальными руководствами платформы для удовлетворения индивидуальных потребностей AIGC.
Конкретные шаги построения заключаются в следующем: добавьте бессерверную службу, назовите ее и установите для активного рабочего процесса конфигурации видеокарты значение 0, то есть фиксированного рабочего рабочего нет, и если он не вызывается, плата не взимается. Политики масштабирования настраиваются как очереди. Когда задач слишком много, они ставятся в очередь. Сохраните настройки по умолчанию. Выберите «Шепот» для конфигурации шаблона, поскольку служба синхронно возвращает текст, соответствующий голосу, и не требует подключения хранилища. После нажатия кнопки «Добавить» для успешного запуска появится пример запроса на завивку. Вам необходимо заменить его собственным ключом и сгенерировать постоянный ключ, нажав «Ключ API». Согласно официальному образцу проекта, входные параметры передаются в формате base64, а остальные параметры остаются неизменными. Ответ после запроса быстрый, и копия извлекается точно.
Затем создайте сервис Cozy Voice, также используя официальный шаблон и сохраняя другие конфигурации в соответствии с Whisper. Дождавшись запуска службы, сгенерируйте ключ API и замените его в команде curl. После того, как входные параметры заданы, скопируйте отредактированный завиток в командную консоль для выполнения. На этом вся услуга клонирования звука завершена. Стоит отметить, что конструкция бессерверных сервисов платформы Zhiling очень гибкая, и каждый может превратить интересующие его продукты AIGC в услуги. Блогер рекомендует всем официальное обучающее видео и репозиторий GitHub, чтобы получить больше информации.
После того, как сервис настроен, приступаем к написанию клиента. На этот раз блоггер решил создать одностраничное приложение и использовать Cursor для его завершения. Студенты, не знакомые с Cursor, могут просматривать похожие видеоролики, ранее опубликованные блоггерами. Приложение представляет собой форму, содержащую четыре параметра конфигурации: идентификатор Whisper, ключ API Whisper, идентификатор Cozy voice, ключ API Cozy voice и два бизнес-параметра: образец аудио и клонированная копия. После нажатия кнопки «Выполнить» JS внутренне закодирует образец аудио с помощью Base64, вызовет службу Whisper, чтобы получить копию образца аудио, а затем вызовет Cozy Voice для клонирования и генерации звука.
В ходе тестирования блогер обнаружил, что Whisper не всегда может точно получить нужную копию, а также встречаются определенные опечатки. Поэтому в интерфейс добавлена отдельная кнопка преобразования речи в текст. Если пользователь нажмет эту кнопку, результат преобразования речи в текст будет отображен, что позволит пользователю изменить неверный текст и обеспечить точность клонирования голоса. Если пользователь нажимает «Голосовое клонирование» напрямую, этап преобразования речи в текст будет обрабатываться внутри программы и не будет повторяться.
В целом проект сработал хорошо. Блогер загрузит на GitHub весь проект, включая код и слова-подсказки. После того, как вы загрузите его локально, замените его собственным ключом API и идентификатором, и вы сможете использовать его в обычном режиме. Все ссылки и ресурсы, упомянутые в видео, будут размещены в верхних комментариях, чтобы студенты могли использовать их для самопомощи.
Опубликовать в Twitter Опубликовать в Facebook
Комментарии
Пока комментариев нет