OpenAI представила результаты ограниченного тестирования модели Voice Engine, которая генерирует реалистичную запись голоса на основе небольшого фрагмента. Результаты показывают многообещающие примеры использования новой технологии, но в компании обеспокоены потенциальными проблемами с безопасностью.
Voice Engine создает синтетический голос на основе 15-секундного фрагмента записи чьей-либо речи. Голос, сгенерированный ИИ и очень близкий к оригиналу, может зачитывать любой текст, как на языке спикера, так и используя другие языки. OpenAI предоставила доступ к модели нескольким компаниям партнерам для тестирования возможностей ИИ при решении реальных задач.
Например, Age of Learning использовала Voice Engine для создания закадрового контента для учебных материалов и предоставления учителям персонализированных устных ответов для взаимодействия с учениками. А HeyGen переводит рекламные видео и демонстрации продуктов для вывода товаров на новые рынки. При этом в процессе перевода сохраняется стиль речи и акцент спикера.
Также в тестировании участвовала компания Livox, которая разработала приложения для людей с проблемами речи. Voice Engine позволяет пользователям генерировать голос на основе текста и выбирать голос, который лучше всего их представляет. А Lifespan запустила пилотную программу, позволяющую людям с нарушениями речи из-за рака или неврологических заболеваний общаться с помощью ИИ.
OpenAI just launched Voice Engine,
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in