• Спорт
  • Политика
  • Общество
  • Технологии
  • Шоу-бизнес
  • Авто
Чтение: ИИ от Microsoft имитирует любой голос на основе трехсекундной записи
Поделиться
Уведомление Показать больше
Font ResizerAa
Font ResizerAa
  • Спорт
  • Политика
  • Общество
  • Технологии
  • Шоу-бизнес
  • Авто
Search
  • Спорт
  • Политика
  • Общество
  • Технологии
  • Шоу-бизнес
  • Авто
У вас есть существующая учетная запись? Войти
Подписывайтесь на нас
> Технологии > ИИ от Microsoft имитирует любой голос на основе трехсекундной записи
Технологии

ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

09.01.2023
2 мин. чтение

Компания Microsoft представили искусственный интеллект VALL-E. Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь, которую невозможно отличить от голоса оригинала.

Исследователи из Корнуэльского университета использовали модель VALL-E для анализа механизмов генерации речи. В своей работе, препринт которой опубликован на сервере arXiv, ученые исследуют нейронную сеть, обученную на основе 60 тыс. часов английской речи. Это в сотни раз больше, чем у существующих аналогов.

ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

Принцип работы ИИ. Изображение: VALL-E
Анализ показал, что системе достаточно трехсекундного ролика для имитации голоса собеседника. При этом Vall-E значительно превосходит современную систему TTS с точки зрения естественности звучания речи и сходства голоса. Кроме того, она может сохранять эмоции говорящего и акустическую среду (влияние акустических свойств помещения, в котором была сделана оригинальная запись).

Разработанная система генерации пока закрыта для публичного доступа, но исследователи опубликовали примеры образцов и готовых голосовых файлов на сайте в интернете. Примеры сгенерированной речи отличаются по качеству. В то время как некоторые из них звучат естественно, на других слышно, что они сгенерированы машиной. Авторы разработки отмечают, что дальнейшее обучение на разных голосах, в том числе с разными акцентами, повысит качество работы системы.
Образец голоса человека. Аудио: VALL-E Сгенерированная запись, сохраняющая внешние шумы. Аудио: VALL-E
Исследователи также отмечают, что возможность генерации голосов, идентичных оригинальным, создает новые вызовы для безопасности, поскольку может использоваться мошенниками. Они полагают, что до широкого публичного релиза модели необходимо разработать систему, которая будет распознавать записи, сгенерированные ИИ.

ПОМЕЧЕНО: Microsoft, Голос, записи, имитирует, любой, основе, трехсекундной
Serega 09.01.2023
Оставить комментарий Оставить комментарий

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

В Пятигорске в рехабе до смерти запытали парня, который планировал побег
Как повысить шансы на одобрение ипотеки, объяснил эксперт
Сын Януковича перестал быть учредителем компании «Арсенал Инвест» в Петербурге
«Постоянно играет змею»: хейтеры раскритиковали Настасью Самбурскую
Эксперт: Китай сменит нефть на газ в ближайшие два года
Россиянам могут запретить курить на ходу
SHOT: застреливший убийцу Круга женился в колонии на экс-сотруднице судов
До конца года ВКС РФ получат десять новых самолетов
Владивосток проиграл Москве в голосовании за молодежную столицу. Но это неточно

Читайте также:

Найдена странная клеточная сущность на грани жизни

25.06.2025

«Броня для голоса»: новая технология защищает от кражи голосовой биометрии

25.06.2025

Ученые раскрыли тайну странного поведения у акул

25.06.2025

Госдума утвердила закон о едином магазине приложений: RuStore становится обязательным

25.06.2025
Подписывайтесь на нас
Welcome Back!

Sign in to your account

Забыли пароль?