• Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
Чтение: ИИ от Microsoft имитирует любой голос на основе трехсекундной записи
Поделиться
Уведомление Показать больше
Font ResizerAa
Font ResizerAa
  • Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
Search
  • Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
У вас есть существующая учетная запись? Войти
Подписывайтесь на нас
Технологии

ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

09.01.2023
2 мин. чтение

Компания Microsoft представили искусственный интеллект VALL-E. Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь, которую невозможно отличить от голоса оригинала.

Исследователи из Корнуэльского университета использовали модель VALL-E для анализа механизмов генерации речи. В своей работе, препринт которой опубликован на сервере arXiv, ученые исследуют нейронную сеть, обученную на основе 60 тыс. часов английской речи. Это в сотни раз больше, чем у существующих аналогов.

ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

Принцип работы ИИ. Изображение: VALL-E
Анализ показал, что системе достаточно трехсекундного ролика для имитации голоса собеседника. При этом Vall-E значительно превосходит современную систему TTS с точки зрения естественности звучания речи и сходства голоса. Кроме того, она может сохранять эмоции говорящего и акустическую среду (влияние акустических свойств помещения, в котором была сделана оригинальная запись).

Разработанная система генерации пока закрыта для публичного доступа, но исследователи опубликовали примеры образцов и готовых голосовых файлов на сайте в интернете. Примеры сгенерированной речи отличаются по качеству. В то время как некоторые из них звучат естественно, на других слышно, что они сгенерированы машиной. Авторы разработки отмечают, что дальнейшее обучение на разных голосах, в том числе с разными акцентами, повысит качество работы системы.
Образец голоса человека. Аудио: VALL-E Сгенерированная запись, сохраняющая внешние шумы. Аудио: VALL-E
Исследователи также отмечают, что возможность генерации голосов, идентичных оригинальным, создает новые вызовы для безопасности, поскольку может использоваться мошенниками. Они полагают, что до широкого публичного релиза модели необходимо разработать систему, которая будет распознавать записи, сгенерированные ИИ.

ЧИТАЙТЕ ТАКЖЕ:





ПОМЕЧЕНО:MicrosoftГолосзаписиимитируетлюбойосноветрехсекундной
Комментариев нет Комментариев нет

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

ЛУЧШИЕ НОВОСТИ


СВЕЖИЕ НОВОСТИ

16-летняя Анна Пересильд предстала в ретро-платье с глубоким декольте
Шоу-бизнес
Путин может устроить облаву на либералов — Хазин
Политика
МК: в Красногорске годовалый малыш умер во время тихого часа в детсаду
Общество
Эксперт объяснил, как защитить переписки в мессенджерах от посторонних
Общество
Липовые перекупы: водителей предупредили о хитрой схеме угона
Общество
Разборка городских банд: В столице Бельгии началась стрельба
Общество
Франция деградирует до состояния страны «третьего мира»
Политика
СК: Актеру Панину грозит до семи лет колонии за оправдание терроризма
Политика
Что ждёт россиян, родившихся с 1961 по 1966 годы, объяснил юрист
Общество

Читайте также:

Технологии

«Уэбб» сделал снимок двух галактик, которые сливаются в новую вселенную

30.10.2022
Технологии

Косатки потопили три лодки в Европе и учат других делать то же самое: эксперты объяснили почему

20.05.2023
Технологии

Трекер на гигантской акуле случайно записал столкновение с кораблем

24.07.2024
Технологии

Раковые клетки, устойчивые к химиотерапии, находят с помощью «штрих-кодов»

30.12.2022
Подписывайтесь на нас
Welcome Back!

Sign in to your account

Username or Email Address
Password

Забыли пароль?