Команда инженеров по машинному обучению из материнской компании Facebook Meta (признана экстремистской организацией, деятельность запрещена на территории РФ) представила новую систему под названием Make-A-Video. Как следует из названия, эта модель ИИ делает видео. Все работает просто: пользователь вводит приблизительное описание сцены, и систем генерирует короткое видео, соответствующее тексту.
«плюшевый мишка, рисующий портрет»
В сообщении анонсирующем Make-a-Video, компания отмечает, что инструменты для создания видео бесценны «для создателей контента и художников». Но, как и в случае с моделями преобразования текста в изображение, есть и тревожные перспективы. Результаты этих инструментов могут быть использованы для дезинформации и пропаганды.
Вверху слева: собака в плаще супергероя летит по небу. Вверху справа: космический корабль приземляется на Марсе. Внизу слева: кисть художника рисует на холсте крупным планом, очень детально. Внизу справа: лошадь, пьющая воду.
В документе, который описывает технические детали модели, авторы разработки рассказывают, как она работает,. Make-A-Video обучается на парах изображений и подписей, а также на немаркированных видеоматериалах. Учебный контент получили из двух наборов данных (WebVid 10M и HD-VILA 100M). В них — миллионы видеороликов на сотнях тысяч часов отснятого материала. Там есть и стоковые видеоматериалы, созданные такими сайтами, как Shutterstock и рандомные видео из интернета.
Пока Make-A-Video выводит 16 кадров видео с разрешением 64 на 64 пикселя, которые затем увеличиваются в размере с помощью отдельной модели AI до 768 на 768.
Meta не делала объявлений о том, как или когда Make-A-Video станет общедоступным или кто будет иметь к нему доступ. Компания представила регистрационную форму, которую можно заполнить, если вы заинтересованы в том, чтобы попробовать ее в будущем.