Google создал систему генерации видео на основе текстового описания на базе нейросети Imagen. Imagen Video, способна создавать 5-секундные видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.
Как поясняют исследователи Google, Imagen Video берет текстовое описание и сначала создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения, в результате генерируя 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.