Google представил инструмент, генерирующий видео по текстовым описаниям
Google создал систему генерации видео на основе текстового описания на базе нейросети Imagen. Imagen Video, способна создавать 5-секундные видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.
Как поясняют исследователи Google, Imagen Video берет текстовое описание и сначала создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения, в результате генерируя 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.
Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или имитировать стиль Ван Гога, а также придавать видеоизображению глубину и трехмерность, как при съемке движущейся камерой или дроном.
Напомним, нейросеть Imagen, являющаяся аналогом DALL-E 2 от Open AI, была представлена Google в мае этого года. Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.
Оба алгоритма Imagen – для генерации картинок и для генерации видео – работают по одному принципу, улучшая созданный прототип до тех пор, пока искусственный интеллект не поймет, что уже не может сделать его лучше по заданным параметрам, а затем увеличивает до нужного размера. Разработчики подчеркивают, что улучшение разрешения исходника происходит не путем масштабирования — на каждом из трех этапов нейросеть улучшает детали на изображении.
Пока Imagen Video, также как и генератор картинок, работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых видеороликов и изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.