Google представил инструмент, генерирующий видео по текстовым описаниям

Google представил инструмент, генерирующий видео по текстовым описаниям

Google создал систему генерации видео на основе текстового описания на базе нейросети Imagen. Imagen Video, способна создавать 5-секундные видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.

Как поясняют исследователи Google, Imagen Video берет текстовое описание и сначала создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения, в результате генерируя 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.

Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или имитировать стиль Ван Гога, а также придавать видеоизображению глубину и трехмерность, как при съемке движущейся камерой или дроном.

Напомним, нейросеть Imagen, являющаяся аналогом DALL-E 2 от Open AI, была представлена Google в мае этого года. Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.

Оба алгоритма Imagen – для генерации картинок и для генерации видео – работают по одному принципу, улучшая созданный прототип до тех пор, пока искусственный интеллект не поймет, что уже не может сделать его лучше по заданным параметрам, а затем увеличивает до нужного размера. Разработчики подчеркивают, что улучшение разрешения исходника происходит не путем масштабирования — на каждом из трех этапов нейросеть улучшает детали на изображении.

Пока Imagen Video, также как и генератор картинок, работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых видеороликов и изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.

Похожие статьи:

Читайте также

Комментирование закрыто.