Google представил инструмент, генерирующий видео по текстовым описаниям

12 октября 2022 года

Google создал систему генерации видео на основе текстового описания на базе нейросети Imagen. Imagen Video, способна создавать 5-секундные видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.

Как поясняют исследователи Google, Imagen Video берет текстовое описание и сначала создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения, в результате генерируя 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.

Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или имитировать стиль Ван Гога, а также придавать видеоизображению глубину и трехмерность, как при съемке движущейся камерой или дроном.

Напомним, нейросеть Imagen, являющаяся аналогом DALL-E 2 от Open AI, была представлена Google в мае этого года. Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.

Оба алгоритма Imagen – для генерации картинок и для генерации видео – работают по одному принципу, улучшая созданный прототип до тех пор, пока искусственный интеллект не поймет, что уже не может сделать его лучше по заданным параметрам, а затем увеличивает до нужного размера. Разработчики подчеркивают, что улучшение разрешения исходника происходит не путем масштабирования — на каждом из трех этапов нейросеть улучшает детали на изображении.

Пока Imagen Video, также как и генератор картинок, работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых видеороликов и изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.

Google представил инструмент, генерирующий видео по текстовым описаниям

Похожие статьи:

Читайте также

Сегодня в СМИ

Чат-бот Gemini научится запоминать информацию о пользователе

Квартальная прибыль Nvidia удвоилась благодаря высокому спросу на чипы для ИИ

Минцифры хочет направлять сотрудников IT-компаний в вузы для преподавания

F.A.C.C.T. сообщил о схеме мошенничества, направленной на участников СВО

Bloomberg: Apple размышляет над выпуском телевизоров

Listis

В мире

Google представил инструмент, генерирующий видео по текстовым описаниям

Похожие статьи:

Читайте также

Сегодня в СМИ

Чат-бот Gemini научится запоминать информацию о пользователе

Квартальная прибыль Nvidia удвоилась благодаря высокому спросу на чипы для ИИ

Минцифры хочет направлять сотрудников IT-компаний в вузы для преподавания

F.A.C.C.T. сообщил о схеме мошенничества, направленной на участников СВО

Bloomberg: Apple размышляет над выпуском телевизоров

Listis

Облако меток

В мире