Google представил нейросеть MusicLM
Google создал систему генерации музыкальных композиций на основе текстового описания.
Нейросеть MusicLM способна создавать высококачественные мелодии на частоте 24 кГц, опираясь на довольно сложные текстовые подсказки, например, такие: «смесь реггетона и электронной танцевальной музыки с космическим, потусторонним звуком».
Проведенные эксперименты показывают, что MusicLM превосходит все предыдущие подобные системы как по качеству звука, так и по соблюдению текстового описания. Кроме того, для генерации мелодий MusicLM может опираться как на текст, так и на уже существующие музыкальные композиции, трансформируя их в соответствии с выбранным стилем.
Нейросеть может использовать несколько последовательных описаний (например, «время медитировать», «время просыпаться», «время бежать», «время выкладываться на 100%») и сгенерировать своего рода музыкальную «историю» или повествование продолжительностью до нескольких минут — идеально подходящую для саундтрека к фильму.
MusicLM также способна создавать мелодии по описанию картин – Сальвадора Дали, Эдварда Мунка, Пабло Пикассо и других известных художников. Однако, выяснилось, что 1% сгенерированной по картинам музыки напрямую повторяет мелодии из набора для обучения.
Разработчики Google пока не планируют выкладывать исходный код MusicLM или делать нейросеть доступной для общего пользования. Для поддержки будущих исследований компания выложила в публичный доступ MusicCaps, набор данных, состоящий из 5,5 тыс. пар мелодия-текст, с расширенными текстовыми описаниями, составленными экспертами.
Напомним, в прошлом году Google представила две нейронные сети Imagen и Imagen Video, способные генерировать картинки и видео по текстовым описаниям. Эти нейросети также работают в режиме закрытой бета-версии и недоступны для всех желающих.