Теперь даже Фрэнка Синатру можно «заставить» петь о чём угодно.
В закладки
Принято считать, что дипфейки популярны в видеоформате — например, в порно или для имитации роликов со знаменитостями и политиками. Однако The Guardian вспомнил о существовании Jukebox — одного из «Deepfake для музыки» от OpenAI, который позволяет исполнить композицию в стиле известных музыкантов, в том числе ушедших из жизни. TJ публикует пересказ материала и рассказывает подробности о работе алгоритмов.
Как это работает
«It’s Christmas time! It’s hot tub time!», — слышится в композиции «Classic Pop, in the style of Frank Sinatra» голос Фрэнка Синатры, но поёт не он. Песню можно было бы принять за потерянную демо-запись известного певца — его голос кажется устрашающе знакомым, даже когда качество оставляет желать лучшего.
Но композиция — не подлинный трек Синатры, а очень точная имитация, созданная компанией OpenAI, работающей над развитием искусственного интеллекта. Её инструмент Jukebox использует машинное обучение для создания музыки с вокалом в разных жанрах и стилях музыкантов. Помимо Синатры, можно выбрать многих других, например, Кэти Пэрри, Элвиса Пресли, Simon & Garfunkel, 2Pac или Селин Дион.
OpenAI использовала 1,2 миллиона песен из интернета вместе с текстами и метеданными, чтобы обучить Jukebox. На выходе получилась система, которая может выдавать исходное аудио на несколько минут длиной на основе того, какие вводные данные она получит. Например, если «скормить» ей Queen или Моцарта, родится приблизительно такая же музыка, хотя и не её прямая копия.
Во время работы над Jukebox исследователям пришлось столкнуться с проблемами, часть которых были препятствиями для автоматизации музыки многие годы. Главной проблемой стал объём данных.
Как рассказывали исследователи в блоге OpenAI, люди научились автоматически генерировать музыку больше полувека назад с появлением первых пианороллов — рулонов с отверстиями, которые позволяли автоматизировать игру на пианино. Однако у них было много ограничений: например, они не могли передавать голос человека и многие тонкие тембры, динамику и экспрессивность как при игре человеком.
Сейчас технологии позволяют использовать другой подход к генерации музыки — моделировать «чистое» аудио. Но в стандартной четырёхминутной песне в CD-качестве (44 кГц, 16 бит) около 10 миллионов временных отметок, и она сложна для моделей с точки зрения семантики — им придётся работать с очень далекоидущими зависимостями.
Именно по такому пути пошли в OpenAI — в Jukebox использовали модель автокодировщика, которая сжимает аудио с помощью подхода VQ-VAE, построенного на основе квантования. Система разбивает диапазон значений на ограниченное число уровней и округляет значения до ближайших к ним уровней.
Затем исследователи обучили алгоритмы генерировать музыку в диапазоне, сжатом с помощью VQ-VAE. Для этого использовали три модели: основная генерирует наиболее сжатые данные, а две других увеличивают детализацию и выдают менее сжатые значения.
Модель верхнего уровня в Jukebox отвечает за работу с «длинной структурой» музыки: этот алгоритм выдаёт сэмплы низкого качества, но улавливает высокоуровневую семантику вроде пения и мелодичности. Средняя и нижняя модели повышают качество «исходника» и добавляют деталей вроде тэмбра.
Все алгоритмы тренировали по авторегрессионным моделям глубокого обучения — они позволяют предсказывать будущие значения на основе прошлых значений. Каждая из моделей состоит из 72 слоёв «внимания» и соответствует 24, 6 и 1,5 секундам «чистого» аудио на высоком, среднем и низшем уровнях соответственно.
Для обучения Jukebox OpenAI использовала 1,2 миллиона композиций, 600 тысяч из которых были на английском. Текст и метаданные об артистах, жанрах и годе выхода песен взяли из LyricWiki. Модель сама научилась объединять похожих артистов и жанры: например, она поместила рядом Дженнифер Лопез и Долли Партон.
Ещё одним вызовом для исследователей стало объединение текста песни с музыкой. В распоряжении OpenAI отдельно оказались сами композиции и слова к ним — у модели не было данных о соответствии текста музыке, кроме того, многие артисты по-разному исполняют одни и те же песни.
Чтобы сопоставить разные части песен, исследователи занялись эвристикой: сначала они просто распределили текст по всей длине каждой песни, а потом уложили его по отдельным «окнам» из символов вокруг конкретного сегмента композиции. Как отметили в OpenAI, эта стратегия сработала на удивление хорошо, но не подошла для жанров с быстрой лирикой вроде хип-хопа, поэтому авторам пришлось увеличить окно и точнее выравнивать текст на уровне слов — для этого используют Spleeter и NUS AutoLyricsAlign.
Что думают музыканты, слушатели и исследователи
Как отметил музыкант, исследователь и академик Goldsmiths доктор Мэттью Йи-Кинг (Matthew Yee-King), решение OpenAI «впечатляет с инженерной точки зрения». По его мнению, подобные алгоритмы позволят создать новые возможности для творчества — например, люди смогут спросить у модели, которая изучила миллионы песен, чего ещё не было, найти это «белое пятно» и создать в нём что-то новое.
В представлении Йи-Кинга, в будущем машины будут способны сгенерировать «идеальное произведение» для любого человека в любое время на основе предпочтений, которые тот установит. Нечто похожее уже пытаются сделать в стартапах Endel, и даже в российском Mubert. «Просто скормите людям наиболее оптимизированный звуковой поток, и можно будет совсем избавиться от артистов», — пояснил исследователь.
Похожего мнения придерживается и музыкант Мат Драйхёрст (Mat Dryhurst), который несколько лет работал с технологиями искусственного интеллекта. По его словам, алгоритмы откроют новые горизонты для музыкальной индустрии и поп-музыки.
Но не все относятся к генерации музыки так же позитивно. Как напомнили в The Guardian, некоторые лейблы уже начали требовать удаления видео с дипфейк-имитацией голоса Jay-Z, которые исполняет рэп о Шейкспире и Билли Джоэле. В компании Roc Nation тогда заявили, что подобный контент «незаконно использует ИИ» для подражания голосу исполнителей. Лейбл обратился в YouTube с требованием удалить видео за нарушение авторских прав, но компания не подчинилась и потребовала «предоставить больше информации от заявителя», а ролик восстановили.
Дипфейками не всегда довольны и слушатели. Судя по всему, для некоторых людей прослушивание имитации на давно умерших музыкантов приводит к «эффекту зловещей долины». Например, под записями от Jukebox на Soundcloud можно найти комментарии вроде «это крики проклятых» и «звучит чертовски зловеще».
Появление дипфейков для музыки также поднимает этические вопросы — что делает артистов особенными, почему люди слушают определённую музыку и как она вызывает эмоции. Как предположили в The Guardian, если люди потеряют эмоциональную связь с артистами, это может лишить музыку нечта фундаментального. По мнению Драйхёрста, чтобы этого избежать, алгоритмы должны стремиться не заменить людей, а помочь им.
Чего ждать в будущем
Несмотря на прогресс Jukebox, результаты алгоритмов пока далеки от музыки, созданной людьми — это понимают и в OpenAI. Исследователи открыто признают, что хотя система выдаёт согласованные композиции и следует традиционным партиям, в её песнях не услышать более крупных структур вроде повторяющихся припевов, а процесс повышения детализации добавляет заметный шум.
Пока модели также медленно работают из-за авторегрессионной природы их обучения. Для получения одной минуты звука требуется девять часов обработки — это не позволяет использовать Jukebox в интерактивных сервисах. Кроме того, модели пока в основном работают с английским языком и западной музыкой.
В будущем OpenAI планирует дорабатывать алгоритмы генерации музыки и создать возможности для коллаборации людей и машинного обучения. Помимо прочего, в компании уже изучают вопросы предвзятости алгоритмов и защиты авторских прав. Чтобы лучше понять последствия, исследователи выдали доступ к Jukebox десятку разноплановых музыкантов. Артисты пришли к единому мнению, что инструмент пока не получится применить в творческом процессе.
Журналисты считают, что дипфейки в музыке неизбежно столкнутся с этическими и юридическими трудностями. Ведь в скором времени никому больше не нужно будет платить за использование музыки любимого исполнителя в фильме, телешоу или рекламе — можно будет создать собственную идеальную имитацию. А стриминговые сервисы смогут создавать подборки на основе известных артистов, но не платить им отчислений.
Как минимум в Великобритании, где находятся многие крупные звукозаписывающие компании, законы пока не позволяют ограничить применение дипфейков. Как рассказал The Guardian главный юрист лейбла Beggars Group Руперт Скеллетт, в стране действуют два разных закона об авторском праве на музыку — один для самих мелодий и другой для текстов. «Если кто-то не использовал настоящую запись, а создал симулякр с помощью ИИ, вы не сможете предъявить никаких исков», — пояснил юрист.