將聲音視覺化後重新作曲？全新的 AI 音樂生成項目 Riffusion

by DigiLog 作者群

2022.12.29

關於AI 生成音樂

透過 AI 生成音樂已經是一個足夠創新的概念，在今年十月我們也有介紹過韓國 AI 語音公司 Supertone 被 BTS 所屬的 HYBE 娛樂公司收購的新聞；稍有不同的是 Riffusion 用一種聰明、怪異的方法將其提升到另一個層次，它不是用聲音本身，而是用聲音訊號的圖像來產生怪異和引人注目的音樂。

關於 Riffusion

Riffusion 是一種用於生成圖像的機器學習技術，在過去的一年裡這項技術使 AI 智能世界變得更加強大。DALL-E 2 和 Stable Diffusion 是兩個目前最引人注目的項目，其工作原理是透過 AI 智能判定輸入的指令應該由什麼內容來取代視覺雜訊。
這套方法在許多情況下足以被證明是強大的，而且能夠輕易的被微調；在大部分訓練有素的模型中，輸入大量的特定內容能夠讓它從中生產出更多的衍伸結果。例如說，可以投入更多的水彩繪畫、汽車的圖片上對生成系統做微調，便能夠加強系統在生成這些內容的能力。

Seth Forsgren 和 Hayk Martiros 以在頻譜圖上進行 Stable Diffusion 的方式製作了他們的 Riffusion 模型。Stable Diffusion （穩定擴散）是一種數學概念，指的是一種具有隨著時間穩定分佈的擴散過程。在數據分析的背景下，它可用於描述訊息的傳播或系統隨時間的演化。頻譜圖是信號頻率頻譜隨時間的圖形表示，通常用於信號處理和音訊分析。

「Hayk 和我一起組團，開始製作這個項目只是因為我們熱愛音樂，不知道 Stable Diffusion 這個方式是否有可能創建出具有足夠保真度的頻譜圖，足以將其轉換成音訊；在這個過程中的每一步，我們都對接下來的可能越來越堅定，一個想法導致了下一個想法。」Seth Forsgren 表示。

一段音樂的頻譜圖。 Image Credits: Devin Coldewey

頻譜圖是什麼？它們是音訊的視覺表示，顯示不同頻率隨時間的振幅。或許可能已經看過的波形圖，它們顯示的是隨時間的音量，使音訊看起來像一系列的山丘和峽谷；可以想象成不只是總音量的表現，而是顯示低端到高端的每個頻率的音量。

Forsgren 和 Martiros 製作了一系列音樂的頻譜圖，並在得的圖像上標記相關術語，如「藍調吉他」、「爵士鋼琴」、「非洲節奏」等等。將這個份資料輸入模型中，使它對某些聲音「看起來像什麼」以及如何重新創建或結合它們有良好的概念跟判斷力。

First look - Riffusion (Dec/2022) - Text-to-image-to-music (Similar output to Jukebox, SymphonyNET)

目前 Riffusion 在技術上還未足夠成熟到產生出較長的內容，在理論上目前是成立的。Forsgren 表示他們還沒有正式嘗試創造經典的、有重複旋律和歌詞的 3 分鐘歌曲，他們認為這可以通過一些巧妙的技巧來實現，例如說為歌曲結構建立一個較高層次的模型，然後用較低層次的模型來處理單個片段。或者使用更大分辨率的完整歌曲圖像，來深入訓練 Riffusion 的模型。

Riffusion 不是任何一種重塑音樂的宏偉計劃，Forsgren 表示他和 Martiros 只是很高興看到人們參與他們的工作，在他們的程式碼之上建立自己的想法，享受樂趣並對其進行迭代。人們可以快速地在事物的基礎上進行構建，其方向是原作者無法預測的。

目前已經可以在 Riffusion.com 上直接試用這個新的 AI 模型，所有的代碼都可以在「關於」頁面獲得，所以如果有興趣的話，也可以隨時加入 Riffusion 的社群。

Watched 此文章被關注 8763 次