將聲音視覺化後重新作曲?全新的 AI 音樂生成項目 Riffusion | DigiLog 聲響實驗室
讀音樂 » 互動科技 » 將聲音視覺化後重新作曲?全新的 AI 音樂生成項目 Riffusion

將聲音視覺化後重新作曲?全新的 AI 音樂生成項目 Riffusion

Spectrogram 2000x1500 648x486
Author by DigiLog 作者群 Cal 2022.12.29

 

關於AI 生成音樂

透過 AI 生成音樂已經是一個足夠創新的概念,在今年十月我們也有介紹過韓國 AI 語音公司 Supertone 被 BTS 所屬的 HYBE 娛樂公司收購的新聞;稍有不同的是 Riffusion 用一種聰明、怪異的方法將其提升到另一個層次,它不是用聲音本身,而是用聲音訊號的圖像來產生怪異和引人注目的音樂。

 

關於 Riffusion

Riffusion 是一種用於生成圖像的機器學習技術,在過去的一年裡這項技術使 AI 智能世界變得更加強大。DALL-E 2 和 Stable Diffusion 是兩個目前最引人注目的項目,其工作原理是透過 AI 智能判定輸入的指令應該由什麼內容來取代視覺雜訊。
這套方法在許多情況下足以被證明是強大的,而且能夠輕易的被微調;在大部分訓練有素的模型中,輸入大量的特定內容能夠讓它從中生產出更多的衍伸結果。例如說,可以投入更多的水彩繪畫、汽車的圖片上對生成系統做微調,便能夠加強系統在生成這些內容的能力。


Seth Forsgren 和 Hayk Martiros 以在頻譜圖上進行 Stable Diffusion 的方式製作了他們的 Riffusion 模型。Stable Diffusion (穩定擴散)是一種數學概念,指的是一種具有隨著時間穩定分佈的擴散過程。在數據分析的背景下,它可用於描述訊息的傳播或系統隨時間的演化。頻譜圖是信號頻率頻譜隨時間的圖形表示,通常用於信號處理和音訊分析。


「Hayk 和我一起組團,開始製作這個項目只是因為我們熱愛音樂,不知道 Stable Diffusion 這個方式是否有可能創建出具有足夠保真度的頻譜圖,足以將其轉換成音訊;在這個過程中的每一步,我們都對接下來的可能越來越堅定,一個想法導致了下一個想法。」Seth Forsgren 表示。

 

一段音樂的頻譜圖。 Image Credits: Devin Coldewey

頻譜圖是什麼?它們是音訊的視覺表示,顯示不同頻率隨時間的振幅。或許可能已經看過的波形圖,它們顯示的是隨時間的音量,使音訊看起來像一系列的山丘和峽谷;可以想象成不只是總音量的表現,而是顯示低端到高端的每個頻率的音量。

Forsgren 和 Martiros 製作了一系列音樂的頻譜圖,並在得的圖像上標記相關術語,如「藍調吉他」、「爵士鋼琴」、「非洲節奏」等等。將這個份資料輸入模型中,使它對某些聲音「看起來像什麼」以及如何重新創建或結合它們有良好的概念跟判斷力。

 

First look - Riffusion (Dec/2022) - Text-to-image-to-music (Similar output to Jukebox, SymphonyNET)

 

目前 Riffusion 在技術上還未足夠成熟到產生出較長的內容,在理論上目前是成立的。Forsgren 表示他們還沒有正式嘗試創造經典的、有重複旋律和歌詞的 3 分鐘歌曲,他們認為這可以通過一些巧妙的技巧來實現,例如說為歌曲結構建立一個較高層次的模型,然後用較低層次的模型來處理單個片段。或者使用更大分辨率的完整歌曲圖像,來深入訓練 Riffusion 的模型。


Riffusion 不是任何一種重塑音樂的宏偉計劃,Forsgren 表示他和 Martiros 只是很高興看到人們參與他們的工作,在他們的程式碼之上建立自己的想法,享受樂趣並對其進行迭代。人們可以快速地在事物的基礎上進行構建,其方向是原作者無法預測的。


目前已經可以在 Riffusion.com 上直接試用這個新的 AI 模型,所有的代碼都可以在「關於 」頁面獲得,所以如果有興趣的話,也可以隨時加入 Riffusion 的社群。

Watched 此文章被關注 6610 次

討論區

目前尚無評論

Digilog