Stability AI 最近發布了一款免費的開源文字轉音訊模型「Stable Audio Open」,這款模型特別注重於對創作者權利的尊重,前音訊副總裁 Ed Newton-Rex 因反對在訓練數據集中使用版權材料而離職,並在公開辭職信中指出,許多公司在未經許可的情況下使用創作者的作品訓練生成式 AI 模型,這可能會與原創作品競爭,損害創作者的利益。因此,Stable Audio Open 的訓練數據集來自 Freesound 和 Free Music Archive,確保在創建開放音訊模型的同時尊重創作者權利。
事實上,Stability AI 去年 9 月推出的首款 Stable Audio 1.0 就曾被《時代》雜誌評為 2023 年最佳發明之一;今年 4 月,他們又發布了更新版本 Stable Audio 2.0,進一步提升藝術家和音樂人的創作工具。新推出的 Stable Audio Open 模型允許使用者生成高質量的短音訊樣本,並用於音效設計。用戶只需要通過簡單的文字描述,就可以創建出長達 47 秒的音訊片段,特別適合製作音效、鼓點、樂器段落、環境音效等音樂和音效設計常用的製作元素。而且使用者可以針對音訊數據進行微調。例如:自行打擊鼓聲並使用錄音來訓練模型,生成符合自己風格的新鼓點。
Stable Audio Open 的模型權重已在 Hugging Face 平台上提供下載,Stability AI 也鼓勵音效設計師、音樂人、開發者以及對音訊感興趣的使用者探索模型的功能並提供反饋。
資料來源 Stability AI 官方網站
討論區
目前尚無評論