Stability AI 推出 Stable Audio Open —— 更加重視著作權的文字轉音訊開源模型

Stability AI 推出 Stable Audio Open —— 更加重視著作權的文字轉音訊開源模型

by DigiLog 作者群

2024.06.11

Stability AI 最近發布了一款免費的開源文字轉音訊模型「Stable Audio Open」，這款模型特別注重於對創作者權利的尊重，前音訊副總裁 Ed Newton-Rex 因反對在訓練數據集中使用版權材料而離職，並在公開辭職信中指出，許多公司在未經許可的情況下使用創作者的作品訓練生成式 AI 模型，這可能會與原創作品競爭，損害創作者的利益。因此，Stable Audio Open 的訓練數據集來自 Freesound 和 Free Music Archive，確保在創建開放音訊模型的同時尊重創作者權利。

Stability AI 推出 Stable Audio Open —— 更加重視著作權的文字轉音訊開源模型

事實上，Stability AI 去年 9 月推出的首款 Stable Audio 1.0 就曾被《時代》雜誌評為 2023 年最佳發明之一；今年 4 月，他們又發布了更新版本 Stable Audio 2.0，進一步提升藝術家和音樂人的創作工具。新推出的 Stable Audio Open 模型允許使用者生成高質量的短音訊樣本，並用於音效設計。用戶只需要通過簡單的文字描述，就可以創建出長達 47 秒的音訊片段，特別適合製作音效、鼓點、樂器段落、環境音效等音樂和音效設計常用的製作元素。而且使用者可以針對音訊數據進行微調。例如：自行打擊鼓聲並使用錄音來訓練模型，生成符合自己風格的新鼓點。

Stable Audio Open 的模型權重已在 Hugging Face 平台上提供下載，Stability AI 也鼓勵音效設計師、音樂人、開發者以及對音訊感興趣的使用者探索模型的功能並提供反饋。