ACE-Step 讓商用級 AI 音樂生成在本機端電腦跑起來 - DigiLog 聲響實驗室

ACE-Step 讓商用級 AI 音樂生成在本機端電腦跑起來

ACE-Step 讓商用級 AI 音樂生成在本機端電腦跑起來
作者 by DigiLog 作者群 發布日期

對於音樂製作人或影音創作者來說,這幾年 AI 音樂的進化速度簡直快到讓人掉下巴。從早期只能發出奇怪電子雜訊的實驗品,到現在 Suno、Udio 這種能產出高完成度歌曲的雲端工具,我們確實見證了時代的轉變。然而,專業玩家心裡始終有個疙瘩:每次生成都要扣點數、所有素材都得傳上雲端、最重要的是,我們無法真正「掌控」模型。

最近在 GitHub 上引起熱議的 ACE-Step 1.5 正是為了解決這些痛點而生。這不只是一個更新,它更像是一場「創作主權」的運動。

 

為什麼這款開源模型讓專業音訊圈集體高潮

首先,ACE-Step 1.5 是一個完全開源、採 MIT 協議的音樂生成模型。這意味著無論你是要拿來做商業專案、修改代碼,還是訓練自己的專屬風格,通通不必看雲端廠商的臉色。

在音質表現上,根據官方與社群的實測,其音質連貫性評分(MOS)高達 4.72,這個數據甚至超越了目前市面上許多知名的閉源商業模型。更驚人的是,它不再需要動輒數萬美金的伺服器,在一般的消費級顯卡(如 RTX 3060)上就能順利運行,显存需求僅約 4GB。這代表你可以在家裡的電腦,用不到 10 秒的時間產出一首 4 分鐘的高品質曲目。

 

核心技術:先規劃、再作曲的「雙階段架構」

許多 AI 音樂聽起來結構混亂,是因為它們往往是「走一步算一步」。ACE-Step 1.5 聰明的地方在於它內建了一個輕量的語言規劃器(Language Planner)。

當你輸入一段提示詞,系統會先生成一個音樂大綱,包含前奏、主歌、副歌、橋段到尾奏的時長比例與情緒曲線。接著,再由擴散合成器(Diffusion Synthesizer)根據大綱填充細節。這種「結構化創作」的方式,讓生成出的音樂具備極高的結構合理性,不再是隨機拼湊的音符。

此外,它採用了分布匹配蒸餾技術,將擴散步數壓縮至 16 步,大幅提升了生成速度。在 A100 顯卡上,生成一整首歌甚至只需要 2 秒,這對需要大量迭代尋找靈感的創作者來說,效率提升是以百倍計算的。

 

靈魂所在:LoRA 微調與極致的可控性

對專業音訊編輯而言,最迷人的功能莫過於對 LoRA(Low-Rank Adaptation)的支持。你只需要準備幾十首自己過去的作品或特定風格的音軌,就能對模型進行微調。這意味著你可以訓練出一個「專屬分身」,它能精準捕捉你的編曲邏輯與音色偏好。

目前 ACE-Step 1.5 已經整合進了 ComfyUI 的工作流,這對習慣節點式操作的創作者來說非常友善。你可以精確地控制歌名、歌詞對齊,甚至是負向提示詞(Negative Prompt),剔除你不想要的樂器或氛圍。

它也支持多達 50 種語言的指令,無論是中文、英文還是日韓流行風格,都能穩定輸出。雖然目前的歌詞對齊能力在某些極端複雜的電子樂中仍有進步空間,但以一個開源項目來說,這已經是目前地球上最強大的存在之一。

 

回歸創作者手中的接力棒

ACE-Step 1.5 的出現,標誌著音樂生成正式從「訂閱制服務」回歸到「本地端工具」。當技術不再是黑盒,當每位音樂人都能在本地端訓練專屬模型,創作的邊界將被無限拓寬。如果你也厭倦了在雲端平台上抽盲盒般的生成體驗,是時候去 GitHub 下載這套神器,體驗一下什麼叫做真正的「創作自由」了。

 

DEMO

ACE-Step 下載

 

教學:

第一步:環境準備與插件安裝

要在 ComfyUI 裡跑 ACE-Step,首先需要確保你的環境支援音訊處理。

  • 下載自定義節點: 開啟你的 ComfyUI Manager,搜尋並安裝 ComfyUI-Audio 或專為 ACE-Step 開發的自定義插件(如 ComfyUI-ACE-Step)。如果 Manager 搜不到,可以直接將 GitHub 上的 repository clone 到 custom_nodes 資料夾中。

  • 權重檔案擺放: ACE-Step 1.5 的模型權重(通常是 .safetensors 或 .pth 格式)需要放置在 models/audio_checkpoints 或對應的插件資料夾下。請記得同時下載其對應的 VAE 與 Planner 模型,否則生成的音軌會出現雜訊。

第二步:建立核心工作流

一個標準的 ACE-Step 運作邏輯包含三個核心節點:

  1. ACE-Step Loader: 負責加載基礎模型。在這裡你可以選擇不同的 FP16 或 BF16 版本,以節省顯存。

  2. Audio Prompt / Lyrics Encoder: 這是最關鍵的地方。ACE-Step 支援歌詞對齊,你可以在此輸入歌詞,並透過「時間戳記」節點來規劃每一段副歌或橋段出現的時間點。

  3. ACE-Step Sampler: 這就像是畫圖的 KSampler。建議將 Step 設定在 16 到 25 之間(得益於分布匹配蒸餾技術,16 步已有極佳音質)。CFG Scale 則建議在 3.5 到 7.0 之間,過高會導致音頻過載失真。

第三步:進階玩法——LoRA 與音訊後處理

ComfyUI 的強大在於它可以疊加 LoRA 節點。如果你有針對特定曲風(如 80 年代 City Pop 或重金屬)微調過的 ACE-Step LoRA,可以直接串接在 Loader 之後。

此外,生成的音訊建議後接一個 Audio Save 節點,並設定輸出格式為 WAVFLAC 以保留最高動態。若顯存足夠,你甚至可以串接一個音量標準化(Normalize)節點,確保輸出的 Demo 音量符合工業標準。

 

瀏覽次數 此文章被關注 848 次

討論區

目前尚無評論