ACE-Step 讓商用級 AI 音樂生成在本機端電腦跑起來

ACE-Step 讓商用級 AI 音樂生成在本機端電腦跑起來

by DigiLog 作者群

2026.02.10

對於音樂製作人或影音創作者來說，這幾年 AI 音樂的進化速度簡直快到讓人掉下巴。從早期只能發出奇怪電子雜訊的實驗品，到現在 Suno、Udio 這種能產出高完成度歌曲的雲端工具，我們確實見證了時代的轉變。然而，專業玩家心裡始終有個疙瘩：每次生成都要扣點數、所有素材都得傳上雲端、最重要的是，我們無法真正「掌控」模型。

最近在 GitHub 上引起熱議的 ACE-Step 1.5 正是為了解決這些痛點而生。這不只是一個更新，它更像是一場「創作主權」的運動。

為什麼這款開源模型讓專業音訊圈集體高潮

首先，ACE-Step 1.5 是一個完全開源、採 MIT 協議的音樂生成模型。這意味著無論你是要拿來做商業專案、修改代碼，還是訓練自己的專屬風格，通通不必看雲端廠商的臉色。

在音質表現上，根據官方與社群的實測，其音質連貫性評分（MOS）高達 4.72，這個數據甚至超越了目前市面上許多知名的閉源商業模型。更驚人的是，它不再需要動輒數萬美金的伺服器，在一般的消費級顯卡（如 RTX 3060）上就能順利運行，显存需求僅約 4GB。這代表你可以在家裡的電腦，用不到 10 秒的時間產出一首 4 分鐘的高品質曲目。

ACE-Step 讓商用級 AI 音樂生成在本機端電腦跑起來

核心技術：先規劃、再作曲的「雙階段架構」

許多 AI 音樂聽起來結構混亂，是因為它們往往是「走一步算一步」。ACE-Step 1.5 聰明的地方在於它內建了一個輕量的語言規劃器（Language Planner）。

當你輸入一段提示詞，系統會先生成一個音樂大綱，包含前奏、主歌、副歌、橋段到尾奏的時長比例與情緒曲線。接著，再由擴散合成器（Diffusion Synthesizer）根據大綱填充細節。這種「結構化創作」的方式，讓生成出的音樂具備極高的結構合理性，不再是隨機拼湊的音符。

此外，它採用了分布匹配蒸餾技術，將擴散步數壓縮至 16 步，大幅提升了生成速度。在 A100 顯卡上，生成一整首歌甚至只需要 2 秒，這對需要大量迭代尋找靈感的創作者來說，效率提升是以百倍計算的。

靈魂所在：LoRA 微調與極致的可控性

對專業音訊編輯而言，最迷人的功能莫過於對 LoRA（Low-Rank Adaptation）的支持。你只需要準備幾十首自己過去的作品或特定風格的音軌，就能對模型進行微調。這意味著你可以訓練出一個「專屬分身」，它能精準捕捉你的編曲邏輯與音色偏好。

目前 ACE-Step 1.5 已經整合進了 ComfyUI 的工作流，這對習慣節點式操作的創作者來說非常友善。你可以精確地控制歌名、歌詞對齊，甚至是負向提示詞（Negative Prompt），剔除你不想要的樂器或氛圍。

它也支持多達 50 種語言的指令，無論是中文、英文還是日韓流行風格，都能穩定輸出。雖然目前的歌詞對齊能力在某些極端複雜的電子樂中仍有進步空間，但以一個開源項目來說，這已經是目前地球上最強大的存在之一。

回歸創作者手中的接力棒

ACE-Step 1.5 的出現，標誌著音樂生成正式從「訂閱制服務」回歸到「本地端工具」。當技術不再是黑盒，當每位音樂人都能在本地端訓練專屬模型，創作的邊界將被無限拓寬。如果你也厭倦了在雲端平台上抽盲盒般的生成體驗，是時候去 GitHub 下載這套神器，體驗一下什麼叫做真正的「創作自由」了。

DEMO

ACE-Step 下載

教學：

第一步：環境準備與插件安裝

要在 ComfyUI 裡跑 ACE-Step，首先需要確保你的環境支援音訊處理。

下載自定義節點：開啟你的 ComfyUI Manager，搜尋並安裝 ComfyUI-Audio 或專為 ACE-Step 開發的自定義插件（如 ComfyUI-ACE-Step）。如果 Manager 搜不到，可以直接將 GitHub 上的 repository clone 到 custom_nodes 資料夾中。
權重檔案擺放： ACE-Step 1.5 的模型權重（通常是 .safetensors 或 .pth 格式）需要放置在 models/audio_checkpoints 或對應的插件資料夾下。請記得同時下載其對應的 VAE 與 Planner 模型，否則生成的音軌會出現雜訊。

第二步：建立核心工作流

一個標準的 ACE-Step 運作邏輯包含三個核心節點：

ACE-Step Loader：負責加載基礎模型。在這裡你可以選擇不同的 FP16 或 BF16 版本，以節省顯存。
Audio Prompt / Lyrics Encoder：這是最關鍵的地方。ACE-Step 支援歌詞對齊，你可以在此輸入歌詞，並透過「時間戳記」節點來規劃每一段副歌或橋段出現的時間點。
ACE-Step Sampler：這就像是畫圖的 KSampler。建議將 Step 設定在 16 到 25 之間（得益於分布匹配蒸餾技術，16 步已有極佳音質）。CFG Scale 則建議在 3.5 到 7.0 之間，過高會導致音頻過載失真。