ElevenLabs Music v2 驚豔登場：開創中途變奏與局部重組的 AI 音訊編輯新紀元

一、生成式 AI 音樂的進化節奏：從「能聽」到「完美駕馭」

在過去的一到兩年裡,生成式人工智慧(Generative AI)在文字、影像以及語音複製領域掀起了巨浪,然而在「音樂生成」這塊被視為人類感性與理性最高結合的聖殿中,發展腳步卻充滿了妥協。早期的音樂生成模型,多半只能產出結構模糊、背景雜音沉重、且長度僅有數十秒的環境音效或簡單樂句。對於專業的音樂製作人或音訊編輯來說,這些成品充其量只能當作靈感碎片,根本無法直接投入商業製作。其關鍵痛點在於,音樂不僅僅是頻率的隨機組合,它包含了極其複雜的宏觀結構——從前奏、主歌、副歌到橋段,伴隨著嚴謹的對位法、配器法以及情感張力的鋪陳。

然而,這項技術的演進速度正在以令人瞠目結舌的複合成長率前進。全球知名的語音 AI 獨角獸 ElevenLabs(該公司已於 2026 年 4 月達到 5 億美元年度經常性收入 ARR),在推出其初代音樂模型近 10 個月後,正式對外發布了全新一代的音樂生成巨作:Music v2。這款模型的誕生,不僅僅是將音樂生成的「時長」拉長,或是將音質「修乾淨」而已,它徹底顛覆了過往 AI 音樂只能「一路到底、無法回頭」的死板邏輯。Music v2 的核心突破在於,它賦予了創作者在前所未有的微觀與宏觀層面上,對音樂進行結構性控制、風格跨界揉合以及精準局部編修的能力。這標誌著 AI 音樂正式從「娛樂性的玩具」轉變為「專業音訊編輯的工作流利器」。

ElevenLabs Music v2 驚豔登場：開創中途變奏與局部重組的 AI 音訊編輯新紀元

二、核心黑科技拆解:中途變奏與非線性分段調配

在傳統的 AI 音樂生成工具中(例如早期的 Suno 或 Udio),使用者輸入一段提示詞(Prompt),系統就會像擲骰子一樣,吐出一段結構固定的完整歌曲。如果使用者對其中第 30 秒的吉他獨奏不滿意,或是覺得副歌的節奏不夠激昂,唯一的選擇通常是「重新生成」,這讓創作過程充滿了隨機性與挫折感。ElevenLabs Music v2 則徹底打破了這道高牆,帶來了三大顛覆性的編輯特徵:

1. 驚人的「中途曲風切換(Mid-Track Genre Switching)」

這是 Music v2 最令人嘖嘖稱奇的特點。在同一首曲子當中,模型能夠在極短的過門時間內,流暢地從古典歌劇(Opera)直接切換成狂暴的重金屬搖滾(Heavy Metal),隨後再無縫轉回原本的曲風。這種高難度的風格轉換,在過去需要極其資深的編曲師進行精密的調性重組、拍速(BPM)配對以及音色過渡設計。Music v2 不僅達成了曲風的跨界揉合,還能在極快速的饒舌(Rap)節奏中,保持歌詞發音的咬字清晰度與音樂整體的連貫性(Coherence),完全不會出現突兀的斷層。更令人驚艷的是,它還能自發性地在音樂軌道中加入「非音樂性的聲音效果(Non-musical Sound Effects)」,例如環境噪音、呼吸聲或特效音,極大地豐富了音訊的層次感。

2. 局部重組與微調(Inpainting / Precision Recreation)

對於專業音訊編輯而言,這項功能堪稱救星。現在,藝術家和編輯們可以自由圈選一首歌曲中的特定片段(例如某一段表現不夠理想的過門樂句),並單獨針對該片段輸入新的提示詞進行重新編輯與置換。在此過程中,歌曲的其他部分——包含樂器編制、歌手音色、空間殘響等——都將保持完好,完全不受影響。這種局部的「音樂補丁」技術,讓 AI 音樂製作真正具備了現代數位音訊工作站(DAW,如 Logic Pro 或 Pro Tools)的非破壞性編輯邏輯。

3. 模組化樂曲拼接架構

與其一口氣生成一段充滿未知的漫長音軌,Music v2 引導創作者採用更符合傳統音樂製作的「分段構建法」。創作者可以依序、獨立地設計歌曲的各個核心組件,包括前奏(Intro)、主歌(Verse)、副歌(Chorus)以及結尾(Outro)。當各個部分的旋律與編曲都調整到完美狀態後,再透過 ElevenLabs 的平台系統將他們有機地縫合在一起。這種結構化的生成模式,確保了最終成品在音樂學架構上的嚴謹度,徹底解決了 AI 音樂後期難以剪輯的硬傷。

ElevenLabs 官方指出:「Music v2 的設計初衷,是為了同時處理人聲與作曲上的極端複雜性。無論是語言的相容性、歌詞的節奏咬合、人聲的情感表現力,還是多樂器的配器排列,這款模型都展現出了前所未有的高穩定度與音樂性。」

三、AI 音樂戰局:四強競逐的白熱化戰場

隨著 ElevenLabs Music v2 的推出,全球生成式 AI 音樂賽道正式進入了白熱化的全面戰爭。值得注意的是,在這波發布潮中,Stability AI 也同步推出了 Stable Audio 3.0(開放權重模型,可生成長達 6 分鐘的音軌),形成的是「四強競爭」而非三強鼎立的格局。為了讓讀者更清晰地理解當前的技術版圖,我們將四大主要玩家進行全方位橫向對比:

ElevenLabs Music v2

核心編輯優勢:中途曲風切換、非音樂特效融合、非破壞性局部重組(Inpainting)
音樂結構控制力:極高,支援前奏、主歌、副歌之模組化分段構建與無縫縫合
版權狀態:完全基於已授權數據訓練,並與獨立數位授權代理 Merlin 及音樂出版商 Kobalt 等建立合作
商業授權範圍:自助方案(Self-Serve)開放線上與線下商業使用,但不含影視、電視與 Studio Games;企業方案(Enterprise)則完全無限制商業使用(實際使用前請務必詳閱 ElevenLabs Music Terms)
主要目標用戶:行銷廣告團隊、品牌主、專業音訊編輯與獨立音樂製作人

Google Flow Music(由 Lyria 3 Pro 驅動)

核心編輯優勢:分段落式精細編輯(可即時改寫或翻譯特定段落歌詞)、一鍵式翻唱(Covers,保留原始旋律與結構)、結合 Gemini Omni 同步生成音樂錄影帶
音樂結構控制力:高,與 Google Flow 生態系深度整合,且於 I/O 2026 推出 iOS 與 Android 行動 App
版權狀態:相對安全,主要基於 Google 與各大唱片廠的授權協議與自有資產
主要目標用戶:一般大眾創作者、YouTuber、影音內容創作者、跨媒體創作者

Stability AI Stable Audio 3.0

核心編輯優勢:四款模型組成的家族,其中三款釋出開放權重(Open Weights),支援裝置端(On-Device)推論,最長可生成 6 分鐘音軌
音樂結構控制力:中高,因開放權重而具備高度自訂彈性
版權狀態:強調以授權資料訓練,著重商業合規性
主要目標用戶:開發者、研究人員、需要本地部署或客製化模型的進階使用者

Suno / Udio 陣營

核心編輯優勢:高水準的初次旋律直覺生成與超長音軌連續延伸
音樂結構控制力:中等,主要依賴文字標籤引導,後期可控性較低
版權與訴訟狀態:狀況複雜,Warner 已於 2025 年 11 月與 Suno 達成和解(含授權合作與 Songkick 收購);Universal(UMG)已於 2025 年 10 月與 Udio 和解(建立按生成次數計費的授權範本);Sony 仍堅持訴訟,Suno 對其餘原告以「合理使用(Fair Use)」抗辯,關鍵的即決判決聽證會排定於 2026 年 7 月。此外,2025 年 10 月有獨立音樂人發起的集體訴訟,法律風險尚未完全釐清
主要目標用戶:業餘音樂愛好者與社群迷因製作者

從上述對比可以清楚看出,ElevenLabs 採取了與 Suno 截然不同的戰略路線。Suno 專注於讓沒有任何音樂背景的普通用戶快速獲得一首「聽起來很酷的完整歌曲」;而 ElevenLabs Music v2 則深挖「工具屬性」,透過賦予創作者精準的控制權、分段拼接能力以及更明確的商業安全版權框架,精準鎖定了具有高變現需求的專業市場。

四、你的音樂創作新起點

目前,Music v2 已同步驅動 ElevenLabs 三大平台:

ElevenMusic:消費者級音樂創作與串流平台(消費者 App 已於 2026 年 4 月上線),用戶可直接在該平台上進行 AI 歌曲的創作、分段拼接與細部調校,亦支援將歌曲重新混音為新版本
ElevenCreative:為行銷與品牌團隊量身打造的工具箱,自助方案降價最高達 40%
ElevenAPI:供軟體開發者深度整合進自有產品、應用程式或自動化工作流,Music v1 與 v2 的 API 價格降幅最高達 50%

ElevenLabs Music v2 的推出,不僅是該公司技術拼圖上的重要一塊,更為整個生成式音訊產業立下了新的標竿。它告訴我們,未來的 AI 音樂不再是盲目地追求隨機的驚艷,而是追求「可控的專業」。當創作者手中握有精準調配、隨心變奏的權力,音樂的創意邊界將被無限拓寬。你準備好加入這場數位音訊的革命了嗎?

引用來源

ElevenLabs 官方部落格〈Introducing Music v2〉:https://elevenlabs.io/blog/introducing-music-v2
TechCrunch〈ElevenLabs' new music-generation model can switch genres mid-track〉(2026/05/27)