Voicebox：完全本地運行的開源語音合成工作站,免費替代 ElevenLabs

開源語音合成的新標竿

如果你曾經用過 ElevenLabs 或其他雲端語音合成服務,應該知道那種「每個月都要付訂閱費」的痛。更痛的是,你辛苦錄製的聲音樣本、訓練好的語音模型,全部都鎖在雲端伺服器裡,隨時可能因為服務終止或政策改變而消失。現在,有個開源專案想要徹底改變這個局面,它叫 Voicebox。

Voicebox 是一個完全本地運行的語音合成工作室,功能堪比專業級的雲端服務,卻不需要訂閱、不需要網路、不需要把你的語音資料上傳到別人的伺服器。更棒的是,它採用 MIT 授權完全開源,任何人都可以免費使用、修改、甚至整合進自己的專案。這對音訊創作者、遊戲開發者、Podcast 製作人來說,簡直是夢寐以求的工具。

由開發者 Jamie Pine 主導的這個專案,最近在 GitHub 上引起了不少關注。它不只是個簡單的文字轉語音工具,而是一個功能完整的語音合成工作站,具備多音軌編輯、語音克隆、即時錄音、自動轉錄等專業功能。更重要的是,它的效能表現相當出色,特別是在 Mac 上透過 MLX 加速,推論速度可以達到傳統 PyTorch 的 4 到 5 倍。

語音克隆的核心：Qwen3-TTS

Voicebox 的語音合成引擎是阿里巴巴開發的 Qwen3-TTS 模型。這個模型的厲害之處在於,它只需要幾秒鐘的語音樣本,就能學會一個人的聲音特徵,然後用那個聲音說出任何你想要的文字內容。過去的語音克隆技術要不是需要大量的訓練資料(至少幾分鐘甚至幾小時的錄音),要不就是合成出來的語音聽起來很機械、不自然。

Qwen3-TTS 的突破在於它能從極少的樣本中提取出聲音的核心特徵——音色、語調、節奏、情緒表達方式——然後在生成新語音時保留這些特質。實際使用起來,你只需要上傳一段清晰的語音錄音(可以是從影片裡擷取的、從 Podcast 錄下的、或是直接在 Voicebox 裡錄製的),Voicebox 就會建立一個語音檔案。

之後你就可以用這個檔案來生成任何文字的語音,聲音會非常接近原始說話者。 Qwen3-TTS 目前支援英文和中文,官方表示未來會加入更多語言。對於需要製作多語言內容的創作者來說,這是個很實用的功能。你可以用同一個人的聲音分別生成英文和中文版本,保持品牌聲音的一致性。

不只是語音合成,更是創作工作站

Voicebox 最吸引人的地方,不只是語音克隆功能,而是它提供了一整套專業的創作工具。這些功能讓它不只是個「文字轉語音」的工具,而是一個完整的語音內容製作平台。首先是「Stories Editor」(故事編輯器)。這是一個類似 DAW 軟體的多軌時間軸編輯器,可以讓你在同一個專案裡安排多個不同聲音的語音軌道。

想像一下你在製作一個 Podcast 對話,有三個角色在聊天。你可以為每個角色建立一個語音檔案,然後在時間軸上安排他們的對話順序、調整每段語音的長度、甚至做一些簡單的音訊修剪和分割。這種多軌編輯功能對於製作有劇情的語音內容非常重要。不管是有聲書、廣播劇、教學影片旁白、還是遊戲對話,都可以用 Voicebox 來快速打樣。

傳統做法是找真人配音員錄製,但如果只是要做個 demo 或測試,用 Voicebox 可以省下大量時間和預算。 Voicebox 還內建了錄音和轉錄功能。你可以直接在軟體裡錄製語音樣本,不需要另外打開錄音軟體。更厲害的是,它整合了 Whisper 語音辨識模型,可以自動把錄音轉成文字。這對於想從現有錄音中提取內容、或是想快速建立語音資料庫的使用者來說,非常方便。在 macOS 和 Windows 上,Voicebox 甚至支援系統音訊擷取。

也就是說,你可以直接錄下電腦正在播放的任何聲音——不管是 YouTube 影片、Zoom 會議、還是遊戲音效——然後用這些聲音來建立語音檔案。這種彈性讓 Voicebox 的應用場景變得非常廣泛。

本地運行的優勢

Voicebox 選擇完全本地運行,這個決定帶來了幾個重要的優勢。首先是隱私。你的語音樣本、生成的音訊、所有的專案檔案,全部都存在你自己的電腦裡,不會上傳到任何雲端服務。對於需要處理敏感內容的使用者(例如企業內部訓練影片、未公開的遊戲對話、商業機密文件的有聲版本),這是非常重要的保證。

其次是成本。雲端語音合成服務通常按字數或使用時長收費,長期使用下來費用可觀。Voicebox 不需要任何訂閱費,唯一的成本是你的電腦硬體。只要電腦夠力,你可以無限制地生成語音,不用擔心超出配額或突然漲價。第三是可靠性。本地運行的軟體不會受到網路狀態、服務中斷、或伺服器維護的影響。就算你在飛機上、在沒有網路的偏遠地區、或是遇到網路故障,Voicebox 照樣能正常工作。這對於有緊急專案需求的創作者來說,是很重要的保障。

當然,本地運行也有代價,那就是對硬體的要求。Voicebox 的語音合成模型需要一定的運算能力,特別是 GPU 加速會大幅提升生成速度。好消息是,如果你用的是 Mac(特別是 M1、M2、M3 這些 Apple Silicon 晶片的機型),Voicebox 會自動使用 MLX 框架來呼叫 Metal API,把運算工作交給 Mac 的神經網路引擎。這讓 Mac 上的 Voicebox 效能表現非常出色,比用 CPU 跑 PyTorch 快了好幾倍。在 Windows 和 Linux 上,Voicebox 使用 PyTorch 框架,如果你有 NVIDIA GPU 且安裝了 CUDA,速度也會很快。就算只有 CPU,也能正常運行,只是生成速度會慢一些。

靈活的部署選項

Voicebox 的架構設計相當聰明,它支援三種不同的部署模式,可以根據你的需求和硬體配置來選擇。第一種是「本地模式」。這是最簡單的用法,所有的運算和儲存都在你的電腦上完成。適合個人使用者或小型專案。

第二種是「遠端模式」。如果你有一台配備強大 GPU 的工作站或伺服器(例如裝了 RTX 4090 的桌機,或是雲端 GPU 實例),你可以把 Voicebox 的後端運行在那台機器上,然後用筆電或其他設備連線過去使用。這樣一來,你可以在輕便的設備上享受高效能的語音合成,而不用把所有運算工作壓在筆電上。

第三種是「伺服器模式」。Voicebox 內建了一個完整的 REST API,可以把你的電腦變成一個語音合成伺服器,讓區域網路或網際網路上的其他應用程式呼叫。這對開發者來說非常實用,你可以把 Voicebox 整合進遊戲、網站、行動 app、或其他需要語音合成功能的專案。 API 的設計很簡潔,幾個基本的 curl 指令就能完成大部分操作。例如生成語音、列出語音檔案、建立新檔案等等。官方還提供了完整的 API 文件,當你啟動 Voicebox 伺服器後,可以直接在瀏覽器裡查看所有可用的端點和參數說明。

這種靈活性讓 Voicebox 不只是個桌面應用程式,更是一個可以嵌入各種工作流程的語音合成平台。不管你是個人創作者、獨立遊戲開發者、還是企業團隊,都能找到適合自己的使用方式。

實際應用場景

Voicebox 的應用場景非常廣泛,幾乎任何需要語音內容的專案都可能用得上。遊戲開發是個明顯的用途。獨立遊戲開發者通常沒有預算請專業配音員,但又希望遊戲裡的 NPC 能有語音對話。用 Voicebox,你可以為每個角色建立一個語音檔案,然後生成所有的對話內容。雖然最終版本可能還是會用真人配音,但在開發階段用 AI 語音來做原型測試,可以省下大量時間和金錢。 Podcast 和影片製作也是很適合的場景。

你可以用 Voicebox 來生成片頭片尾的旁白、廣告段落、或是補錄一些需要修正的內容。對於多人對談的 Podcast,如果某個來賓無法重新錄製某段內容,也可以用他的語音檔案來生成修正版本。有聲書製作是另一個有趣的應用。雖然專業的有聲書還是需要真人朗讀,但對於個人創作的小說、部落格文章、或教學內容,用 Voicebox 生成有聲版本是個經濟實惠的選擇。你甚至可以用不同的語音檔案來為不同角色配音,讓故事更生動。無障礙工具是個很有意義的應用方向。

視障使用者、閱讀障礙患者、或是學習外語的人,都可以從文字轉語音工具中受益。Voicebox 的本地運行特性意味著這些使用者不需要依賴網路連線,可以在任何地方使用。企業內部訓練影片、產品示範、客服系統的語音回應,這些商業應用也都可以用 Voicebox 來實現。由於所有資料都在本地,企業不用擔心敏感資訊外洩的問題。

Voicebox：完全本地運行的開源語音合成工作站,免費替代 ElevenLabs

開發路線圖：未來還會更強

Voicebox 目前還在早期版本(v0.1.0),但開發者已經規劃了一份相當有野心的路線圖。即將推出的功能包括「即時合成」——也就是語音會像串流一樣一個字一個字地生成出來,而不是等整句話處理完才播放。

這對於需要即時回應的應用(例如語音助理、互動式教學系統)來說非常重要。「對話模式」則是讓多個語音檔案可以自動輪流說話,模擬真實對話的節奏和互動。這對製作對談類內容會很有幫助。「語音效果」功能會加入音高調整、混響、以及一些特殊效果(官方甚至提到了「M3GAN 風格效果」,應該是指那種略帶詭異的 AI 聲音)。這讓 Voicebox 不只能生成正常的人聲,還能做出各種創意音效。「時間軸編輯器」的強化版本會提供字詞級別的精確編輯,讓你可以調整每個字的發音、停頓、語調。這種細緻控制對於專業音訊製作來說很重要。

更長遠的規劃包括「語音設計」功能——也就是用文字描述來創造全新的聲音,而不是從現有錄音克隆。例如你可以說「一個低沉、帶有金屬感的男性聲音」,Voicebox 就會生成一個符合描述的語音檔案。「外掛架構」則會讓開發者可以擴充 Voicebox 的功能,加入自訂的 AI 模型、音訊效果、或其他工具。這種開放性是開源專案的重要優勢。

官方還計畫推出「行動伴侶 app」,讓你可以用手機來控制電腦上的 Voicebox,或是直接在手機上生成語音。這對於需要在移動中工作的創作者來說會很方便。從這份路線圖可以看出,Voicebox 的目標不只是做一個語音合成工具,而是打造一個「語音創作的一站式平台」。如果這些功能都能順利實現,Voicebox 很可能會成為開源語音合成領域的標準工具。

安裝與使用：比你想像的簡單

雖然 Voicebox 背後的技術很複雜,但實際安裝和使用並不困難。官方提供了現成的安裝檔,macOS 和 Windows 使用者可以直接下載安裝。

Mac 使用者需要注意選對版本：Apple Silicon(M1/M2/M3)用的是 aarch64 版本,Intel Mac 用的是 x64 版本。

Windows 使用者可以選擇 MSI 安裝檔或 Setup.exe,功能都一樣。

Linux 版本目前還在開發中,主要是因為 GitHub 的建置伺服器磁碟空間不足。不過開發者表示 Linux 版本會很快推出。

如果你是開發者,想要自己編譯或參與開發,過程也不會太複雜。你需要先安裝 Bun(一個快速的 JavaScript 運行環境)、Rust(用來編譯 Tauri)、和 Python 3.11 或更新版本。Mac 使用者還需要安裝 Xcode(這是 Mac 開發的基本要求)。下載原始碼後,執行 setup 指令就會自動安裝所有相依套件。之後用 dev 指令就能啟動開發模式,可以即時看到程式碼修改的效果。整個專案的結構很清楚,前端、後端、桌面應用、網頁版都分別放在不同的資料夾裡,方便維護和開發。

開源語音合成的未來

Voicebox 的出現,代表著開源社群在語音合成領域的一次重大突破。過去,高品質的語音合成技術大多被大公司壟斷,個人開發者和小型團隊很難取得相同水準的工具。現在,有了 Voicebox 和 Qwen3-TTS 這樣的開源專案,任何人都可以在自己的電腦上實現專業級的語音合成。這種技術的平民化會帶來很多有趣的變化。

獨立遊戲開發者可以做出配音更豐富的遊戲。自媒體創作者可以製作多語言版本的內容。教育工作者可以用語音合成來製作更生動的教材。甚至連寫小說的作者都可以自己做出有聲書版本,不需要找出版社或配音員。當然,這項技術也帶來了一些值得關注的問題。語音克隆可能被用於詐騙或假訊息傳播。

名人或公眾人物的聲音可能被未經授權地複製和濫用。這些倫理和法律問題需要社會各界一起來面對和解決。不過,就像任何強大的工具一樣,關鍵在於如何使用。Voicebox 本身只是個技術平台,它可以被用來創造有價值的內容,也可能被濫用。開發者已經在專案中加入了安全性文件(SECURITY.md),鼓勵使用者負責任地報告安全漏洞。

社群也在討論如何在開源和安全之間取得平衡。從技術角度來看,Voicebox 展示了開源專案在 AI 時代的可能性。只要有足夠的專業知識和社群支持,個人開發者也能打造出媲美商業產品的工具。這種「民主化」的趨勢不只發生在語音合成領域,也出現在圖像生成、影片編輯、程式開發等各個方面。

對於想要嘗試語音合成技術的人來說,Voicebox 是個很好的起點。它的功能夠專業,但門檻不會太高。你可以從簡單的文字轉語音開始玩,慢慢探索語音克隆、多軌編輯、API 整合等進階功能。而且因為是開源專案,你可以自由地修改和擴充,打造出符合自己需求的客製化版本。