NVIDIA 擺脫 AI 機器語音的終極方案：PersonaPlex 讓 AI 擁有靈魂與聲音的自主權

NVIDIA 擺脫 AI 機器語音的終極方案：PersonaPlex 讓 AI 擁有靈魂與聲音的自主權

by DigiLog 作者群

2026.02.03

想像一下，你正在與一個 AI 進行語音對話。過去的經驗通常是這樣的：你說完一句話，空氣凝結了一兩秒，然後一個聽起來有點生硬的聲音開始回覆。如果你中途想插話，它不是聽不見，就是會像當機一樣卡住。這種「你說我聽」的輪替模式，在音訊專家眼中，完全缺乏人類溝通應有的節奏感（Groove）。

NVIDIA 最近發表的 PersonaPlex 技術，正式宣告了這種尷尬對話時代的終結。這不僅僅是一個更好的語音合成器，它是一個能夠同時「聽」與「說」的雙全工（Full-duplex）系統，讓 AI 第一次具備了像人類一樣的談話直覺。

為什麼過去的 AI 對話聽起來很假

在音樂製作中，我們知道延遲是創作的殺手。傳統的語音 AI 系統是由三個獨立的模組串聯而成的：語音識別（ASR）、語言模型（LLM）、語音合成（TTS）。這種「階層式」架構意味著音訊必須經過多層轉換，每一步都會產生延遲。更糟的是，這種架構無法處理「非語言行為」。

人類對話中充滿了「嗯哼」、「喔對」、「真的嗎」等背景音（Backchannels），以及微妙的停頓與語調起伏。傳統系統很難在對話中適時地加入這些情緒點綴，導致聽感極其生硬。

PersonaPlex 的核心魔法：全雙工與人格切換

NVIDIA PersonaPlex 徹底打破了這種結構。它基於 Moshi 架構開發，擁有 70 億個參數，並採用了單一模型的設計。這意味著模型在說話的同時也在接收你的聲音，它能即時判斷何時該停下來聽你說話，或是在你講到重點時發出認同的氣音。

最讓音訊專業人士興奮的功能在於其「人格化（Persona）」的掌控力。PersonaPlex 允許使用者透過簡單的文字指令（Text Prompts）來定義角色，並結合音訊樣本（Voice Prompts）來決定音色。

你可以給它一個充滿智慧、聲音低沉的老師形象，或者是一個語速飛快、帶有特定口音的客服人員。在 NVIDIA 展示的範例中，它甚至能模擬在太空船緊急狀況下的宇航員，語氣中帶著急促的呼吸聲與緊張感，這種對聲音質地（Texture）與情感動態的掌握，已經達到了令人驚豔的程度。

訓練數據的黑科技：真實與合成的完美平衡

要讓 AI 說話自然，素材是關鍵。NVIDIA 使用了 1217 小時的真實人類對話數據（Fisher English corpus），讓模型學習人類真實的停頓、插話與語氣修正。

然而，真實對話的數據往往缺乏場景的多樣性。因此，研發團隊引入了大量的合成對話數據，涵蓋了數萬種客服與助理場景。這種「混合式」的訓練方式，讓 PersonaPlex 同時繼承了真實人類的「聲音表情」以及模型所需的「任務執行力」。這就像是在混音時，結合了高品質的類比取樣與精準的數位控制，達到了聽覺上的自然平衡。