NVIDIA 擺脫 AI 機器語音的終極方案:PersonaPlex 讓 AI 擁有靈魂與聲音的自主權 - DigiLog 聲響實驗室

NVIDIA 擺脫 AI 機器語音的終極方案:PersonaPlex 讓 AI 擁有靈魂與聲音的自主權

NVIDIA 擺脫 AI 機器語音的終極方案:PersonaPlex 讓 AI 擁有靈魂與聲音的自主權
作者 by DigiLog 作者群 發布日期

想像一下,你正在與一個 AI 進行語音對話。過去的經驗通常是這樣的:你說完一句話,空氣凝結了一兩秒,然後一個聽起來有點生硬的聲音開始回覆。如果你中途想插話,它不是聽不見,就是會像當機一樣卡住。這種「你說我聽」的輪替模式,在音訊專家眼中,完全缺乏人類溝通應有的節奏感(Groove)。

NVIDIA 最近發表的 PersonaPlex 技術,正式宣告了這種尷尬對話時代的終結。這不僅僅是一個更好的語音合成器,它是一個能夠同時「聽」與「說」的雙全工(Full-duplex)系統,讓 AI 第一次具備了像人類一樣的談話直覺。

為什麼過去的 AI 對話聽起來很假

在音樂製作中,我們知道延遲是創作的殺手。傳統的語音 AI 系統是由三個獨立的模組串聯而成的:語音識別(ASR)、語言模型(LLM)、語音合成(TTS)。這種「階層式」架構意味著音訊必須經過多層轉換,每一步都會產生延遲。更糟的是,這種架構無法處理「非語言行為」。

人類對話中充滿了「嗯哼」、「喔對」、「真的嗎」等背景音(Backchannels),以及微妙的停頓與語調起伏。傳統系統很難在對話中適時地加入這些情緒點綴,導致聽感極其生硬。

 

PersonaPlex 的核心魔法:全雙工與人格切換

NVIDIA PersonaPlex 徹底打破了這種結構。它基於 Moshi 架構開發,擁有 70 億個參數,並採用了單一模型的設計。這意味著模型在說話的同時也在接收你的聲音,它能即時判斷何時該停下來聽你說話,或是在你講到重點時發出認同的氣音。

最讓音訊專業人士興奮的功能在於其「人格化(Persona)」的掌控力。PersonaPlex 允許使用者透過簡單的文字指令(Text Prompts)來定義角色,並結合音訊樣本(Voice Prompts)來決定音色。

你可以給它一個充滿智慧、聲音低沉的老師形象,或者是一個語速飛快、帶有特定口音的客服人員。在 NVIDIA 展示的範例中,它甚至能模擬在太空船緊急狀況下的宇航員,語氣中帶著急促的呼吸聲與緊張感,這種對聲音質地(Texture)與情感動態的掌握,已經達到了令人驚豔的程度。

訓練數據的黑科技:真實與合成的完美平衡

要讓 AI 說話自然,素材是關鍵。NVIDIA 使用了 1217 小時的真實人類對話數據(Fisher English corpus),讓模型學習人類真實的停頓、插話與語氣修正。

然而,真實對話的數據往往缺乏場景的多樣性。因此,研發團隊引入了大量的合成對話數據,涵蓋了數萬種客服與助理場景。這種「混合式」的訓練方式,讓 PersonaPlex 同時繼承了真實人類的「聲音表情」以及模型所需的「任務執行力」。這就像是在混音時,結合了高品質的類比取樣與精準的數位控制,達到了聽覺上的自然平衡。

延遲低到幾乎察覺不到

對於追求極致聽感的我們來說,數據表現是最直接的。在測試中,PersonaPlex 的平均反應延遲控制在非常低的範圍內(約 0.2 秒左右),這遠低於許多市面上的商用模型。它在 turn-taking(輪替對話)的流暢度表現甚至超越了許多知名的閉源系統。

這種低延遲不僅讓對話變快,更重要的是它讓「插話(Interruption)」變得自然。當你打斷 AI 時,它會像真人一樣停頓,並根據你新提供的資訊調整後續的語句,這才叫真正的對話,而不是朗讀稿件。

 

這對音訊產業意味著什麼

PersonaPlex 的出現,對遊戲開發、播客製作甚至是虛擬歌手的開發都有著深遠影響。它解決了語音 AI 長期以來「有聲無魂」的問題。現在,我們不再受限於單一的固定音色,而是可以根據創作者的需求,透過簡單的提示詞,量身打造一個擁有特定性格、口音與情緒反應的虛擬對象。

NVIDIA 這次大方地開放了代碼與模型權重(MIT 與 NVIDIA Open Model 許可),這意味著開發者與創作者可以自由地在這個基礎上進行二次創作。對話式 AI 的未來,聽起來將會比以往任何時刻都更動人。

 

資料來源:NVIDIA

瀏覽次數 此文章被關注 625 次

討論區

目前尚無評論