VUEVO:八陣列麥克風與全息字幕,重新定義聽覺與視覺的跨語溝通 - DigiLog 聲響實驗室

VUEVO:八陣列麥克風與全息字幕,重新定義聽覺與視覺的跨語溝通

VUEVO:八陣列麥克風與全息字幕,重新定義聽覺與視覺的跨語溝通
作者 by DigiLog 作者群 發布日期

隨著 2025 東京 Deaflympics 進入倒數,日本新創 Pixie Dust Technologies 以 VUEVO 系列裝置為聽覺共融寫下最新章──它把 8 顆麥克風排成一圈,搭配自研 AI 演算法,能即時分離說話人、標示方位、加上多語字幕與翻譯,讓「聽見」與「看見」在同一畫面同時發生。

 

技術解密:八陣列背後的波束魔法

VUEVO 透過波束成形(Beamforming)與方向估測(DOA),先把 360° 聲場切片,再以語者分離模型將語音流標籤化。團隊針對多種會議室、吧檯與教室反射模型優化參數,將誤判率壓到 3% 以下;延遲約 200 ms,足以流暢對話。

2024 年 8 月問世的 VUEVO Display 把分軌字幕投影到雙面透明 OLED,現場不用再盯手機或筆電。字幕可在 20 種即時翻譯語言間切換,雲端版本更支援 120 種語言。未來官方將開放 API,連動投影機與 MR 眼鏡,打造「無所不在」的字幕層。

 

應用場景大爆發

  • 聽障共融:日本手語協會測試顯示,使用 VUEVO 後理解正確率 94%,比傳統 CART 多 11 個百分點。

  • 多語活動與觀光:東京僧侶酒吧 VOWZ Bar 使用 VUEVO 後,外國旅客提問率提升 1.8 倍,專有名詞斷線問題大幅減少。

  • 音樂與影音製作:將 VUEVO 音訊流串入埋線系統,樂團排練可同步顯示歌詞與樂手指令;未來若結合 MIDI 標準,後期工程師能在 DAW 直接對應「誰在哪句」的字幕軌。

 

聲音 × 視覺的未來展望

Pixie Dust 以「波控制」技術起家,從超聲浮空到空氣觸覺皆有成果。VUEVO 把音訊工程的多軌概念搬進日常場景,並預告下一步將導入大型語言模型(LLM)做語意摘要──屆時字幕不僅呈現『誰說了什麼』,更能自動整理重點。當聽覺被視覺化、語意化,真正零隔閡的溝通年代指日可待。

VUEVO 既像「多軌錄音介面」,又像「即時字幕機」,把硬體與雲端 SaaS 綁成訂閱方案——入門機年租方案約 10 萬日圓,企業版則可客製翻譯語庫與 UI 風格。

 

引用來源:Japan Gov

 

瀏覽次數 This 文章 has been viewed 2235 times

討論區

目前尚無評論