VR 虛擬實境之聲音— 淺談 Spatial audio、Ambisonic 等聲音處理技術

Vr ambisonic ambisonic %e5%b0%81%e9%9d%a2

by Sz

2019.02.11

對於喜歡虛擬實境、360 度影片或是喜歡欣賞電影的朋友，就算不是創作者，多多少少應該也曾好奇過那些 3D 音效是怎麼做到的，這次的文章會藉由一些比較新的收音技術、器材、後期混音、聆聽方式做簡單的介紹。

不過在那之前，讓我們先來看一段影片直接體驗看看吧！

（建議戴上耳機在手機上用 Youtube 觀看，用電腦的話瀏覽器請使用Google Chrome、Firefox、Internet Explore、Opera。Safari目前不支援）

在 360 度影片中，有幾個值得一提的事情：

聲音會隨著我們所看的景象移動
不需要昂貴的機器也可以從手邊的裝置輕鬆服用
雖硬體限制低、但軟體/使用平台卻有很多限制
很難跟他人一起共享

這種處理 3D 聲音的技術並不全然是一個全新的領域，他所運用到的是所謂的 ambisonic 格式（目前尚未有正式的中文翻譯）與我們常聽到的單聲道、立體聲、5.1、7.1不同，ambisonic 是一種，記錄完整 360 度環景的聲音處理格式，廣泛被應用在不論收音、後期處理、聆聽場合的解決方案。在 1970 年代就已經問世，但更因為近幾年由於 VR、AR 等相關領域興起，開始才有了活躍的討論應用。

但在詳細說明 ambisonic 之前，我們需要先建立一下目前常見的聲音處理技術分類做簡單的認識。

聲音處理技術類型

技術的出現，便是為了解決問題、實現原本大家想做卻做不到的事情。對於聲音技術的需求，從 20 世紀初的留聲機，單純只有錄音、播放的單聲道格式，娛樂領域的發展開始追求更自然、更豐富的聲音，而有了立體聲，更別忘了還有 5.1, 7.1 甚至更多聲道的格式了，而這也就是我們最熟悉、最直覺能理解的 Channel Based（聲道導向）。

Channel Based（聲道導向）

解釋

以「聲道」作為基準，去分配各個物件、音軌位於聲道間的聲音大小，也是最傳統、發展最完全的定位方式。我們常聽到的 mono,stereo, 5.1, 7.1 都是這種類型。

種類

上圖的皆為常見平面上的環繞 channel based 演進

後來也有增加了上下排環繞的聲道格式，目前最多聲道的格式有 NHK 的22.2。

https://en.wikipedia.org/wiki/22.2_surround_sound
圖中為三種常見聲道格式的配置

https://www.lifewire.com/auro-3d-audio-4100014

AURO 10.1 配置，除上排聲道另有頭頂的 Overhead 聲道

https://www.soundandvision.com/content/onkyo-unveils-first-dts-neox-receiver

DTS Neo:X 的 11.1 配置

可以發現其實到越來越高聲道數的格式，每家廠牌的建議配置也不太一樣。

廠商

電影、劇場類的裝置常見的廠商有杜比 ( Dolby Digital )、DTS、SDDS 等；家庭劇院的話則沒有 SDDS。
不同廠商有自己的聲道版本、音訊壓縮等的不同，目前最常見的格式為 5.1，廣泛被各種播放設備、影視作品作為標配或選配。

https://zh.wikipedia.org/wiki/DTS

印有四種格式音軌的拷貝底片─（左至右）SDDS（邊緣藍色條）、杜比數位（片孔間的灰色格子）、光聲聲軌（兩條白線）及DTS時間碼（破折線）

應用上的優缺點

優點：

聆聽：作為發展最為完備的導向類型，舉凡傳統、數位電視、DVD、電影等都能夠有廣泛的支援。
後期：以要觀眾要聽到什麼，就怎麼去處理的脈絡去製作，聲音聽起來最自然。
收音：收音方法、設備發展完整，例如像下圖的 decca tree 或可作為 5.1 聲道收錄整體聲音的工具。

https://www.dpamicrophones.com/accessories/surround-decca-tree-mount

DPA 的 DECCA TREE MOUNT

缺點：

聆聽：設備通常不太能兼容不同聲道格式，需要透過 up / down mixing 的方法，讓不同聲道格式來模擬其他格式，並且每推出新的聲道格式，就必須添購新的播放設備、甚至是新的播放空間，對大部分的人來說是很難負荷的。
後期：聲道格式數量的不同影響到監聽時所需的監聽喇叭數量，聲音的方向定位也較為困難。
收音：門檻高，收音方法複雜且昂貴。

畢竟人耳對於聲音定位是非常精準的（不然我們大概永遠找不到那個掉在房間某處的手機了……），聲道導向為了去滿足對於聲音的擬真度，不斷推出更多聲道的格式，並沒有辦法完全解決隨之而來的困難，所以在 2012 年左右，新的導向類型，Object Based （物件導向）問世。

Object Based（物件導向）

解釋

每個「聲音物件」在哪個方向有多少音量，記錄完整的物件資訊。

廠商、種類

Dolby Atmos

DTS:X

VBAP (Vector Base Amplitude Panning)

像是在台北的國賓大戲院就有支援 Dolby Atoms 的影廳喔！

應用上的優缺點

優點：

聆聽：由於跳脫了聲道上的的思維，只單純記錄每個物件的聲音的資訊，定位效果很好，不同的播放設備也可以通用對應他所在的位置，甚至支援傳統 Channel Based 的軟硬體上只需要小小的更新就可以直接使用。
後期、收音：收音不需要考慮他真實存在的方向，很適合原本就是創造出來的電影特效。

Dolby Atmos Panner plugin.jpeg

https://www.pro-tools-expert.com/home-page/2017/4/24/dolby-announce-dolby-atmos-production-suite-and-mastering-suite

從 dolby atoms的plugins當中可以看到複雜的panning選項已經消失，取而代之的是直覺的在立體空間中的方向控制。

缺點：

聲源較集中，難保持真實性，格式檔案大

Object Based 的格式雖然擁有很好的定位能力，但格式檔案太大的問題卻很難解決，隨之而來就是高成本製作的問題，此時就有了我們這次的討論重點，Scene Based（場景導向）

Scene Based（場景導向）

解釋

場景導向，每個「場景」有多少聲音資訊，從場景正中央收錄完整的場景資訊，而不記錄個別的物件資訊。

Ambisonic

應用

目前最常見的為 ambisonic B-format，ambisonic 是 Scene Based 中的一種。

NT-SF1

https://digilog.tw/products/1597

RODE NT-SF1 1st order ambisonic 麥克風

收音

Ambisonic 的麥克風是一種錄音手法 M/S prosessing 的延伸，與其他的麥克風長相很不一樣，最少擁有 4 個 capsule ，為 1st Order Ambisonic (FOA)，但這四個 capsule 並不是指播放出來的聲道方向，而是一個紀錄整個 360 度場景的 ambisonic A-format ，不過在單字轟炸前我們還是先來看一下 M/S prosessing 是什麼吧！

簡單來說，透過兩個 mono 的麥克風，M 代表 Middle，正對前方的心指向（全／雙指向亦可）麥克風，s 代表 Side ，垂直於正前方的雙指向麥克風，經過處理之後，製造聽起來好像比實際的喇叭擺設廣度更廣的聲音。

應用到 FOA 的麥之後則是不只左右的廣度，更多了上下、前後兩個維度。

4 channel = 環景 360 度聲音資訊

通常我們會以 WXYZ 代表

W：全指向
X：前後的雙指向
Y：左右的雙指向
Z：上下的雙指向

AmbiX or FuMa

如果看一些 ambisonic 麥克風的介紹，會有強調自己可以任意隨設備擺置來翻轉方向的特色。

一是ambisonic 收音常搭配環景的攝影器材使用，由於都放在場景中央，麥克風會收到攝影機運作的聲音、攝影機也會拍到麥克風；二是不同的解碼格式會有不同的方向，最常用的格式為 AmbiX 以及 FuMa，他們的差別最主要是 channel 的順序，AmbiX 是 WYZX；FuMa 則是 WXYZ，值得慶幸的是這些格式間的轉換目前也都有 plugins 可以直接轉換了。

編碼與解碼

從 M/S prosessing 原知，麥克風錄的格式並不是我們丟到 daw 之後，就會聽到整個環景聲音，麥克風的格式與我們真的要聽到的 Scene based 的格式必須經過解碼才可以使用，但這些事情聽起來很複雜，不過通常這個步驟通常也不用自己來，在 FOA 收音的狀態下，知道 A-format 是麥克風錄音的格式，B-format 是解碼之後的格式，透過麥克風附的軟體或是 plugin 就可以做到了。

HOA (Higher Order Ambisonic)

Ambisonic 麥的定位精準度的影響來自 capsule 的多寡，如上述所提的為 1st Order ，按照球諧函數類推，2nd Order 就要 9 個，3rd Order 需要 16 個。

https://en.wikipedia.org/wiki/Ambisonics

第一層：W 全指向

第二層：1st order

第三層：2nd order

第四層： 3rd order

廠商

近幾年來有許多廠商紛紛推出 ambisonic 格式的麥克風，例如 Sennheiser 的 AMBEO VR 麥克風、ZOOM 的 H3-VR 錄音裝置等，High Order 也有很多不同用途的麥克風，像是 3rd Order ambisonic 的 ZYLIA。

Convey the true experience

https://en-us.sennheiser.com/microphone-3d-audio-ambeo-vr-mic

Sennheiser AMBEO VR MIC

http://www.zylia.co/

3rd order ambisonic 的 ZYLIA ，可透過軟體分割出不同樂器加以混音後期。

https://digilog.tw/posts/1111

搭載 FOA 的手持錄音裝置，不需外接 recorder 很適合入門。

混合收音

不過 ambisonic 麥克風終究有其限制，被擺在場景正中央使得他很難詳細的紀錄所有聲音，而三種導向的關連並不是試圖互相取代，而可以會採取混合收音的方法，除了 ambisonic 的麥克風之外會再架單獨收音等麥克風作為後期調整，可以聽聽看彼此的差別。

後期

Ambisonic 格式的強大，在於後期製作時與其他格式的相容性非常的高，由於他對於其他導向的格式包容性很強，不論 mono, surround, object based 都可以透過轉檔放進來一起調整編輯，也可以輕易匯出成非 ambisonic 的格式相容於各種聆聽場合。相對的，了解複雜的格式們間以及軟體的功能、可以應用的平台、限制也變得十分重要。

理解現在最泛用的格式是哪些，對於自己會需要什麼樣的器材是非常重要的， Ambisonic 雖然有更高 order 的麥克風可以提昇聲音定位的精準度，但是以現在主流支援 360 影片的平台，以 youtube 及 facebook 為例的話，兩者有不同

DAW

ambisonic 以 FOA 的格式在 DAW 中編輯的話，需要支援 4 channel 的格式，不過這時 channel 的用法不是 channel based 指的那種幾個聲道播放的 channel ，而是 FOA 麥克風所錄製的四條 channel ，支援 4 channel 的 DAW 最有名的應該是 Pro tools，但更值得一提的應該是更容易入手的 REAPER，可以說是對於剛踏入門的朋友們的福音呢！

除了麥克風本身的解碼軟體之外，waves 也曾推出過編輯、轉檔、監聽 ambisonic 的 plugins、google也有推出 Resonance Audio 的跨平台開發工具，可以使用於網頁、程式、DAW 等環境。

聆聽

任何支援立體聲的耳機、支援 ambisonic 音訊格式的硬體、平台、裝置（例：youtube、facebook 等）

喇叭與耳機

https://www.genelec.com/bang-olufsen-chooses-genelec-its-virtual-reality-laboratory

喇叭與耳機的收聽 3D 聲響，最大的差別就在於有沒有透過耳朵的辨位處理，喇叭將聲音播放到整個空間中，耳機則是直接送到耳道裡，就像如果將 ambisonic 格式轉錄成 5.1 ，我們可以自由的在喇叭中間移動旋轉來聽聲音的方位，但這顯然不會是聆聽 ambisonic 的最佳選擇，想要透過喇叭忠實呈現 ambisonic 的聲響的話，需要一個平均分布於聆聽者等距離的球體上，但這顯然對於一般人來說是很難達成的，最常見的方法還是透過耳機—— Binaural 格式。

Product detail x2 desktop ku 100 diagonal neumann dummy head m

https://en-de.neumann.com/ku-100

Binaural 也是一種錄音方法，直接透過模擬頭顱的麥克風來收錄聲音，來忠實收錄人所聽到的聲音，ambisonic 轉錄成 binaural 格式會有個問題，戴上耳機後，怎麼轉耳機就是卡在那，如果沒有辦法做到聲音可以隨著動作移動的話，那耳機聽起來就只是一般的 stereo 而已，（更正：Binaural audio 的格式簡易的說是使用 stereo （例如：耳機聆聽）來重現 3D 的聲響。Ambisonic 轉錄成 Binaural 格式時，透過 head-tracking 的方式即可達到隨頭部移動聲音也相對移動的效果，但這樣的處理還是會顯得不太自然，這關係到人耳如何接收及辨認聲音的方位，）移動就必須要帶入模擬耳朵在空間中移動時聽起來的聲音的修正，也就是而這修正可以想成是一個模擬耳朵的 filter，這 filter 的名稱被稱為—— HRTF（頭部相關傳遞函數）。

我們的耳朵其實是非常靈敏複雜的，就像我們用一雙眼睛分辨眼前物體的遠近大小一樣，我們可以輕易地靠著一對耳朵精準在三維空間的定位聲音的來源，這 filter 中有幾個比較重要的參數如下。

HRTF（Head-Related Transfer Functions 頭部相關傳遞函數）

https://en.wikipedia.org/wiki/Head-related_transfer_function

兩耳時間延遲量差 / ITD（Inter Aural Time Delay）

音源到達兩個耳朵的時間差，例如，如果聲音從正前方傳來，聲音會同時到達雙耳，若在正右方傳來
則到達右耳距離則會比到達左耳的多了一個頭顱的距離。

兩耳音量大小差 / IAD（Inter Aural Amplitude Difference）

除了到達的時間的差距，也會因為經過頭顱會被吸收掉音量，所以左右耳聽到的音量也會有所不同。

Cone of confusion

https://electronics.howstuffworks.com/virtual-surround-sound2.htm

但這兩個數值還是會有誤判的情形，例如，正前方與正後方對於耳朵來說 ITD 與 IAD 都是相同的，耳朵必須靠著其他的數據來做判斷。

耳廓繞射效應

耳廓的重要性可以靠著把耳朵輕輕的蓋住，請別人拿鑰匙圈在固定的位置上下移動並甩動，會發現其實有點難辨別到底他在哪個位置，聲音在複雜的耳廓間的反射也是影響我們辨位的重要因素之一。

但從這些參數可見，其實它所參考的數據來自人體本身，也就是說這些數據對於每個人都會有些許的差距，頭顱大小、耳朵構造等，要真的用耳機忠實呈現整個 ambisonic 的完整樣貌，目前除非每個人都可以輕易量測自己的 HRTF ，否則還是很難做到非常精準。

立體聲喇叭收聽 Binarual Audio 的可能性

就像最一開始提到的影片，沈浸式體驗有個特色，就是很難與其他人一起分享，只能一個戴上裝置體驗，但建構一個完整的 ambisonic 監聽系統又顯得不切實際，不過透過立體聲喇叭直接播放 binarual audio 又會有左耳聽得到右耳聲音的狀況（這現象稱為 crosstalk），目前市面上也有少數產品是透過消除 crosstalk 來透過喇叭聆聽 binarual audio 的產品，不過聲音上目前的技術會有一定的失真。