VR 虛擬實境之聲音— 淺談 Spatial audio、Ambisonic 等聲音處理技術 | DigiLog 聲響實驗室
讀音樂 » 精選文章 » VR 虛擬實境之聲音— 淺談 Spatial audio、Ambisonic 等聲音處理技術

VR 虛擬實境之聲音— 淺談 Spatial audio、Ambisonic 等聲音處理技術

Vr ambisonic ambisonic %e5%b0%81%e9%9d%a2
Author by Sz Cal 2019.02.11

對於喜歡虛擬實境、360 度影片或是喜歡欣賞電影的朋友,就算不是創作者,多多少少應該也曾好奇過那些 3D 音效是怎麼做到的,這次的文章會藉由一些比較新的收音技術、器材、後期混音、聆聽方式做簡單的介紹。

 

不過在那之前,讓我們先來看一段影片直接體驗看看吧!


(建議戴上耳機在手機上用 Youtube 觀看,用電腦的話瀏覽器請使用Google Chrome、Firefox、Internet Explore、Opera。Safari目前不支援)

 

在 360 度影片中,有幾個值得一提的事情:

  1. 聲音會隨著我們所看的景象移動

  2. 不需要昂貴的機器也可以從手邊的裝置輕鬆服用

  3. 雖硬體限制低、但軟體/使用平台卻有很多限制

  4. 很難跟他人一起共享

 

這種處理 3D 聲音的技術並不全然是一個全新的領域,他所運用到的是所謂的 ambisonic 格式(目前尚未有正式的中文翻譯)與我們常聽到的單聲道、立體聲、5.1、7.1不同,ambisonic 是一種,記錄完整 360 度環景的聲音處理格式,廣泛被應用在不論收音、後期處理、聆聽場合的解決方案。在 1970 年代就已經問世,但更因為近幾年由於 VR、AR 等相關領域興起,開始才有了活躍的討論應用。

但在詳細說明 ambisonic 之前,我們需要先建立一下目前常見的聲音處理技術分類做簡單的認識。

 

聲音處理技術類型

技術的出現,便是為了解決問題、實現原本大家想做卻做不到的事情。對於聲音技術的需求,從 20 世紀初的留聲機,單純只有錄音、播放的單聲道格式,娛樂領域的發展開始追求更自然、更豐富的聲音,而有了立體聲,更別忘了還有 5.1, 7.1  甚至更多聲道的格式了,而這也就是我們最熟悉、最直覺能理解的 Channel Based(聲道導向)。

Channel Based(聲道導向)

解釋

以「聲道」作為基準,去分配各個物件、音軌位於聲道間的聲音大小,也是最傳統、發展最完全的定位方式。我們常聽到的 mono,stereo, 5.1, 7.1 都是這種類型。

 

種類

上圖的皆為常見平面上的環繞 channel based 演進

 

後來也有增加了上下排環繞的聲道格式,目前最多聲道的格式有 NHK 的22.2。

 

https://en.wikipedia.org/wiki/22.2_surround_sound
圖中為三種常見聲道格式的配置

 

Auro 3D Audio Logo and Speaker Setup

https://www.lifewire.com/auro-3d-audio-4100014

AURO 10.1 配置,除上排聲道另有頭頂的 Overhead 聲道

 

 

https://www.soundandvision.com/content/onkyo-unveils-first-dts-neox-receiver

DTS Neo:X 的 11.1 配置

 

可以發現其實到越來越高聲道數的格式,每家廠牌的建議配置也不太一樣。

 

廠商

電影、劇場類的裝置常見的廠商有杜比 ( Dolby Digital )、DTS、SDDS 等;家庭劇院的話則沒有 SDDS。
不同廠商有自己的聲道版本、音訊壓縮等的不同,目前最常見的格式為 5.1,廣泛被各種播放設備、影視作品作為標配或選配。

https://zh.wikipedia.org/wiki/DTS

印有四種格式音軌的拷貝底片─(左至右)SDDS(邊緣藍色條)、杜比數位(片孔間的灰色格子)、光聲聲軌(兩條白線)及DTS時間碼(破折線)

 

 

應用上的優缺點

優點:

  • 聆聽:作為發展最為完備的導向類型,舉凡傳統、數位電視、DVD、電影等都能夠有廣泛的支援。
  • 後期:以要觀眾要聽到什麼,就怎麼去處理的脈絡去製作,聲音聽起來最自然。
  • 收音:收音方法、設備發展完整,例如像下圖的 decca tree 或可作為 5.1 聲道收錄整體聲音的工具。

https://www.dpamicrophones.com/accessories/surround-decca-tree-mount

DPA 的 DECCA TREE MOUNT 

 



缺點:

  • 聆聽:設備通常不太能兼容不同聲道格式,需要透過 up / down mixing 的方法,讓不同聲道格式來模擬其他格式,並且每推出新的聲道格式,就必須添購新的播放設備、甚至是新的播放空間,對大部分的人來說是很難負荷的。
  • 後期:聲道格式數量的不同影響到監聽時所需的監聽喇叭數量,聲音的方向定位也較為困難。
  • 收音:門檻高,收音方法複雜且昂貴。

 

畢竟人耳對於聲音定位是非常精準的(不然我們大概永遠找不到那個掉在房間某處的手機了……),聲道導向為了去滿足對於聲音的擬真度,不斷推出更多聲道的格式,並沒有辦法完全解決隨之而來的困難,所以在 2012 年左右,新的導向類型,Object Based (物件導向)問世。

 

Object Based(物件導向)

解釋

每個「聲音物件」在哪個方向有多少音量,記錄完整的物件資訊。

 

廠商、種類

Dolby Atmos

DTS:X

VBAP (Vector Base Amplitude Panning)

像是在台北的國賓大戲院就有支援 Dolby Atoms 的影廳喔!

 

應用上的優缺點

優點:

  • 聆聽:由於跳脫了聲道上的的思維,只單純記錄每個物件的聲音的資訊,定位效果很好,不同的播放設備也可以通用對應他所在的位置,甚至支援傳統 Channel Based 的軟硬體上只需要小小的更新就可以直接使用。
  • 後期、收音:收音不需要考慮他真實存在的方向,很適合原本就是創造出來的電影特效。

Dolby Atmos Panner plugin.jpeg

https://www.pro-tools-expert.com/home-page/2017/4/24/dolby-announce-dolby-atmos-production-suite-and-mastering-suite

從 dolby atoms的plugins當中可以看到複雜的panning選項已經消失,取而代之的是直覺的在立體空間中的方向控制。

缺點:

  • 聲源較集中,難保持真實性,格式檔案大

Object Based 的格式雖然擁有很好的定位能力,但格式檔案太大的問題卻很難解決,隨之而來就是高成本製作的問題,此時就有了我們這次的討論重點,Scene Based(場景導向)

 

Scene Based(場景導向)

解釋

場景導向,每個「場景」有多少聲音資訊,從場景正中央收錄完整的場景資訊,而不記錄個別的物件資訊。


 

Ambisonic

應用

目前最常見的為 ambisonic B-format,ambisonic 是 Scene Based 中的一種。

NT-SF1

https://digilog.tw/products/1597

RODE NT-SF1 1st order ambisonic 麥克風

 

收音

Ambisonic 的麥克風是一種錄音手法 M/S prosessing 的延伸,與其他的麥克風長相很不一樣,最少擁有 4 個 capsule ,為 1st Order Ambisonic (FOA),但這四個 capsule  並不是指播放出來的聲道方向,而是一個紀錄整個 360 度場景的 ambisonic A-format ,不過在單字轟炸前我們還是先來看一下 M/S prosessing 是什麼吧!

 

簡單來說,透過兩個 mono 的麥克風,M 代表 Middle,正對前方的心指向(全/雙指向亦可)麥克風,s 代表 Side ,垂直於正前方的雙指向麥克風,經過處理之後,製造聽起來好像比實際的喇叭擺設廣度更廣的聲音。

應用到 FOA 的麥之後則是不只左右的廣度,更多了上下、前後兩個維度。


 

4 channel = 環景 360 度聲音資訊

通常我們會以 WXYZ 代表

  • W:全指向
  • X:前後的雙指向
  • Y:左右的雙指向
  • Z:上下的雙指向

 

AmbiX or FuMa

如果看一些 ambisonic 麥克風的介紹,會有強調自己可以任意隨設備擺置來翻轉方向的特色。

一是ambisonic 收音常搭配環景的攝影器材使用,由於都放在場景中央,麥克風會收到攝影機運作的聲音、攝影機也會拍到麥克風;二是不同的解碼格式會有不同的方向,最常用的格式為 AmbiX 以及 FuMa,他們的差別最主要是 channel 的順序,AmbiX 是 WYZX;FuMa 則是 WXYZ,值得慶幸的是這些格式間的轉換目前也都有 plugins 可以直接轉換了。

 

編碼與解碼

從 M/S prosessing 原知,麥克風錄的格式並不是我們丟到 daw 之後,就會聽到整個環景聲音,麥克風的格式與我們真的要聽到的 Scene based 的格式必須經過解碼才可以使用,但這些事情聽起來很複雜,不過通常這個步驟通常也不用自己來,在 FOA 收音的狀態下,知道 A-format 是麥克風錄音的格式,B-format 是解碼之後的格式,透過麥克風附的軟體或是 plugin 就可以做到了。


 

HOA (Higher Order Ambisonic)

Ambisonic 麥的定位精準度的影響來自 capsule 的多寡,如上述所提的為 1st Order ,按照球諧函數類推,2nd Order 就要 9 個,3rd Order 需要 16 個。



https://en.wikipedia.org/wiki/Ambisonics

第一層:W 全指向

第二層:1st order 

第三層:2nd order

第四層: 3rd order

 

廠商

近幾年來有許多廠商紛紛推出 ambisonic 格式的麥克風,例如 Sennheiser 的 AMBEO VR 麥克風、ZOOM 的 H3-VR 錄音裝置等,High Order 也有很多不同用途的麥克風,像是 3rd Order ambisonic 的 ZYLIA。

Convey the true experience

https://en-us.sennheiser.com/microphone-3d-audio-ambeo-vr-mic

Sennheiser AMBEO VR MIC

 

http://www.zylia.co/

3rd order ambisonic 的 ZYLIA ,可透過軟體分割出不同樂器加以混音後期。

https://digilog.tw/posts/1111

搭載 FOA 的手持錄音裝置,不需外接 recorder 很適合入門。  

 

混合收音

不過 ambisonic 麥克風終究有其限制,被擺在場景正中央使得他很難詳細的紀錄所有聲音,而三種導向的關連並不是試圖互相取代,而可以會採取混合收音的方法,除了 ambisonic 的麥克風之外會再架單獨收音等麥克風作為後期調整,可以聽聽看彼此的差別。

 

後期

Ambisonic 格式的強大,在於後期製作時與其他格式的相容性非常的高,由於他對於其他導向的格式包容性很強,不論 mono, surround, object based 都可以透過轉檔放進來一起調整編輯,也可以輕易匯出成非 ambisonic 的格式相容於各種聆聽場合。相對的,了解複雜的格式們間以及軟體的功能、可以應用的平台、限制也變得十分重要。

理解現在最泛用的格式是哪些,對於自己會需要什麼樣的器材是非常重要的, Ambisonic 雖然有更高 order 的麥克風可以提昇聲音定位的精準度,但是以現在主流支援 360 影片的平台,以 youtube 及 facebook 為例的話,兩者有不同

 

DAW

ambisonic 以 FOA 的格式在 DAW 中編輯的話,需要支援 4 channel 的格式,不過這時 channel 的用法不是 channel based 指的那種幾個聲道播放的 channel ,而是 FOA 麥克風所錄製的四條 channel ,支援 4 channel 的 DAW 最有名的應該是 Pro tools,但更值得一提的應該是更容易入手的 REAPER,可以說是對於剛踏入門的朋友們的福音呢!

除了麥克風本身的解碼軟體之外,waves 也曾推出過編輯、轉檔、監聽 ambisonic 的 plugins、google也有推出 Resonance Audio 的跨平台開發工具,可以使用於網頁、程式、DAW 等環境。

 

聆聽

任何支援立體聲的耳機、支援 ambisonic 音訊格式的硬體、平台、裝置(例:youtube、facebook 等)

喇叭與耳機

https://www.genelec.com/bang-olufsen-chooses-genelec-its-virtual-reality-laboratory

 

喇叭與耳機的收聽 3D 聲響,最大的差別就在於有沒有透過耳朵的辨位處理,喇叭將聲音播放到整個空間中,耳機則是直接送到耳道裡,就像如果將 ambisonic 格式轉錄成 5.1 ,我們可以自由的在喇叭中間移動旋轉來聽聲音的方位,但這顯然不會是聆聽 ambisonic 的最佳選擇,想要透過喇叭忠實呈現 ambisonic 的聲響的話,需要一個平均分布於聆聽者等距離的球體上,但這顯然對於一般人來說是很難達成的,最常見的方法還是透過耳機—— Binaural 格式。

Product detail x2 desktop ku 100 diagonal neumann dummy head m

https://en-de.neumann.com/ku-100

Binaural 也是一種錄音方法,直接透過模擬頭顱的麥克風來收錄聲音,來忠實收錄人所聽到的聲音,ambisonic 轉錄成 binaural 格式會有個問題,戴上耳機後,怎麼轉耳機就是卡在那,如果沒有辦法做到聲音可以隨著動作移動的話,那耳機聽起來就只是一般的 stereo 而已(更正:Binaural audio 的格式簡易的說是使用 stereo (例如:耳機聆聽)來重現 3D 的聲響。Ambisonic 轉錄成 Binaural 格式時,透過 head-tracking 的方式即可達到隨頭部移動聲音也相對移動的效果,但這樣的處理還是會顯得不太自然,這關係到人耳如何接收及辨認聲音的方位,)移動就必須要帶入模擬耳朵在空間中移動時聽起來的聲音的修正,也就是而這修正可以想成是一個模擬耳朵的 filter,這 filter 的名稱被稱為—— HRTF(頭部相關傳遞函數)。

 

我們的耳朵其實是非常靈敏複雜的,就像我們用一雙眼睛分辨眼前物體的遠近大小一樣,我們可以輕易地靠著一對耳朵精準在三維空間的定位聲音的來源,這 filter 中有幾個比較重要的參數如下。

 

HRTF(Head-Related Transfer Functions 頭部相關傳遞函數)

https://en.wikipedia.org/wiki/Head-related_transfer_function

 

兩耳時間延遲量差  / ITD(Inter Aural Time Delay)

音源到達兩個耳朵的時間差,例如,如果聲音從正前方傳來,聲音會同時到達雙耳,若在正右方傳來
則到達右耳距離則會比到達左耳的多了一個頭顱的距離。

 

兩耳音量大小差  / IAD(Inter Aural Amplitude Difference)

除了到達的時間的差距,也會因為經過頭顱會被吸收掉音量,所以左右耳聽到的音量也會有所不同。

 

Cone of confusion


https://electronics.howstuffworks.com/virtual-surround-sound2.htm

 

但這兩個數值還是會有誤判的情形,例如,正前方與正後方對於耳朵來說 ITD 與 IAD 都是相同的,耳朵必須靠著其他的數據來做判斷。

 

耳廓繞射效應

耳廓的重要性可以靠著把耳朵輕輕的蓋住,請別人拿鑰匙圈在固定的位置上下移動並甩動,會發現其實有點難辨別到底他在哪個位置,聲音在複雜的耳廓間的反射也是影響我們辨位的重要因素之一。

 

但從這些參數可見,其實它所參考的數據來自人體本身,也就是說這些數據對於每個人都會有些許的差距,頭顱大小、耳朵構造等,要真的用耳機忠實呈現整個 ambisonic 的完整樣貌,目前除非每個人都可以輕易量測自己的 HRTF ,否則還是很難做到非常精準。

 

立體聲喇叭收聽 Binarual Audio 的可能性

就像最一開始提到的影片,沈浸式體驗有個特色,就是很難與其他人一起分享,只能一個戴上裝置體驗,但建構一個完整的 ambisonic 監聽系統又顯得不切實際,不過透過立體聲喇叭直接播放 binarual audio 又會有左耳聽得到右耳聲音的狀況(這現象稱為 crosstalk),目前市面上也有少數產品是透過消除 crosstalk 來透過喇叭聆聽 binarual audio 的產品,不過聲音上目前的技術會有一定的失真。

https://medium.com/in-phase-audio/3d-%E8%81%B2%E6%95%88%E8%88%87%E8%99%9B%E6%93%AC%E5%AF%A6%E6%99%AF-vr-4-3475c041f67a

 

挑戰

這項技術目前似乎還是停留在有諸多限制、沒有被真正廣泛運用的階段,同時對於聲音的要求,相較視覺上的有感程度,追求聲音極致這件事似乎顯得沒有那麼迫切。
 

如果大家有這樣的工具,又會想要作為什麼用途呢?

 

參考資料

 

Watched 此文章被關注 1592 次

Deadkitten large

作者: Sz

簡介:Digilog 小畫家

討論區

目前尚無評論

Digilog