提到AR/VR設(shè)備你會(huì)想到什么?賽博朋克風(fēng)的畫面,還是虛擬與現(xiàn)實(shí)疊加帶來(lái)的科幻感?
當(dāng)大家的目光仍聚焦于視覺(jué)交互層面時(shí),業(yè)內(nèi)一場(chǎng)有關(guān)聽(tīng)覺(jué)層面的變革已經(jīng)悄然興起。
國(guó)內(nèi)人機(jī)交互產(chǎn)品平臺(tái)公司Rokid近日發(fā)布了一組應(yīng)用于AR眼鏡的6DoF空間聲場(chǎng)技術(shù)Demo視頻。
不同于傳統(tǒng)雙聲道、立體音帶來(lái)的聽(tīng)覺(jué)體驗(yàn),6DoF空間聲場(chǎng)技術(shù)可以在混合現(xiàn)實(shí)中模擬聲源與人耳之間因空間位置變化、有無(wú)遮擋物等帶來(lái)的聲音強(qiáng)弱與方向的變化,從而讓AR眼鏡為用戶帶來(lái)更具臨場(chǎng)感的聽(tīng)覺(jué)體驗(yàn)。
什么是6DoF空間聲場(chǎng)?
6DoF空間聲場(chǎng)其實(shí)是聲音在三維領(lǐng)域的體現(xiàn)。但這不是簡(jiǎn)單的通過(guò)更多聲道讓聲音更有立體感,而是和視頻空間化同步的音頻空間化過(guò)程。因此包含了兩個(gè)必備要素——3D音頻和頭部運(yùn)動(dòng)的實(shí)時(shí)反饋。
首先看6DoF空間聲場(chǎng)的第一個(gè)必備要素——3D音頻。傳統(tǒng)的5.1聲道可以把聲音展現(xiàn)在一個(gè)水平面上,聲音定位因此具備前后、左右兩個(gè)維度,這被稱為2D音頻。當(dāng)一個(gè)音頻同時(shí)還具有上下維度的時(shí)候,這個(gè)音頻就是3D音頻了。
圖:3D音頻圖示(圖源自網(wǎng)絡(luò))
6DoF空間聲場(chǎng)的第二個(gè)必備要素——對(duì)頭部運(yùn)動(dòng)的實(shí)時(shí)反饋。在現(xiàn)實(shí)世界中,當(dāng)我們的頭部發(fā)生轉(zhuǎn)動(dòng)或位移,聲源本身的絕對(duì)位置不會(huì)改變,而聲源與頭部相對(duì)方向會(huì)產(chǎn)生變化。
舉一個(gè)例子:在你前方有把吉他正在彈奏音樂(lè),如果你轉(zhuǎn)向右邊,音樂(lè)聲就會(huì)相對(duì)地變到你的左邊;如果你轉(zhuǎn)向左邊,音樂(lè)聲就會(huì)相對(duì)地變到你的右邊。因此,要在混合現(xiàn)實(shí)中實(shí)現(xiàn)更接近于現(xiàn)實(shí)中的聽(tīng)覺(jué)體驗(yàn),就需要準(zhǔn)確定位聲源與用戶頭部之間的空間位置,即實(shí)現(xiàn)對(duì)用戶頭部運(yùn)動(dòng)的實(shí)時(shí)追蹤。
6DoF空間聲場(chǎng)的實(shí)現(xiàn)需要軟硬件高度協(xié)同
要滿足6DoF空間聲場(chǎng)技術(shù)的兩個(gè)必要元素并非易事,在技術(shù)層面,這需要空間引擎(Space Engine)和音頻引擎(Audio Engine)高度融合,并充分利用硬件資源。
空間引擎的核心工作是虛實(shí)空間融合。引擎預(yù)先利用三維重建技術(shù)構(gòu)建地圖,建立虛擬世界坐標(biāo)系,并增加虛擬物體,設(shè)置位姿、形狀、材質(zhì)等屬性。
運(yùn)行時(shí),通過(guò)處理傳感器數(shù)據(jù)得到觀察者(如佩戴AR眼鏡,觀察者就是人的頭部位置)的真實(shí)空間位姿和本地地圖,進(jìn)而通過(guò)地圖匹配得到真實(shí)空間和虛擬空間的位姿變換,就可以把位姿統(tǒng)一在虛擬世界坐標(biāo)系里。
根據(jù)不同的傳感器類型和數(shù)量,空間引擎可以獲得觀察者不同類型的自由度(Degrees of Freedom-DoF)信息,從而為音頻引擎提供必要的空間信息。
比如人頭的自由度分為:既有位移又有旋轉(zhuǎn)的6DoF、只有旋轉(zhuǎn)的3DoF、人頭不動(dòng)的虛擬空間,那對(duì)應(yīng)的音頻也就可以分為6DoF空間聲場(chǎng)、3DoF空間聲場(chǎng)、環(huán)繞聲。因此,6DoF空間聲場(chǎng)技術(shù)就需要獲得更復(fù)雜的人頭自由度。
圖:6DoF自由度(圖源自網(wǎng)絡(luò))
音頻引擎的核心工作是對(duì)音頻信號(hào)和 HRTFs(Head Related Tranfer Functions,頭相關(guān)傳遞函數(shù),簡(jiǎn)稱頭傳函數(shù))做卷積,生成雙耳音頻。HRTFs是在水平角(azimuth)、俯仰角(elevation)和距離(distance)這三個(gè)度量維度做坐標(biāo)采樣測(cè)量出的卷積核集合,其準(zhǔn)確性是6DoF空間聲場(chǎng)呈現(xiàn)效果的主導(dǎo)因素。
但目前可商用的HRTFs數(shù)據(jù)庫(kù)能達(dá)到的精度還未完全與人耳的聽(tīng)辨能力所媲美,更具挑戰(zhàn)的是每個(gè)人的人體工學(xué)參數(shù)和心理聲學(xué)系統(tǒng)都不同,甚至?xí)S著年齡增加而變化。
準(zhǔn)確測(cè)量每個(gè)人的HRTFs參數(shù)顯然不現(xiàn)實(shí),如何才能低成本地 成個(gè)性化HRTFs?已經(jīng)實(shí)現(xiàn)6DoF空間聲場(chǎng)技術(shù)落地的Rokid技術(shù)團(tuán)隊(duì)給出了一個(gè)解決思路,即在考慮端上NPU/GPU等計(jì)算性能的情況下,結(jié)合深度學(xué)習(xí)技術(shù),對(duì)更精細(xì)化的成分做出更精細(xì)的生成。
圖:XR設(shè)備應(yīng)用6DoF空間聲場(chǎng)需要軟硬件高度協(xié)同
此外,為了增加遮擋、反射、混響等效果,讓6DoF空間聲場(chǎng)更具真實(shí)感,還需要用到諸如幾何聲學(xué)(Geometric Acoutstics)的光線追蹤和波動(dòng)聲學(xué)(Wave Acoustics)的球諧函數(shù)(Spherical Harmonics)分解等技術(shù)。這對(duì)設(shè)備的算力有著極高的要求,也會(huì)給設(shè)備帶來(lái)更大的功耗負(fù)荷,增加設(shè)備成本和安全風(fēng)險(xiǎn)。所以在實(shí)際應(yīng)用中,往往需要在球諧函數(shù)的階數(shù)、語(yǔ)音質(zhì)量以及空間精準(zhǔn)度之間做相應(yīng)的妥協(xié)與平衡。
除了算法層面,6DoF空間聲場(chǎng)技術(shù)的應(yīng)用也要考慮設(shè)備的硬件形態(tài)。當(dāng)前的很多音頻算法都是基于入耳式或頭戴式喇叭,但AR眼鏡作為未來(lái)用戶長(zhǎng)期佩戴的可穿戴式設(shè)備,如果采用入耳式設(shè)計(jì)不僅會(huì)嚴(yán)重地?fù)p傷用戶聽(tīng)力,更是違背了AR對(duì)物理和數(shù)字的融合使命,因此,在保持開(kāi)放式喇叭設(shè)計(jì)的同時(shí),如何保障6DoF空間聲場(chǎng)的呈現(xiàn)效果和安全性就成為了新的挑戰(zhàn)。
目前,Rokid技術(shù)團(tuán)隊(duì)采取的辦法是,通過(guò)定向聲技術(shù)的研究與使用,來(lái)解決隱私性問(wèn)題。同時(shí),為了讓6DoF空間聲場(chǎng)的音效更豐富飽滿,通過(guò)音腔結(jié)構(gòu)的設(shè)計(jì)、聲音頻率的修復(fù)、根據(jù)人耳聽(tīng)覺(jué)做聲音諧波及混響等方式增強(qiáng)音質(zhì),減少音頻效果的損失,讓用戶真正感受到“聲臨其境”。
一場(chǎng)聲音革命,正在悄然興起
6DoF空間聲場(chǎng)技術(shù)在AR設(shè)備上的應(yīng)用落地,讓我們看到了聲音在混合現(xiàn)實(shí)中的廣闊應(yīng)用空間。通過(guò)6DoF空間聲場(chǎng)技術(shù),AR眼鏡等設(shè)備可以擺脫視場(chǎng)角(FOV)限制,讓用戶通過(guò)聲音發(fā)現(xiàn)畫面之外的內(nèi)容,以此實(shí)現(xiàn)360度范圍的內(nèi)容呈現(xiàn)。
同時(shí),除了視覺(jué)層面的交互,6DoF空間聲場(chǎng)技術(shù)的應(yīng)用讓聽(tīng)覺(jué)也成為了新的交互維度。結(jié)合6DoF空間聲場(chǎng),用戶可以在混合現(xiàn)實(shí)中快速準(zhǔn)確定位發(fā)聲物體的方向,清晰區(qū)分接收到的聲音信息,感受聲音距離和位置的變化……這將讓用戶在混合現(xiàn)實(shí)中獲得更加接近現(xiàn)實(shí)世界的體驗(yàn),從而進(jìn)一步降低混合現(xiàn)實(shí)中數(shù)字世界和現(xiàn)實(shí)世界的割裂感。
6DoF空間聲場(chǎng)帶來(lái)的全新聽(tīng)覺(jué)體驗(yàn)正在沖擊統(tǒng)領(lǐng)了大半個(gè)世紀(jì)的傳統(tǒng)立體聲音,但任何一項(xiàng)新技術(shù)的應(yīng)用和普及都絕非只靠某一團(tuán)隊(duì)、某一公司之力,這需要不斷降低準(zhǔn)入門檻,吸引更多行業(yè)力量的加入。
如Rokid就表示將把6DoF空間聲場(chǎng)集成到全新升級(jí)版的YodaOS-XR操作系統(tǒng)中,作為YodaOS-XR操作系統(tǒng)的基礎(chǔ)能力供行業(yè)開(kāi)發(fā)者們進(jìn)行調(diào)用。同時(shí),Rokid還計(jì)劃推進(jìn)更多應(yīng)用于AR眼鏡的特殊音效的開(kāi)發(fā),如環(huán)繞與微重低音的高保真音效等,以高效易用的SDK讓開(kāi)發(fā)者真正實(shí)現(xiàn)即拿即用。
有消息稱,Rokid全新升級(jí)的YodaOS-XR操作系統(tǒng)或?qū)⒂诮衲晗掳肽陮?duì)外發(fā)布,包含諸多自然交互引擎、友好的UI界面、原生XR應(yīng)用以及應(yīng)用開(kāi)發(fā)框架等。屆時(shí)開(kāi)發(fā)者們能夠?qū)W⒂诰穬?nèi)容的打磨,開(kāi)發(fā)出各類富有想象力的應(yīng)用和內(nèi)容,比如XR游戲、XR會(huì)議、XR社交、XR影院等,和廣大用戶攜手進(jìn)入真正的AR世界。
XR時(shí)代的終極目標(biāo)是虛擬世界和物理世界的完美融合,這種融合主要是對(duì)人類與外界進(jìn)行信息交換的一些方式,如觸覺(jué)、聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、味覺(jué)等進(jìn)行模擬和增強(qiáng)。
6DoF空間聲場(chǎng)等技術(shù)的應(yīng)用拓寬了XR設(shè)備的想象邊界,也悄然掀起了一場(chǎng)感知交互革命。我們或許可以預(yù)見(jiàn),在視覺(jué)和聽(tīng)覺(jué)之后,觸覺(jué)、嗅覺(jué)、味覺(jué)等“感官體驗(yàn)”也將在XR時(shí)代被重新定義。