ARM每年都會更新一次核心IP(公版架構(gòu)),比如去年發(fā)布的Cortex-X2、Cortex-A710和Cortex-A510 Refresh(下文簡稱TCS 21),就因為改用面向下一個10年的ARMv9-A指令集而廣受關(guān)注。
可惜,首發(fā)這三個核心IP的高通新驍龍Gen1卻因采用三星4nm工藝,在功耗和發(fā)熱方面的表現(xiàn)很差。直到聯(lián)發(fā)科天機9000,以及改用臺積電4nm工藝的驍龍8+的發(fā)布,才挽回了一點點口碑。
日前,ARM正式發(fā)布了2022年度的核心IP——Cortex-X3、Cortex-A715和Cortex-A510 Refresh(下文簡稱TCS 22),它們同樣基于ARMv9-A指令集打造,主打(可選)更多的核心數(shù)量、更高的性能(峰值性能提升25%)和更低的功耗(能效提升20%)。此外,Mali GPU也進行了同步更新,下一代Mali-G715和Mali-G615 GPU已經(jīng)蓄勢待發(fā)。
更多的核心數(shù)量和變化
ARM為TCS 22,也就是Cortex-X3、Cortex-A715和Cortex-A510 Refresh準(zhǔn)備了優(yōu)化的DynamIQ技術(shù)以及全新的動態(tài)共享單元DSU-110,最多可以實現(xiàn)8(X3)+4(A715)+0(A510 Refresh)共計12核心設(shè)計,滿足頂級游戲手機、平板電腦甚至PC對性能的苛刻要求。此外,還能實現(xiàn)1+4+4和2+2+4等核心組合。
DSU-110在微體系結(jié)構(gòu)方面沒有顯著變化,ARM對其的調(diào)整主要是為額外的內(nèi)核做好設(shè)計準(zhǔn)備,對依賴內(nèi)核數(shù)量的區(qū)域進行了更新,方案商可以根據(jù)需求,選擇塞進更多的Cortex-X3實現(xiàn)更高性能,或是僅保留Cortex-A510實現(xiàn)更小的功耗。
TCS 22還通過對全新IP、Cortex-M85等組件的支持以及軟件優(yōu)化,在AI機器學(xué)習(xí)領(lǐng)域?qū)崿F(xiàn)了顯著的提升,在各項測試中都有著30%~43%的增長。
TCS 22在安全性方面引入了對非對稱MTE(內(nèi)存標(biāo)記擴展)的支持,屬于去年TCS 21首發(fā)對稱MTE的擴展。記憶體區(qū)域和相關(guān)指標(biāo)會標(biāo)記為相同的標(biāo)簽,并由CPU檢查是否相符。如果存在差異,則CPU會停止處理。對于不對稱MTE,CPU可以在裝載命令期間更新觸發(fā)器,而在內(nèi)存命令期間異步更新內(nèi)存區(qū)域。
ARM還帶來了增強的安全功能,禁止對用戶模式下較低特權(quán)區(qū)域進行內(nèi)核級訪問,旨在防止用戶模式攻擊(例如通過欺詐內(nèi)核進行攻擊)。
TCS 22中使用的CoreLink CI-700相干互連技術(shù)和CoreLink NI-700片上網(wǎng)絡(luò)互連技術(shù)沒有什么變化,但針對臺積電和三星最新的4nm、5nm工藝進行了特殊的優(yōu)化,支持連接Cortex-M85,用于嵌入式解決方案,如智能揚聲器或作為全天候處理器,使用DSP和機器學(xué)習(xí)功能來處理智能手機上的語音命令。此外,ARM還未開發(fā)者提供了方便的開發(fā)平臺及工具VFP,可以更好地仿真測試等等。
CPU性能的變化
作為新一代的超級大核,Cortex-X3將解碼器每周期指令從5個提升到6個,亂序執(zhí)行窗口從288提升到320個,整數(shù)ALU單元從4個提升到6個,L2緩存容量從512KB提升到1MB,L3緩存容量可達8MB。在性能方面,對比當(dāng)前最新Android旗艦智能手機提升了25%,單核心效能較之英特爾最新的酷睿i7處理器(i7-1260P,28W)還要快34%。
當(dāng)然,這些比較存在很多限制條件,體現(xiàn)的也是基準(zhǔn)測試中的部分項目。從ARM公布的IPC性能提升數(shù)據(jù)來看,Cortex-X3實際的IPC提升為11%,這個還是相對靠譜的。
作為新一代的大核,Cortex-A715此次不再追求更高的性能,而是主打更好的能效。從ARM公布的數(shù)據(jù)來看,Cortex-A715相較于上代Cortex-A710,能在相同性能下節(jié)省20%的能耗,或是可以在相同功耗下提升5%的性能。
作為新一代的小核,Cortex-A510 Refresh依舊注重更好的能效,和上代產(chǎn)品相比在相同性能時可以減少5%左右的能耗。
需要注意的是,在TCS 21時代,只有Cortex-A710同時支持Aarch32和Aarch64,運行老舊32位應(yīng)用時存在功耗高的問題。在TCS 22時代,Cortex-A715不再支持Aarch32,而是讓Cortex-A510 Refresh可以兼容Aarch32,但僅限特定的選擇中。根據(jù)金標(biāo)聯(lián)盟最新發(fā)布的時間表,從今年12月起主流應(yīng)用商店就將全面過渡到64位應(yīng)用,游戲更新也不再允許單獨更新32位包,估計到了TCS 23時代,ARM將在核心IP層面徹底放棄Aarch32。
GPU性能的變化
ARM同步發(fā)布的Immortalis-G715、Mali-G715和Mali-G615也值得引起我們關(guān)注,它們均支持VR,旗艦型號還能在智能手機、平板電腦和ARM筆記本電腦身上實現(xiàn)硬件光線追蹤。
Immortalis-G715、Mali-G715和Mali-G615都采用第四代Valhall體系結(jié)構(gòu),它們之間的差異只是著色器的配置和計算單元數(shù)量不同。其中Immortalis-G715定位旗艦,也是家族唯一硬件支持光線追蹤技術(shù)的GPU IP,最多可以搭配16個RTU,可選10~16個計算單元。
Mali-G715和Immortalis-G715的差別是不含RTU,可選7~9個計算單元。Mali-G615的計算單元數(shù)量下降到1~6個,性能墊底。
根據(jù)ARM的官方數(shù)據(jù)顯示,TCS 22(1+3+4+Mali-G715)的游戲性能較之上代可以提升28%,值得期待。
據(jù)悉,TCS 22最快在2022年底就能商業(yè)化,首發(fā)Cortex-X3、Cortex-A715和Cortex-A510 Refresh這些CPU IP的芯片應(yīng)該就是高通驍龍Gen2了,不知道這款未來的旗艦?zāi)芊窠柚鹿に嚭托翴P摘掉“火爐”之名?