回到 2024 年臺(tái)北國際電腦展,AMD 首席執(zhí)行官蘇姿豐博士在開幕主題演講中發(fā)布了備受期待的 Zen 5 CPU 微架構(gòu)。AMD 宣布了兩個(gè)將采用最新 Zen 5 核心的新客戶端平臺(tái),而不是一個(gè)。其中包括 AMD 最新的面向筆記本電腦市場(chǎng)的 AI PC 芯片系列 Ryzen AI 300 系列。相比之下,Ryzen 9000 系列面向使用現(xiàn)有 AM5 平臺(tái)的臺(tái)式機(jī)市場(chǎng)。
Ryzen AI 300 系列以全新的 Zen 5 CPU 微架構(gòu)為基礎(chǔ),在圖形和 AI 性能方面都有了一些根本性的改進(jìn),代號(hào)為 Strix Point,將在多個(gè)領(lǐng)域?qū)崿F(xiàn)改進(jìn)。Ryzen AI 300 系列似乎將在邁向 AI PC 的道路上再添一筆,其移動(dòng) SoC 配備了全新的 XDNA 2 NPU,AMD 承諾其性能將達(dá)到 50 TOPS。AMD 還用 RDNA 3.5 升級(jí)了集成顯卡,旨在取代上一代 RDNA 3 移動(dòng)顯卡,從而在游戲中實(shí)現(xiàn)比我們之前見過的更好的性能。
在上周 AMD 的技術(shù)日上,AMD 披露了有關(guān) Zen 5 的一些技術(shù)細(xì)節(jié),其中還涵蓋了 Ryzen AI 300 和 Ryzen 9000 系列的一些關(guān)鍵元素。從紙面上看,Zen 5 架構(gòu)與 Zen 4 相比有了很大的進(jìn)步,關(guān)鍵組件通過比其前代產(chǎn)品更高的每周期指令數(shù)推動(dòng) Zen 5 向前發(fā)展,這是 AMD 從 Zen 到 Zen 2、Zen 3、Zen 4 以及現(xiàn)在的 Zen 5 一直努力做到的事情。
AMD Zen 5 微架構(gòu):IPC 比 Zen 4 提高 16%
移動(dòng)版 AMD Ryzen AI 300 系列和臺(tái)式機(jī)版 Ryzen 9000 系列均采用 AMD 最新的 Zen 5 架構(gòu),在性能和效率方面帶來諸多改進(jìn)。其移動(dòng)產(chǎn)品線中最大的改進(jìn)或許是集成了 XDNA 2 NPU,旨在利用 Microsoft Copilot+ AI 軟件。這些新的移動(dòng)處理器通過 NPU 可提供高達(dá) 50 TOPS 的 AI 性能,使其成為 AMD 移動(dòng)芯片產(chǎn)品線的重大升級(jí)。
Zen 5 微架構(gòu)的主要功能包括雙管道提取,它與 AMD 所謂的高級(jí)分支預(yù)測(cè)相結(jié)合。這旨在減少延遲并提高準(zhǔn)確性和吞吐量。增強(qiáng)的指令緩存延遲和帶寬優(yōu)化進(jìn)一步促進(jìn)了數(shù)據(jù)流和數(shù)據(jù)處理速度,而不會(huì)犧牲準(zhǔn)確性。
Zen 5 整數(shù)執(zhí)行能力比 Zen 4 有所升級(jí),Zen 5 具有 8 寬調(diào)度/退出系統(tǒng)。Zen 5 內(nèi)部改進(jìn)的一部分包括六個(gè)算術(shù)邏輯單元 (ALU) 和三個(gè)乘法器,它們通過 ALU 調(diào)度程序進(jìn)行控制,AMD 聲稱 Zen 5 使用了更大的執(zhí)行窗口。理論上,這些改進(jìn)在更復(fù)雜的計(jì)算工作負(fù)載下應(yīng)該會(huì)更好。
Zen 5 的其他主要增強(qiáng)功能包括比 Zen 4 更高的數(shù)據(jù)帶寬,配備 48 KB 12 路 L1 數(shù)據(jù)緩存,可滿足 4 周期負(fù)載。AMD 將 L1 緩存的最大可用帶寬增加了一倍,浮點(diǎn)單元也比 Zen 4 增加了一倍。AMD 還聲稱改進(jìn)了數(shù)據(jù)預(yù)取器,確保更快、更可靠的數(shù)據(jù)訪問和處理。
Zen 5 還引入了完整的 512 位 AI 數(shù)據(jù)路徑,它使用具有完整 512 位數(shù)據(jù)路徑的 AVX-512 和具有兩周期延遲 FADD 的六個(gè)管道。盡管 Zen 4 可以支持 AVX-512 指令,但它使用兩個(gè)相互協(xié)同工作的 256 位數(shù)據(jù)路徑,術(shù)語“雙泵”是其最廣泛使用的術(shù)語。Zen 5 現(xiàn)在具有完整的 AVX-512 數(shù)據(jù)路徑,這是一個(gè)受歡迎的改進(jìn)。
看看 AMD 宣稱的 Zen 5 的 IPC 提升,AMD 聲稱與 Zen 4 相比平均提升了 16%。當(dāng)然,AMD 提供了內(nèi)部數(shù)據(jù),這些數(shù)據(jù)顯示了各種基準(zhǔn)測(cè)試的全面改進(jìn)。其中包括《孤島驚魂 6》的 10% 提升,《速度計(jì)》的 15% 提升,《英雄聯(lián)盟》的 21% 提升更大。AMD 最大的宣稱是 Geekbench 5.4 AES-XTS 的大幅提升了 35%。這是一個(gè)令人印象深刻的性能提升,盡管 Geekbench 5 AES XTS 測(cè)試使用了 VAES+ 和 AVX10/512,這對(duì)于像 Zen 5 一樣支持這些指令的處理器來說可能是有利的。
正如我們?cè)?Zen 微架構(gòu)的先前版本中看到的那樣,AMD 正在將 Zen 5 應(yīng)用于整個(gè)產(chǎn)品系列。全功能 Zen 5 內(nèi)核采用臺(tái)積電的 4nm制造,而更緊湊、更節(jié)能的 Zen 5c 內(nèi)核則采用臺(tái)積電的 3nm 工藝技術(shù)制造。AMD 即將推出的第五代 EPYC CPU(代號(hào)為“Turin”)預(yù)計(jì)將于 2024 年下半年推出,它將利用多達(dá) 192 個(gè) Zen 5 內(nèi)核。AMD 此前在 2022 年 6 月的財(cái)務(wù)分析師日上宣布,第五代 EPYC 將于 2024 年推出。
XDNA 2 NPU ,最高可達(dá) 50 TOPS
對(duì)于用于筆記本電腦的 AMD Ryzen AI 300 系列,與上一代 Ryzen 8040 系列 (Hawk Point) 相比,第二大進(jìn)步是神經(jīng)處理單元 (NPU)。AMD于 2020 年收購 Xilinx,通過整合 Xilinx 現(xiàn)有技術(shù)啟動(dòng)了 NPU 開發(fā),從而形成了 AMD 最初的 XDNA 架構(gòu)。憑借其最新版本的架構(gòu) XDNA 2,AMD 進(jìn)一步擴(kuò)展了其功能和性能。它還引入了對(duì)塊浮點(diǎn) 16 位算術(shù)方法的支持,而不是傳統(tǒng)的半精度 (FP16),AMD 聲稱它結(jié)合了 8 位的性能和 16 位的精度。
看看 AMD XDNA 架構(gòu)與多核處理器的典型設(shè)計(jì)有何不同,XDNA 設(shè)計(jì)必須將靈活的計(jì)算與自適應(yīng)內(nèi)存層次結(jié)構(gòu)結(jié)合起來。與固定計(jì)算模型或基于靜態(tài)內(nèi)存層次結(jié)構(gòu)的模型相比,XDNA(Ryzen AI)引擎使用互連的 AI 引擎 (AIE) 網(wǎng)格。每個(gè)引擎都經(jīng)過精心設(shè)計(jì),能夠動(dòng)態(tài)適應(yīng)手頭的任務(wù),包括計(jì)算和內(nèi)存資源,旨在提高可擴(kuò)展性和效率。
進(jìn)一步談及 AIE 的平鋪方法,AMD 稱之為空間架構(gòu)。它設(shè)計(jì)靈活,同時(shí)將平鋪數(shù)據(jù)流結(jié)構(gòu)與可編程互連和靈活分區(qū)結(jié)合在一起。平鋪數(shù)據(jù)流結(jié)構(gòu)可實(shí)現(xiàn)確定性性能,不會(huì)出現(xiàn)任何緩存未命中,還可增強(qiáng)內(nèi)存管理?删幊袒ミB大大降低了對(duì)內(nèi)存帶寬的需求,從而使其能夠高效地分配資源。所采用的靈活分區(qū)設(shè)計(jì)可實(shí)現(xiàn)實(shí)時(shí)性能,同時(shí)能夠滿足不同的要求,從各種 AI 推理任務(wù)(包括實(shí)時(shí)視頻和音頻處理)到內(nèi)容創(chuàng)建工作流程。
XDNA 2 架構(gòu)以現(xiàn)有的 XDNA 架構(gòu)為基礎(chǔ),并添加了更多 AI 引擎以提高吞吐量。Strix Point 中的 AMD XDNA 2 實(shí)現(xiàn)有 32 個(gè) AI 引擎塊,比上一代多 12 個(gè)。XDNA 2 架構(gòu)不僅提供了更多的 AI 引擎塊,而且每個(gè)塊的 MAC 數(shù)量是上一代的兩倍,片上內(nèi)存是上一代的 1.6 倍。
總而言之,AMD 聲稱其 NPU 性能達(dá)到 50 TOPS,這比英特爾和高通目前的產(chǎn)品要高。關(guān)于使用 TOPS 來衡量 AI 性能的相關(guān)性的爭(zhēng)論存在分歧,而微軟通過將 Copilot+ 的標(biāo)準(zhǔn)設(shè)定為 40 TOPS 而率先提出了這一要求。
XDNA 2 架構(gòu)不僅試圖在 TOPS 上超越競(jìng)爭(zhēng)對(duì)手,而且在設(shè)計(jì)時(shí)還考慮到了能效。AMD 聲稱,與 Ryzen 7040 系列中使用的 NPU 相比,其 XDNA 2 NPU 的計(jì)算能力提高了 5 倍,能效提高了一倍。這是通過各種設(shè)計(jì)選擇實(shí)現(xiàn)的,包括基于列的電源門控,AMD 表示它可以顯著延長電池壽命,并且在多任務(wù)處理時(shí)能夠同時(shí)處理多達(dá)八個(gè)并發(fā)空間流。
XDNA 2 架構(gòu)的主要功能之一是支持塊浮點(diǎn) (Block FP16)。簡(jiǎn)單來說,它提供了 8 位運(yùn)算的性能和速度,但采用了額外的技巧,試圖使精度更接近 16 位運(yùn)算。值得注意的是,這也是在沒有進(jìn)一步量化或減少正在處理的數(shù)據(jù)大小的情況下實(shí)現(xiàn)的。
與其他神經(jīng)網(wǎng)絡(luò)精度優(yōu)化一樣,Block FP16 的目的是減少所需的計(jì)算工作量;在這種情況下,使用 8 位數(shù)學(xué),而不會(huì)產(chǎn)生從 16 位數(shù)學(xué)降級(jí)的全部缺點(diǎn)——即降低精度導(dǎo)致結(jié)果較差。當(dāng)前一代 NPU 已經(jīng)可以進(jìn)行原生 8 位處理(以及 16 位處理),但這要求開發(fā)人員要么優(yōu)化(和量化)他們的軟件以進(jìn)行 8 位處理,要么承受停留在 16 位的速度損失。人工智能仍然是一個(gè)相對(duì)年輕的領(lǐng)域,因此軟件開發(fā)人員仍在努力弄清楚多少精度才足夠(這條線似乎像邊緣欄一樣不斷下降),但基本思想是,這試圖讓軟件開發(fā)人員魚與熊掌兼得。
盡管如此,從技術(shù)角度來看,Block FP16(又名Microscaling)本身并不是一項(xiàng)新技術(shù)。但 AMD 將成為第一家支持該技術(shù)的 PC NPU 供應(yīng)商,英特爾即將推出的 Lunar Lake 也將加入他們的行列。因此,雖然這是 AMD 的一項(xiàng)新功能,但它不會(huì)是一項(xiàng)獨(dú)特的功能。
至于 Block FP16 的工作原理,AMD 自己關(guān)于該主題的材料相對(duì)較高,但我們從其他來源得知,它本質(zhì)上是一種帶有附加指數(shù)的定點(diǎn) 8 位計(jì)算形式。具體來說,Block FP16 對(duì)所有值使用共享指數(shù),而不是每個(gè)浮點(diǎn)值都有自己的指數(shù)。例如,F(xiàn)P16 數(shù)字不是具有符號(hào)位、5 位指數(shù)和 10 位有效位,而是具有與所有數(shù)字共享的 8 位指數(shù),然后是 8 位有效位。
這實(shí)際上允許處理器通過將唯一有效數(shù)字處理為 INT8(或定點(diǎn) 8 位)數(shù)字來作弊,同時(shí)跳過共享指數(shù)的所有工作。這就是為什么 Block FP16 性能與 INT8 性能大致相同:它基本上是 8 位數(shù)學(xué)。但是通過共享指數(shù),軟件作者可以將計(jì)算的整個(gè)數(shù)字范圍窗口移動(dòng)到特定范圍,該范圍通常超出了真正的 FP8 數(shù)字的微不足道的指數(shù)所提供的范圍。
大多數(shù) AI 應(yīng)用都需要 16 位精度,而 Block FP16 滿足了這一要求,至少從 AI 的角度來看,它同時(shí)為移動(dòng)市場(chǎng)帶來了高性能和高精度。這使得 Block FP16 成為推動(dòng) AI 技術(shù)發(fā)展的重要組件,而這也是 AMD 正在努力推進(jìn)的事情。
歸根結(jié)底,Ryzen AI 300 系列移動(dòng)芯片中基于 XDNA 2 的 NPU 實(shí)際上是用來處理 AI 工作負(fù)載并以比使用圖形更節(jié)能的方式運(yùn)行 Microsoft Copilot+ 等功能。并且,通過能夠提供 8 位性能和 16 位精度,這為開發(fā)人員提供了另一個(gè)杠桿,以充分利用硬件。
AMD XDNA 2 架構(gòu)將與 Ryzen AI 300 系列一起首次亮相,它將提供解鎖 AI PC 的關(guān)鍵,或者至少是微軟對(duì) Copilot+ 的 40 TOPS 要求所定義的。通過將 Block FP16 引入方程式,AMD 以 8 位速度實(shí)現(xiàn)了(接近)16 位精度,使其在某些 AI 應(yīng)用程序上具有更高的性能。總而言之,集成的 NPU 預(yù)計(jì)將提供高達(dá) 50 TOPS 的計(jì)算性能。
AMD 是第一家在芯片中集成 NPU 的 x86 SoC 供應(yīng)商,隨著對(duì)片上 AI 解決方案的需求不斷增長以解鎖許多軟件功能,他們希望硬件(及其代表的芯片空間)能夠得到充分利用。XDNA 2 架構(gòu)確保 AMD 保持領(lǐng)先地位,為移動(dòng)市場(chǎng)提供穩(wěn)定的性能和綜合的多功能性。
RDNA 3.5 顯卡帶來視覺效果
為 Ryzen AI 300 移動(dòng)系列芯片帶來的另一項(xiàng)新技術(shù)是升級(jí)的集成顯卡。AMD 的 RDNA 3.5 圖形架構(gòu)代表著下一代 AMD 圖形架構(gòu)的墊腳石(沒有 .5)。最新版本的設(shè)計(jì)旨在提高性能和效率,重點(diǎn)是優(yōu)化每瓦性能的每一滴。值得注意的是,AMD 尚未提供有關(guān) RDNA 3.5 的太多細(xì)節(jié),因此我們將深入研究其主要功能和進(jìn)步。
AMD RDNA 3.5 圖形架構(gòu)代表了其 Ryzen AI 300 移動(dòng) SoC 集成顯卡的下一步,與 RDNA 3 相比有一些顯著的升級(jí)。AMD 一直與 ISV 和開發(fā)商密切合作,以確保 RDNA 3.5 提供 AMD 表示將與移動(dòng)合作伙伴攜手合作以提高游戲每瓦性能的所有內(nèi)容。一些改進(jìn)包括常規(guī)圖形著色器操作,這些操作經(jīng)過優(yōu)化以確保一切正常運(yùn)行。AMD 非常注重每位性能,這不僅減少了內(nèi)存訪問時(shí)間,還使操作更流暢。改進(jìn)的總體重點(diǎn)是功率與性能,AMD 的目標(biāo)是中間地帶以確保更長的電池壽命,這對(duì)于移動(dòng)和便攜式設(shè)備至關(guān)重要。
與 RDNA 3 相比,許多改進(jìn)都來自針對(duì)移動(dòng)平臺(tái)特別優(yōu)化的多項(xiàng)功能。這確保了 Radeon 890M(Ryzen AI 300 系列的型號(hào))在效率和視覺性能方面兼具兩者的優(yōu)勢(shì)。紋理采樣率翻倍,確保 GPU 具有雙倍速率性能。從表面上看,這意味著在游戲過程中紋理和圖形的細(xì)節(jié)和清晰度得到增強(qiáng)。從理論上講,這應(yīng)該有助于改善細(xì)節(jié)紋理,使其在玩高分辨率游戲時(shí)看起來很棒。此外,RDNA 3.5 的插值和比較率是 2 倍,因?yàn)槭噶?ISA 操作可以更好地呈現(xiàn)高質(zhì)量圖形的細(xì)節(jié)。
另一個(gè)關(guān)鍵改進(jìn)是更好的內(nèi)存管理技術(shù)。這些技術(shù)降低了內(nèi)存訪問頻率,這意味著數(shù)據(jù)處理在理論上應(yīng)該更快,總體上更節(jié)能。優(yōu)化的 LPDDR5 訪問還應(yīng)保證快速高效的內(nèi)存使用,從而有助于延長電池壽命。
AMD 提供了一些 RDNA 3.5 與 RDNA 3 的性能數(shù)據(jù),如果將其轉(zhuǎn)化為實(shí)際性能,這些數(shù)據(jù)將非常令人印象深刻。從紙面上看,RDNA 3.5 架構(gòu)與上一代 Ryzen 8040 系列相比,性能顯著提升,每瓦性能提升高達(dá) 32%。在 3DMark Timespy 和 3DMark Night Raid 等圖形工作負(fù)載中,AMD 聲稱 RDNA 3.5 在 15 W 下的性能提升了 19% 至 32%。
由于這些改進(jìn),RDNA 3.5 與其前身 RDNA 3 相比在各個(gè)方面都有所改進(jìn)。例如,RDNA 3.5 通過優(yōu)化紋理采樣和插值等關(guān)鍵內(nèi)容,大大提高了 GPU 更有效地執(zhí)行復(fù)雜圖形操作的能力。改進(jìn) RDNA 3.5 中的內(nèi)存管理還可以實(shí)現(xiàn)更好的功率優(yōu)化和數(shù)據(jù)處理,以解決主要的 GPU 性能問題。所有這些都應(yīng)該帶來實(shí)際的性能優(yōu)勢(shì)。然而,與任何移動(dòng) SoC 一樣,這些仍然沒有達(dá)到獨(dú)立顯卡的水平,獨(dú)立顯卡通常具有更大的芯片面積、更高的制造級(jí)晶體管預(yù)算,當(dāng)然還有更高的功率。
【來源:半導(dǎo)體行業(yè)觀察】
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
特斯拉最近發(fā)布了一段視頻,展示了其人形機(jī)器人Optimus(擎天柱)的新功能和進(jìn)展,試圖回應(yīng)外界對(duì)其智能水平的質(zhì)疑。
近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。