VGA / Gaming 電競 顯示卡 / Workstation 工作站 繪圖卡 / GPU 繪圖晶片 / AI NPU 人工智慧加速卡

購買RTX 30系列顯示卡前必先知道的兩三事:NVIDIA技術簡報 (上篇)

文.圖/Johan 2020-09-11 22:30:08
NVIDIA已於台北時間9月2日凌晨0點正式發表GeForce RTX 30系列(代號Ampere)的RTX 3090、RTX 3080、RTX 3070等顯示卡,價格分別是1499美元、699美元、499美元,比前代還要便宜。而在效能方面也大幅精進,包含3070贏過2080 Ti、3080效能是2080的兩倍,而3090則是主打8K級遊戲的應用,帶領玩家進入遊戲新世代!

這次要上課囉!趕快來看RTX 30系列的技術簡報吧! 總共有四個課程要上


為讓各位想要進入RTX 30時代,NVIDIA舉辦了技術研討會,說明這次RTX 30顯示卡的規格細節與新技術、新功能,讓一般玩家、電競玩家、直播主以及創作者們,在選購之前可以先深入了解這次RTX 30顯示卡細節資訊,讓玩家們可以在得知新一代RTX 30除了效能提升之外,到底還多了哪些東西,以及如何搭配更多周邊與新軟體,來發揮出這次RTX 30的所有特點,這些都是在下單購買前,值得用來做功課的有用訊息!

在開始之前,先來看看RTX 3080創始版顯示卡的外觀。

這是RTX 3080的背面! 對! 背面有風扇喔! 因此不適合以直立安裝方式,要橫插入主機中 (原理請參考下方第二篇)


這個才是正面,卡的左邊也有一顆散熱風扇。也就是正反各一顆


顯示卡上方,可以看到金色的金屬上蓋,為2-Slot設計


這個就是特殊的NVIDIA 12-pin電源接頭,放心!隨顯示卡會附贈雙8-pin PCIe接頭轉NVIDIA 12-pin接頭,只是這個接頭的插拔次數據信僅25次,別一直插拔喔!


顯示卡的底部


顯示卡的對外I/O埠,含3組DisplayPort與1組HDMI埠,右邊為散熱孔


顯示卡中間有X的造型,金屬散熱片排列也以交錯式設計,頗具特色。這張卡功耗為320W,建議搭至少650W的電源供應器!


以下文章就大致分成四個部份,並分成上下篇,本篇為上篇,說明第一和第二部份,分別敘述如下,想要買RTX 30顯示卡的讀者必讀。以下文長圖多,請小心服用。XD

<上篇> (本篇)
(1) 第一課:安培新架構、新光追,與全新RTX IO遊戲快速載入技術
(2) 第二課:裝機注意! RTX 3080/3090全新散熱設計、3090的8K遊戲、RTXGI

<下篇>
(3) 第三課:電競玩家必備Reflex低延遲技術,周邊與360Hz螢幕
(4) 第四課:創作者輔助利器NVIDIA Studio,與直播主利器NVIDIA Broadcast


本篇將以NVIDIA排定共四篇內容,來簡述這次RTX 30顯示卡的技術細節


第一課:安培新架構、新光追,與全新RTX IO遊戲快速載入技術

這次NVIDIA推出全新Ampere架構的GPU,除了先前GTC 2020發表針對數據中心專用的產品(如DGX、EGX等系列的A100 GPU,採用TSMC 7nm製程)之外,還有這次推出針對玩家市場所打造的RTX 30系列(包含3090、3080、3070,採用Samsung 8nm製程)。由於製程技術提升,因此RTX 30系列塞入更多電晶體,更多RT Core、Tensor Core,讓其效能有巨大的提升!

▼ NVIDIA GeForce RTX 30系列顯示卡規格與發表日期


當然除了效能之外,在遊戲畫質也有大幅度的精進,例如硬體新加入了動態模糊加速功能,可繪製出物體在快速移動中的模糊畫面現象,搭配其新的Sparse深度學習技術,讓光線追蹤的應用更加靈活與逼真。

NVIDIA安培架構,巨大提升!包含光追、第二代RTX技術,賦予無限種方式來玩樂。目前發表了RTX 3090、3080、3070


這是圖靈架構,第一代RTX設計:SM效能11 FP32 TFLOPS、RT核心效能為34 RT TFLOPS、Tensor核心效能為89 Tensor TFLOPS


到了安培架構,第二代RTX設計:SM效能提升至32 FP32 TFLOPS、RT核心效能提升至58 RT TFLOPS、Tensor核心效能則提升到238 Tensor TFLOPS


此圖說明光追的工作負載,不適合以黃色字樣的架構來執行,透過右邊RTX RT核心架構的三個綠色字樣的加速,讓光追畫面可以達到即時繪出的需求


如今,右邊的Ampere架構還加入全新的動態模糊硬體加速功能


這就是動態模糊的畫面模擬


動態模糊架構,提供提供8倍快的光線走訪速度


此為Sparse (稀疏) 深度學習的模型


以第三代Tensor核心來看,這次雖說每Shader Model下的Tensor核心數從8降至4,但在FP16 FMA運算下,A100與RTX 3080的密集或稀疏模型效能都非常多,因此整體(Total)效能還是有所提升


這次因為採用8nm製程,使得Ampere架構比上世代Turing架構的能效高達1.9倍! 且溫度更低(78°C)、噪音更低(30dbA)


至於記憶體方面,採用世界最快的GDDR6X,此為其信號、編碼與演算法的分析介紹


再來就是這次3090/3080都支援了8K HDR螢幕輸出。是世界首張支援HDMI 2.1的GPU,一條電纜線就可以輸出8K@60Hz或4K@120Hz。且也是首顆支援AV1全硬體視訊解碼的GPU,能即時播放8K60Hz的影片


上一代GeForce RTX 2080 SUPER,GPU內部佈線是這樣


這一代GeForce RTX 3080,GPU內部佈線是這樣,更複雜,性能更強悍


接下來,以Wolfenstein: Young Blood (德軍總部:血氣方剛)遊戲為例,說明一張遊戲畫面在使用不同核心來處理時的所需時間,從純Shader的51ms,到搭配RT核心可降到20ms,再加Tensor核心則可降到12ms


以傳統Pascal架構(GTX 1080)跟Turing架構(RTX 2080來比,前者畫一個畫面需要92ms,而後者僅51ms


在Turing架構中,一般光追為51ms,開啟RT核心則降至19ms若再搭DLSS,則可再降至13ms


而這次採用Ampere架構之後,搭配第二代RT核心,可讓上世代的19ms降至11ms


簡單來說,在Turing架構下,一個畫格需要13ms,而Ampere只要7.5ms,搭配第二代同步(繪圖+RT+Tensor核心),則可再降至6.7ms


總之,這就是Ampere架構各種RTX模式下的所需時間。純軟體RT (Shader)需要37ms,改RT核心則快速降至11ms,若再搭配Tensor核心則可以再將到7.5ms,若開啟第二代同步(繪圖+RT+Tensor核心),則可再降至6.7ms!


這就是綜合上述測試下的效能與提升比例 (原來快1.9x是這樣算出來的XD)


以下來看看這次RTX IO的功能與架構,這是一種可以透過GPU來解壓縮遊戲資料(地圖)的技術,由於當今遊戲都越來越龐大,在遊戲的開放世界裡,為了實現人物移動時無縫接軌,遊戲必須時常預先載入即將到達的地圖,以保持遊戲的流暢進行。

只是當今遊戲材質越來越講究,從Full HD到4K材質,讓遊戲畫面更精細,只是傳統HDD效能已完全不能符合這種遊戲的需求,改用SATA SSD也許好一點,但還是無法完全無縫接軌載入地圖,因此NVIDIA看中未來遊戲需求,推出了RTX IO的技術,搭配現有NVMe SSD,讓遊戲開發者可以把地圖壓縮以節省資料載入量/頻寬,然後透過GPU來幫助解壓縮地圖,且佔用不到CPU的1個執行緒(大概半個即可),騰出更多CPU資源去處理遊戲的物理或是邏輯問題,以加速遊戲的順暢度。RTX IO技術也可與微軟最新DirectStorage for Windows來做搭配,讓開發者能以RTX IO直接將超大已壓縮的地圖載至GPU記憶體,並進行解壓縮,使其得以快速部署完成,讓玩家玩得順暢又過癮。

此為Cyberpunk 2077遊戲畫面一瞥,下方說明這類200GB級的超大遊戲只會越來越多,但常碰到I/O頻寬的挑戰


這就是持續讀寫狀態下,HDD、SATA SSD、PCIe 3 NVMe SSD、PCIe 4 NVMe SSD的資料傳輸速度


遊戲載入地圖方式有很多種,這是資料未壓縮的狀況,資料載入至CPU與系統記憶體,然後再移入GPU記憶體


遊戲通常就是被傳統慢速I/O而制約


若將地圖壓縮,以減少載入頻寬呢?這就是其資料載入狀況,同樣要在CPU幫剛載入記憶體的資料進行解壓


這種傳統作法,會吃掉很多CPU資源,甚至將CPU的資源吃好吃滿,造成遊戲必須頻頻停下來載入資料,體驗不佳


RTX IO就是改成將資料直接由GPU控制來載入GPU記憶體內,讓GPU來解壓縮地圖資料


透過RTX IO的話,CPU不用動用到24個執行緒(如Ryzen 9 3900X)來做解壓縮的動作,只要縮到僅0.5個CPU核心即可,讓CPU可以去做別的事情


實際展示地圖關卡載入時間,左邊是HDD時間 (38秒載入壓縮地圖,或是63秒才能載入未壓縮地圖),右邊則是Gen4 NVMe SSD (24核心Threadripper)的載入壓縮地圖的時間,而RTX IO則更降至1.5秒。因此RTX IO將是未來大型遊戲的最佳省時載入妙方


第二課:裝機注意! RTX 3080/3090全新散熱設計、3090的8K遊戲、RTXGI

本篇將介紹RTX 3080/3090創始版採用正反面風扇設計的用意,在裝機上需要注意的事項,以及其溫度和噪音量。接下來則是介紹3090的8K遊戲是如何達到的,要怎麼搭配DLSS功能,以及其效能如何?這裡都有詳細講解。

GeForce RTX 3090 (右)的體積比RTX 3080還大一號,都採用雙面單風扇設計,唯獨左邊的RTX 3070 仍採用單面雙風扇設計


這是RTX 3080 vs. 2080 與 3070 vs. 2070的規格比較,兩代的出道價格一樣,但性能卻增加N倍!


RTX 3080在4K解析度下,效能提升近2倍 (參考Minecraft RTX ON的數據)


至於RTX 3070,在1440p解析度下,則有1.6倍的效能領先 (同樣參考Minecraft RTX ON的數據)


再看一次!RTX採用8nm製程,使得Ampere架構比上世代Turing架構的能效高達1.9倍! 且溫度更低(78°C)、噪音更低(30dbA)


接下來說說風流設計吧!這是傳統電腦機殼的風流路徑 (冷空氣從前面板進入,熱空氣從後面排出),GPU則在中間


因此最佳的風流模式,應該就是這樣,風扇一正一反各配置一組,讓下方吸入冷空氣,上方排出熱空氣


這是上一代RTX 2080 Ti的風扇配置,右邊風扇將冷空氣吸入散熱片,並讓廢熱自行排出 (也不是不好啦!只是一直操到過熱時,風扇只會吹得更強)


在PCB部份,RTX 2080 SUPER是全尺寸,散熱需求更高,但右邊RTX 3080把PCB縮小,以預留給右方風扇配置到顯示卡的背面


這就是風流路徑示意圖。左風扇將熱推出左邊的擋板散熱孔,右邊則以全穿透的風扇將熱量拉上去,由機殼後方風扇排出。這樣一來,就能快速將廢熱帶走,降低溫度,也減少噪音


RTX 3080顯示卡插在機殼內示意圖


實際量測後,3080功耗320W時,噪音和溫度都比同樣2080功耗320W時,還要低個10分貝與20°C的幅度,這樣的設計,您服了沒?


接下來看RTX 3090的部份吧!比上一代Titan RTX更便宜了1000美元,但性能卻強了好多好多!


3090同樣是雙面單風扇配置,實際量測後,3080功耗350W時,噪音和溫度都比同樣Titan RTX功耗350W時,還要低個20分貝與30°C的幅度,只能說老黃真厲害!


既然提到這顆 BFGPU (Big Ferocious GPU,怪獸級顯示卡),那麼就來看看在遊戲、繪圖、AI應用時的各項數據表現吧!結果都比上世代Titan RTX快了約1.5倍左右


既然是8K級顯示卡,接下來就來看看搭配RTX遊戲的效果吧!這些遊戲、遊戲引擎與API,都已支援RTX囉


這些既有或新遊戲,都將支援RTX光追特效


先來看看《要塞英雄》的RTX版本效果如何


左圖為原生4K畫面,28 FPS;右邊為開啟DLSS 4K下,畫質更清晰,效能達73 FPS


至於3DMark也支援RTX 30系列與DLSS 2.0功能


左為DLSS 1.0畫面,42 FPS;右為DLSS 2.0 效能模式,畫質更好,效能也更高,達64 FPS


既然提到8K,首先要知道8K的畫素,是Full HD的16倍 (因此負載更重)


GeForce RTX 3090身為一張可以跑8K遊戲的怪獸級顯示卡,具備HDMI 2.1埠、RTX開啟搭配DLSS 8K模式,具備24GB繪圖記憶體、8K HDR ShadowPlay能力,並支援AV1視訊解碼


目前8K螢幕或電視,採用雙DP接頭、四HDMI接頭,可能造成訊號不同步,影響視覺體驗。而新的8K電視已支援單HDMI接頭,可顯示8K 60Hz HDR提供最佳視覺體驗


若要玩遊戲的話,此為不同解析度下,原解析度與可DLSS到的解析度比較。以8K遊戲來說,原解析度最低可以設定到2560x1440,然後透過AI運算進行向上提升解析度到9倍,以達到7680x4320 (8K)的解析度


來看看《看門狗:自由軍團》,即將於10月29日上市


不同解析度下的細緻度比較 (8K DLSS最清晰)


這就是各遊戲,在開啟和未開啟DLSS 8K時的FPS成績 (有些純綠色代表該遊戲還不支援DLSS),Control這套遊戲開啟DLSS 8K的效能提升幅度超多


此外,RTX 3080/3090也支援全新AV1硬體視訊解碼,讓8K HDR視訊能夠順暢播放。AV1格式比H.264快50%,用GPU來解碼可達到8K 60FPS,如今Chrome、YouTube、Windows 10、Edge瀏覽器、VideoLAN VLC Player都支援AV1格式囉!


總之,RTX遊戲已可8K,電視也有8K了,就只剩下你的口袋到底有沒有8K 美金來買8K顯示卡+電視+遊戲了 XD


接著簡單說明一下,這次新的RTXGI吧!這是全域照明光追應用,適合開發者運用的全新API,此為對玩家來說,RTXGI的功能與優勢


全域照明光追,可提升整體光線照射呈現(今天許多領域都有在用),修正漏光問題,且比SVOGI還快。下列三款遊戲引擎支援RTXGI


RTXGI的系統拓樸,介於應用程式與DXR API之間,可提升光追品質的好SDK


左上為開啟RTXGI的畫面,右下為關閉RTXGI的畫面。左邊光線充足均勻,右邊比較黯淡無光


這是純光線相比,左上也比較能看到更多細節


這是RTXGI的運作原理,中間有多做一些光線相關處理


效能取決於解析度大小。一般來說,一幀需要250K至400K樣本。RTX 3080可在0.5ms內產生400K取樣處,而2080S需要1.0ms。效能快一倍!


此為對開發者來說,RTXGI的功能與優勢


以上先講兩課,下篇再來講第三課和第四課內容,記得回來聽課喔!

延伸閱讀
(1) NVIDIA GeForce RTX 30系列降臨:4K開光追60 FPS不是夢、怪物級3090衝上8K DLSS光追也沒問題!
(2) NVIDIA RTX 30系列登場,ASUS、GIGABYTE、MSI、EVGA、Zotac、Galax、Inno3D、Palit、Gainward、Colorful等推出各式3090、3080、3070客製卡
(3) NVIDIA官方公開創始版GeForce RTX 3080開箱,精緻質感包裝顯卡橫向放置
(4) 購買RTX 30系列顯示卡前必先知道的兩三事:NVIDIA技術簡報 (上篇) (本篇)
(5) 購買RTX 30系列顯示卡前必先知道的兩三事:NVIDIA技術簡報 (下篇)
(6) NVIDIA RTX 3080解禁!4K@60Hz達標、開光追也能兼顧效能 Ft. TUF GAMING RTX 3080 O10G GAMING
(7) RTX 3080 vs. RTX 20系列!效能到底差多少? Ft. 一拖拉庫的RTX 20顯示卡
(8) RTX 3080效能PK、對決Radeon RX 5000系列顯示卡,期待Big Navi吧!
(9) 風之力三風扇搭刀鋒扇葉正逆轉,GIGABYTE RTX 3080 GAMING OC 10G顯示卡開箱
(10) NVIDIA GeForce RTX 3080 10GB創始版顯示卡開箱實測,4K高畫質光追遊戲的最佳主角
(11) NVIDIA GeForce RTX 3090 24GB創始版顯示卡開箱實測,邁向8K超高畫質遊戲與創作應用的絕佳利器
(12) 客製版RTX 3090效能解禁!MSI RTX 3090 GAMING X TRIO 24G開箱評測
(13) 抗擾流刀鋒扇葉風扇、雙8-pin PCIe供電,GIGABYTE RTX3090 GAMING OC 24G顯示卡開箱評測


發表您的看法

請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。

請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。

請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。

請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。

請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。

您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。

最近新增