GH100 GPU 是 NVIDIA Hopper 架構的代表作,這些術語是用來描述其平行運算能力和記憶體結構的關鍵組成部分。
以下是對這些名詞的詳細說明:
💻 GH100 GPU 核心術語解釋
1. GPU (Graphics Processing Unit)
定義: 圖形處理單元。它是一種專門設計用於加速圖形渲染和大規模平行運算的電子電路。
在 GH100 中的意義: GH100 是整個處理晶片的名稱,它包含了數以萬計的運算核心、記憶體控制器、快取和其他I/O單元。它是執行 AI 模型訓練、高效能運算 (HPC) 和資料分析等任務的核心引擎。
2. GPC (Graphics Processing Cluster)
定義: 圖形處理叢集。它是 Hopper 架構 GPU 中的最高層級運算單元。
在 GH100 中的意義: 完整的 GH100 晶片有 8 個 GPC。一個 GPC 就像一個大型部門,負責管理和協調其下屬的 TPC 和 SMs,以便有效率地處理大量的平行工作負載。
3. TPC (Texture Processing Cluster)
定義: 紋理處理叢集。它是位於 GPC 之下的一個中級運算單元。
在 GH100 中的意義: 完整的 GH100 晶片有 72 個 TPC (每一個 GPC 有 9 個 TPC)。TPC 的主要作用是將紋理處理功能和著色器核心(SMs)組織在一起。雖然名稱中帶有「Texture」,但在 HPC 和 AI 應用中,它主要充當一個邏輯組織單元。
4. SM (Streaming Multiprocessor)
定義: 串流多處理器。它是 GPU 運算能力的核心建構區塊,可以說是 GPU 的「工作班組」。
在 GH100 中的意義: 完整的 GH100 晶片有 144 個 SM (每一個 TPC 有 2 個 SM)。
作用: 每個 SM 包含了所有的主要運算元件,例如 CUDA 核心、Tensor 核心、Load/Store 單元、特殊功能單元 (SFU) 和快取記憶體 (L1 快取和共享記憶體)。所有實際的數學和邏輯運算都在 SM 內部執行。
GH100 SM 的特點: 包含 128 個 FP32 CUDA 核心和 4 個 Tensor 核心(第四代)。
5. CUDA (Compute Unified Device Architecture)
定義: 統一運算設備架構。它不是一個硬體單元,而是 NVIDIA 專有的平行運算平台和編程模型。
在 GH100 中的意義:
CUDA 核心 (CUDA Cores): 通常指的是 GPU 中執行標準浮點數和整數運算的基本運算單元。GH100 有 18,432 個 FP32 CUDA 核心。這些核心是執行傳統單精度 (FP32) 或雙精度 (FP64) 數學運算的主力。
平台作用: CUDA 允許開發者使用 C++ 等語言來編寫能在 GPU 上大規模平行執行的程式,是 AI 和 HPC 生態系統的基石。
6. Tensor 核心 (Tensor Cores)
定義: 專門設計用於加速矩陣運算的特殊化核心。
在 GH100 中的意義: 完整的 GH100 有 576 個第四代 Tensor 核心。
作用: 它們是加速深度學習 (如神經網路訓練和推論) 關鍵。它們特別擅長處理混合精度運算,能以比標準 CUDA 核心更高的效率執行大量乘法-累積 (Multiply-Accumulate) 運算。
7. HBM (High Bandwidth Memory)
定義: 高頻寬記憶體。這是一種堆疊式(stacked)的 RAM 技術,能提供極高的記憶體頻寬和卓越的能源效率。
在 GH100 中的意義: GH100 支援 6 個 HBM3 或 HBM2e 堆疊。
HBM3/HBM2e: 這是 HBM 技術的最新或較新世代,相比傳統的 GDDR 記憶體,HBM 堆疊直接放在 GPU 晶片附近 (通過矽中介層),極大地縮短了資料路徑。
記憶體控制器: 12 個 512 位元記憶體控制器,總共提供了一個7680 位元的超寬記憶體匯流排 (6 堆疊 $\times$ 2 控制器/堆疊 $\times$ 512 位元/控制器 $\rightarrow$ $6 \times 2 \times 512 = 6144$ 位元,但規格可能指的是啟用 12 個控制器的通道)。這個超寬的匯流排是實現極高記憶體頻寬的關鍵。
🌐 互連與快取
L2 快取 (L2 Cache): 二級快取。它是位於 SMs 和 GPU 外部記憶體 (HBM) 之間的一個大容量、低延遲的記憶體池。
GH100 有 60 MB L2 快取。它用於儲存常用數據,以減少對較慢的 HBM 記憶體的存取次數,從而提高整體效能。
第四代 NVLink: NVIDIA 專有的高速晶片間互連技術。
它允許多個 GH100 GPU 之間、以及 GPU 與 CPU 之間以極高的速度進行通訊和數據傳輸,這對於大規模的多 GPU 系統(例如 DGX 或 SuperPOD)至關重要。
PCIe Gen 5 (PCI Express Gen 5): 一種業界標準的高速擴充匯流排介面。
Gen 5 是第五代標準,相比 Gen 4 提供了兩倍的傳輸速率。它用於將 GPU 連接到主機板和 CPU,以及與其他週邊設備通訊。
這些組成部分共同使 GH100 GPU 成為一個強大的平行處理器,適用於世界上最複雜的 AI 和 HPC 工作負載。
沒有留言:
張貼留言