Stock API AI and ML 自動交易永豐金: GH100 GPU 核心術語解釋

2025年12月9日星期二

GH100 GPU 核心術語解釋

GH100 GPU 是 NVIDIA Hopper 架構的代表作，這些術語是用來描述其平行運算能力和記憶體結構的關鍵組成部分。

以下是對這些名詞的詳細說明：

💻 GH100 GPU 核心術語解釋

1. GPU (Graphics Processing Unit)

定義： 圖形處理單元。它是一種專門設計用於加速圖形渲染和大規模平行運算的電子電路。
在 GH100 中的意義： GH100 是整個處理晶片的名稱，它包含了數以萬計的運算核心、記憶體控制器、快取和其他I/O單元。它是執行 AI 模型訓練、高效能運算 (HPC) 和資料分析等任務的核心引擎。

2. GPC (Graphics Processing Cluster)

定義： 圖形處理叢集。它是 Hopper 架構 GPU 中的最高層級運算單元。
在 GH100 中的意義： 完整的 GH100 晶片有 8 個 GPC。一個 GPC 就像一個大型部門，負責管理和協調其下屬的 TPC 和 SMs，以便有效率地處理大量的平行工作負載。

3. TPC (Texture Processing Cluster)

定義： 紋理處理叢集。它是位於 GPC 之下的一個中級運算單元。
在 GH100 中的意義： 完整的 GH100 晶片有 72 個 TPC (每一個 GPC 有 9 個 TPC)。TPC 的主要作用是將紋理處理功能和著色器核心（SMs）組織在一起。雖然名稱中帶有「Texture」，但在 HPC 和 AI 應用中，它主要充當一個邏輯組織單元。

4. SM (Streaming Multiprocessor)

定義： 串流多處理器。它是 GPU 運算能力的核心建構區塊，可以說是 GPU 的「工作班組」。
在 GH100 中的意義： 完整的 GH100 晶片有 144 個 SM (每一個 TPC 有 2 個 SM)。
- 作用： 每個 SM 包含了所有的主要運算元件，例如 CUDA 核心、Tensor 核心、Load/Store 單元、特殊功能單元 (SFU) 和快取記憶體 (L1 快取和共享記憶體)。所有實際的數學和邏輯運算都在 SM 內部執行。
- GH100 SM 的特點： 包含 128 個 FP32 CUDA 核心和 4 個 Tensor 核心（第四代）。

5. CUDA (Compute Unified Device Architecture)

定義： 統一運算設備架構。它不是一個硬體單元，而是 NVIDIA 專有的平行運算平台和編程模型。
在 GH100 中的意義：
- CUDA 核心 (CUDA Cores)： 通常指的是 GPU 中執行標準浮點數和整數運算的基本運算單元。GH100 有 18,432 個 FP32 CUDA 核心。這些核心是執行傳統單精度 (FP32) 或雙精度 (FP64) 數學運算的主力。
- 平台作用： CUDA 允許開發者使用 C++ 等語言來編寫能在 GPU 上大規模平行執行的程式，是 AI 和 HPC 生態系統的基石。

6. Tensor 核心 (Tensor Cores)

定義： 專門設計用於加速矩陣運算的特殊化核心。
在 GH100 中的意義： 完整的 GH100 有 576 個第四代 Tensor 核心。
- 作用： 它們是加速深度學習 (如神經網路訓練和推論) 關鍵。它們特別擅長處理混合精度運算，能以比標準 CUDA 核心更高的效率執行大量乘法-累積 (Multiply-Accumulate) 運算。

7. HBM (High Bandwidth Memory)

定義： 高頻寬記憶體。這是一種堆疊式（stacked）的 RAM 技術，能提供極高的記憶體頻寬和卓越的能源效率。
在 GH100 中的意義： GH100 支援 6 個 HBM3 或 HBM2e 堆疊。
- HBM3/HBM2e： 這是 HBM 技術的最新或較新世代，相比傳統的 GDDR 記憶體，HBM 堆疊直接放在 GPU 晶片附近 (通過矽中介層)，極大地縮短了資料路徑。
- 記憶體控制器： 12 個 512 位元記憶體控制器，總共提供了一個7680 位元的超寬記憶體匯流排 (6 堆疊 $\times$ 2 控制器/堆疊 $\times$ 512 位元/控制器 $\rightarrow$ $6 \times 2 \times 512 = 6144$ 位元，但規格可能指的是啟用 12 個控制器的通道)。這個超寬的匯流排是實現極高記憶體頻寬的關鍵。

🌐 互連與快取

L2 快取 (L2 Cache)： 二級快取。它是位於 SMs 和 GPU 外部記憶體 (HBM) 之間的一個大容量、低延遲的記憶體池。
- GH100 有 60 MB L2 快取。它用於儲存常用數據，以減少對較慢的 HBM 記憶體的存取次數，從而提高整體效能。
第四代 NVLink： NVIDIA 專有的高速晶片間互連技術。
- 它允許多個 GH100 GPU 之間、以及 GPU 與 CPU 之間以極高的速度進行通訊和數據傳輸，這對於大規模的多 GPU 系統（例如 DGX 或 SuperPOD）至關重要。
PCIe Gen 5 (PCI Express Gen 5)： 一種業界標準的高速擴充匯流排介面。
- Gen 5 是第五代標準，相比 Gen 4 提供了兩倍的傳輸速率。它用於將 GPU 連接到主機板和 CPU，以及與其他週邊設備通訊。

這些組成部分共同使 GH100 GPU 成為一個強大的平行處理器，適用於世界上最複雜的 AI 和 HPC 工作負載。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)