系统工程GPU 编程基础

GPU 架构基础

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射，建立并行计算的物理直觉。

配套代码

核心矛盾：延迟 vs 吞吐

在开始写第一行 CUDA 代码之前，我们需要先调整一下大脑的"计算模式"。

CPU 和 GPU 虽然都是为了计算而生，但它们解决的是完全不同的物理问题。这就好比法拉利与公交车的区别：

CPU (Latency Oriented)：为了低延迟而设计。它拥有巨大的缓存（Cache）和极其复杂的控制逻辑（分支预测、乱序执行）。它的目标是尽快完成一个必须串行执行的任务。
- 场景：操作系统调度、逻辑复杂的业务代码。
GPU (Throughput Oriented)：为了高吞吐量而设计。它砍掉了大部分控制逻辑和缓存，把晶体管全用来造计算单元 (ALU)。它的目标是同时处理海量的数据。
- 场景：图形渲染、矩阵乘法、深度学习训练。

CPU vs GPU 异构架构

异构计算 (Heterogeneous Computing)

GPU 并不是一个能独立运行的计算平台，而必须视为 CPU 的协处理器 (Coprocessor)。

当我们谈论"GPU 并行计算"时，实际上是指 CPU + GPU 的异构计算架构：

Host (主机端)：CPU 及其内存。负责复杂的逻辑控制、IO 读取和任务调度。
Device (设备端)：GPU 及其显存。负责密集型的并行计算任务。
通信桥梁：两者通过 PCIe 总线 连接。

瓶颈预警：PCIe 总线的带宽（通常几十 GB/s）远远低于 GPU 内部显存的带宽（通常几 TB/s）。因此，频繁地在 Host 和 Device 之间搬运数据是性能最大的杀手。编写高效内核的第一原则就是：让数据留在 GPU 上。

晶体管经济学

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

特性	CPU	GPU
核心数量	较少 (几个到几十个)	众多 (数千个)
擅长任务	控制密集型 (逻辑复杂、分支多)	计算密集型 (数据并行、矩阵运算)
线程特性	重量级 (上下文切换开销大)	轻量级 (极速切换，用于掩盖延迟)

systems/cuda-basics/vector_add_simple.cu

__global__ void cuda_vector_add_simple(int *OUT, int *A, int *B, int N)
{
    int i = threadIdx.x;  // Each thread gets its own ID
    if (i < N)
    {
        OUT[i] = A[i] + B[i];

systems/cuda-basics/gpu_info.cu

cudaDeviceProp prop;
cudaGetDeviceProperties(&prop, 0);  // 查询第 0 号 GPU

printf("SM 数量:           %d\n", prop.multiProcessorCount);
printf("每 SM 最大 Block:  %d\n", prop.maxBlocksPerMultiProcessor);
printf("每 Block 最大线程: %d\n", prop.maxThreadsPerBlock);
printf("Warp 大小:

参数	值	说明
SM 数量	82	流式多处理器数量
每 SM 最大 Block 数	16	每个 SM 可同时执行的 Block
最大并发 Block	1312	= 82 SM × 16 Block/SM
每 Block 最大线程数	1024	硬件限制
Block 维度上限	(1024, 1024, 64)	每个维度的单独上限
Warp 大小	32	GPU 调度的最小单位

systems/cuda-basics/vector_add.cu

__global__ void cuda_vector_add(int *OUT, int *A, int *B, int N)
{
    // Global index = Block offset + Thread offset
    // blockIdx.x:  当前 Block 的编号 (0, 1, 2, ...)
    // blockDim.x:  每个 Block 有多少个线程 (如 256)
    // threadIdx.x: 当前线程在 Block 内的编号 (0 ~ blockDim.x-1)
    int i = blockIdx.x * blockDim.x + threadIdx.x;

const int N = 1000000;      // 100 万个元素
const int BLOCK_SIZE = 256; // 每个 Block 256 个线程

// 向上取整，计算需要多少个 Block
int num_blocks = (N + BLOCK_SIZE - 1) / BLOCK_SIZE;  // = 3907

// 启动 Kernel
cuda_vector_add<<<num_blocks, BLOCK_SIZE

systems/cuda-basics/matrix_add.cu

__global__ void cuda_matrix_add(float *OUT, float *A, float *B, int NUM_ROWS, int NUM_COLS)
{
    // 2D global index calculation
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x

// 定义 16x16 的线程块
dim3 block(16, 16);

// 计算 Grid 维度 (2D)
// x 轴对应列 (cols)，y 轴对应行 (rows)
dim3 grid(
    (NUM_COLS + 16 - 1) / 16,
    (NUM_ROWS + 16 - 1) / 16
);

GPU 架构基础

核心矛盾：延迟 vs 吞吐

异构计算 (Heterogeneous Computing)

晶体管经济学

登录以继续阅读

GPU 架构基础

核心矛盾：延迟 vs 吞吐

异构计算 (Heterogeneous Computing)

晶体管经济学

登录以继续阅读

晶体管经济学与任务分工

从图形到 AI：算力的进化

摩尔定律的终结与并行化

CUDA：通用计算的钥匙

Tensor Core：为 AI 而生的"核"

SIMT：单指令多线程

告别循环思维

为什么需要边界检查？

硬件层级：Grid, Block 与 Thread

层级映射

查询硬件限制

解决规模问题：全局索引计算

多维映射：走向矩阵计算

二维索引计算

逻辑视图 (Logical 2D View)

物理视图 (Physical 1D Memory)

为什么这很重要？

目录