0

0

如何用C++进行GPU并行计算?CUDA C++编程入门指南【高性能计算】

尼克

尼克

发布时间:2026-01-04 19:09:27

|

175人浏览过

|

来源于php中文网

原创

CUDA C++是C++的扩展,核心在于主机与设备协同:需装CUDA Toolkit和NVIDIA显卡,通过cudaMalloc/cudaMemcpy管理内存,用__global__定义kernel,按Grid-Block-Thread模型组织线程,并注意错误检查与同步。

如何用c++进行gpu并行计算?cuda c++编程入门指南【高性能计算】

用C++做GPU并行计算,核心是CUDA C++——它不是独立语言,而是C++的扩展,让你在标准C++代码里嵌入GPU核函数(kernel)和内存管理指令。关键不在于重学语法,而在于理解“主机(CPU)”和“设备(GPU)”的分工与协同。

一、环境准备:装好CUDA Toolkit和兼容显卡

CUDA只支持NVIDIA GPU(如GTX 10系以上、RTX系列、Tesla/A100等),且需安装对应版本的CUDA Toolkit(含编译器nvcc、运行时库、头文件)。Visual Studio(Windows)或GCC(Linux)作为主机编译器,nvcc负责把kernel部分编译成GPU可执行码,再链接进主程序。

  • 确认显卡支持:终端运行 nvidia-smi 查驱动和GPU状态
  • 下载CUDA Toolkit:匹配系统+驱动版本(官网提供详细兼容表)
  • 设置PATH和LD_LIBRARY_PATH(Linux)或CUDA_PATH(Windows)
  • 验证:编译运行 deviceQuery 示例,看到"Result = PASS"即成功

二、写第一个CUDA C++程序:向量加法

这是CUDA的“Hello World”。重点不是算法,而是结构范式:数据先从CPU内存拷贝到GPU显存 → 启动kernel在GPU上百线程并发执行 → 结果拷贝回CPU。

示例片段(简化版):

立即学习C++免费学习笔记(深入)”;

#include <cuda_runtime.h>
#include <iostream><p><strong>global</strong> void addVectors(float<em> a, float</em> b, float<em> c, int n) {
int idx = blockIdx.x </em> blockDim.x + threadIdx.x;
if (idx < n) c[idx] = a[idx] + b[idx];
}</p><p>int main() {
const int N = 1 << 20;
size_t size = N * sizeof(float);</p><pre class='brush:php;toolbar:false;'>// 1. 主机内存分配
float *h_a = new float[N], *h_b = new float[N], *h_c = new float[N];

// 2. 设备内存分配
float *d_a, *d_b, *d_c;
cudaMalloc(&d_a, size); cudaMalloc(&d_b, size); cudaMalloc(&d_c, size);

// 3. 数据拷贝到GPU
cudaMemcpy(d_a, h_a, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_b, h_b, size, cudaMemcpyHostToDevice);

// 4. 定义执行配置:1024线程/块,足够覆盖N
int blockSize = 1024;
int gridSize = (N + blockSize - 1) / blockSize;

// 5. 启动kernel
addVectors<<<gridSize, blockSize>>>(d_a, d_b, d_c, N);

// 6. 同步等待完成(调试时必加)
cudaDeviceSynchronize();

// 7. 拷贝结果回CPU
cudaMemcpy(h_c, d_c, size, cudaMemcpyDeviceToHost);

// 清理...
delete[] h_a; delete[] h_b; delete[] h_c;
cudaFree(d_a); cudaFree(d_b); cudaFree(d_c);

}

Programming Helper
Programming Helper

AI代码自动生成器,在AI的帮助下更快地编程

下载

注意:__global__ 标记kernel函数;>> 是执行配置语法;cudaMemcpy方向必须明确(HostToDevice / DeviceToHost);cudaDeviceSynchronize()确保kernel执行完再继续,避免读未写数据。

三、掌握线程组织模型:Grid-Block-Thread三层结构

CUDA把线程组织成三维层次:一个Grid(网格)包含多个Block(线程块),每个Block内有多个Thread(线程)。你通过 >> 控制启动多少Block和每个Block多少线程。

  • threadIdx:线程在Block内的索引(x/y/z)
  • blockIdx:Block在Grid内的索引
  • blockDim:Block的维度大小(如dim3(16,16)表示16×16线程)
  • gridDim:Grid的维度大小
  • 常用计算全局索引:int idx = blockIdx.x * blockDim.x + threadIdx.x;(一维情形)

合理设置blockSize很重要:太小浪费资源,太大可能超SM(Streaming Multiprocessor)寄存器上限。常见取值为128、256、512、1024(必须是32的倍数,因Warp=32线程调度单位)。

四、避坑提醒:内存与同步常见错误

新手90%问题出在这两块:

  • 忘记检查CUDA调用返回值:每条cudaMalloc/cudaMemcpy/kernel调用后加 cudaError_t err = cudaGetLastError(); if (err != cudaSuccess) printf("%s\n", cudaGetErrorString(err));
  • 误用主机指针在kernel里:kernel中只能访问GPU内存(d_x),不能直接用h_x;所有输入输出都要显式拷贝
  • 越界访问:kernel里务必加 if (idx ,因为gridSize常向上取整,最后Block可能有冗余线程
  • 异步执行误解:kernel启动后CPU立刻往下走,不等它结束——需要cudaDeviceSynchronize()或cudaStreamSynchronize()显式同步
  • 统一内存(Unified Memory)慎用:cudaMallocManaged简化了拷贝,但首次访问会触发迁移,对性能敏感场景建议手动管理

基本上就这些。CUDA C++不是魔法,它是把C++逻辑拆解成“CPU指挥 + GPU干活”的协作流程。写熟向量加法、矩阵乘、规约求和这几个典型模式,再结合Nsight Compute调试器看Occupancy、Memory Throughput指标,你就真正踏入GPU高性能计算的大门了。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

847

2023.08.22

printf用法大全
printf用法大全

php中文网为大家提供printf用法大全,以及其他printf函数的相关文章、相关下载资源以及各种相关课程,供大家免费下载体验。

76

2023.06.20

fprintf和printf的区别
fprintf和printf的区别

fprintf和printf的区别在于输出的目标不同,printf输出到标准输出流,而fprintf输出到指定的文件流。根据需要选择合适的函数来进行输出操作。更多关于fprintf和printf的相关文章详情请看本专题下面的文章。php中文网欢迎大家前来学习。

306

2023.11.28

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1030

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

612

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

334

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

235

2025.08.29

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.6万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号