如何使用c++和CUDA的Cooperative Groups进行GPU线程协作？ (网格级同步)

裘德小鎮的故事

发布时间：2026-01-22 14:17:02

101人浏览过

来源于php中文网

原创

cooperative_groups网格级同步的本质是启动必须全部参与且原子性完成的跨SM kernel，并用cg::grid_group::synchronize()实现全局屏障；需满足计算能力≥6.0、TCC模式（Tesla卡）、空流三条件，且仅在该kernel内生效。

如何使用c++和cuda的cooperative groups进行gpu线程协作？ (网格级同步)

什么是 `cooperative_groups` 网格级同步的本质

它不是“让所有 GPU 线程等一个栅栏”，而是允许你启动一个跨多个 SM 的、**必须全部参与且原子性完成**的 kernel，并在其中用 cg::grid_group 调用 synchronize()。前提是：kernel 必须用 cudaLaunchCooperativeKernel 启动，且设备支持（cudaDeviceGetAttribute(&attr, cudaDevAttrCooperativeLaunch, dev) 返回非零），常见于 Tesla A100 / V100 / H100，消费卡（如 RTX 4090）默认禁用或不支持。

启动 cooperative kernel 的三个硬性条件

缺一不可，否则 cudaLaunchCooperativeKernel 直接返回 cudaErrorNotSupported 或 cudaErrorInvalidValue：

GPU 计算能力 ≥ 6.0（Pascal），但实际需看驱动与模式：Tesla 卡需在 TCC 模式下运行；Windows WDDM 下一律不支持
Host 端调用前必须设置流为 NULL：cudaStream_t stream = 0，不能传自定义流

Kernel 中若使用 cg::grid_group，必须在 kernel 入口第一行声明并获取，例如：

__global__ void my_kernel() {
    namespace cg = cooperative_groups;
    cg::grid_group grid = cg::this_grid();
    // 后续才能调用 grid.synchronize()
}

`cg::grid_group::synchronize()` 的行为边界

它只对当前 cooperative kernel 内所有线程生效，不阻塞 host，也不影响其他 kernel。但它会强制等待：所有 SM 上该 kernel 的所有 block 都执行到该语句，且所有 warp 都到达后才继续。注意以下陷阱：

不能在 if (threadIdx.x == 0) 这类 divergent 分支里调用——会导致部分 warp 永远不执行，kernel hang 住
不能和 __syncthreads() 混用在同个 block 内做嵌套同步——无定义行为，常见死锁
每个 block 内只能调用一次 grid.synchronize()（多次调用不报错但无意义，且可能触发驱动异常）
同步开销显著：A100 上单次耗时约 5–10 μs，比 __syncthreads() 高两个数量级

典型协作模式：全局归约 + 分布式 barrier

适合需要所有 block 协同完成阶段性计算的场景，比如多 block 共同构建哈希表、分阶段排序、或分布式 SGD 的梯度聚合。下面是最小可运行结构：

Programming Helper

AI代码自动生成器，在AI的帮助下更快地编程

下载

立即学习“C++免费学习笔记（深入）”；

__global__ void global_reduce_kernel(float* data, int n) {
    namespace cg = cooperative_groups;
    cg::grid_group grid = cg::this_grid();
    extern __shared__ float sdata[];
<pre class='brush:php;toolbar:false;'>int tid = threadIdx.x;
int bid = blockIdx.x;
int offset = bid * blockDim.x;

// Step 1: block 内规约到 shared memory
sdata[tid] = (offset + tid < n) ? data[offset + tid] : 0.f;
__syncthreads();
for (int s = blockDim.x / 2; s > 0; s >>= 1) {
    if (tid < s) sdata[tid] += sdata[tid + s];
    __syncthreads();
}

// Step 2: 只有 block 0 把结果写入 global memory（或其他协调逻辑）
if (bid == 0 && tid == 0) {
    data[0] = sdata[0];
}

// Step 3: 所有 block 等待 block 0 完成写入，再进入下一阶段
grid.synchronize();

// Step 4: 此时可安全读取 data[0] 做后续广播/校正
if (bid == 1 && tid == 0) {
    float global_sum = data[0];
    // do something with global_sum...
}

}

真正难的从来不是写这十几行代码，而是确认你的运行环境是否满足 cooperative launch 的全部约束——尤其是驱动模式、设备属性、流参数这三个点，漏查一个，kernel 就静默失败或直接 crash。

C++如何实现带超时的批量DNS解析？（并发getaddrinfo控制）

C++怎么画图 C++图形库EasyX安装与使用【入门】

C++如何实现跨平台获取当前用户组信息？（getgrgid或NetUserGetGroups）

c++怎么连接数据库_c++操作mysql基本步骤【实战】

c++如何进行文件追加写入_c++ofstream追加模式【方案】

c++速学教程(入门到精通)

c++怎么学习？c++怎么入门？c++在哪学？c++怎么学才快？不用担心，这里为大家提供了c++速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

windows c++ win stream red 分布式 NULL if 线程 windows

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：c++中如何实现字符串的按单词反转_c++双指针法反转逻辑【详解】下一篇：C++多线程实现_C++11/14/17多线程实现方案

作者最新文章

C++ short int如何赋初值 C++ short变量静态定义【入门】

2026-03-11 13:59

C++ short int在内存中怎么存 C++ short大小端【解析】

2026-03-11 14:03

C++如何实现面向协程的数据库驱动层？（异步数据库访问）

2026-03-11 14:04

C++ short数组怎么定义 C++ short int数组初始化【示例】

2026-03-11 14:09

C++怎么判断子串 C++中string::find返回位置【技巧】

2026-03-11 14:13

Laravel怎么处理多图上传_Laravel怎么循环保存文件【总结】

2026-03-11 14:15

C++怎么规划学习路线 2026年C++程序员学习建议【指南】

2026-03-11 14:17

云崩坏星穹铁道H5入口网页版官方登录地址

2026-03-11 14:21

C++怎么使用命名空间_C++代码组织教程【规范】

2026-03-11 14:24

高德地图如何切换地图皮肤高德地图视觉效果设置【设置】

2026-03-11 14:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

407

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

251

2023.10.07

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1089

2024.03.01

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

1496

2023.07.26

查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口，端口占用问题是计算机系统编程领域的一个常见问题，端口占用的根本原因可能是操作系统的一些错误，服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1170

2023.07.27

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板