0

0

如何用c++实现一个 work-stealing 线程池? (任务窃取算法)

冰火之心

冰火之心

发布时间:2026-02-01 15:19:15

|

726人浏览过

|

来源于php中文网

原创

Work-stealing线程池应选用每个线程独占的定制双端无锁队列,工业级实现常用数组+原子索引(m_top/m_bottom)模拟,避免伪共享与迭代器失效;本地用LIFO栈,偷取端通过atomic_load/acquire和CAS操作安全获取底部任务,配合全局MPSC无锁队列实现负载均衡。

如何用c++实现一个 work-stealing 线程池? (任务窃取算法)

work-stealing 线程池的核心数据结构怎么选?

关键不是“用什么容器”,而是“每个线程必须有自己独占的、支持高效双端操作的任务队列”。std::deque 看似合理,但它的迭代器失效规则和内存不连续性会破坏窃取时的 pop_back / steal_from_front 性能隔离。实际工业级实现(如 Intel TBB、Folly)都用**定制的双端无锁队列**,C++20 前最稳妥的是 std::vector 配合原子索引——但更常见、更轻量的做法是用 std::stack(LIFO 本地执行)+ 单向链表或数组模拟的“偷取端”(通常只暴露 try_steal() 接口,内部用 atomic_load 读取头部)。

实操建议:

  • 每个工作线程持有一个 std::stack<:function>>:本地 push()top()/pop() 都是 O(1) 且无竞争
  • 偷取端不直接暴露顶,而用一个独立的 std::atomic 记录“可被偷走的起始位置”,避免修改本地栈结构
  • 绝不让多个线程同时读写同一个 std::stack;偷取操作必须是“尝试性”的,失败就立刻放弃,转去全局等待队列或休眠

如何安全地从其他线程的栈里“偷”一个任务?

偷取不是“把别人栈顶拿走”,而是“把别人栈底附近的一个任务挪走”——这样本地执行不受影响(LIFO 仍成立),且避免伪共享。典型做法是:将本地栈底层用数组实现,维护两个原子索引:m_top(当前执行位置)和 m_bottom(最新插入位置)。偷取方调用 other_thread_queue.try_steal(task) 时,先用 atomic_load_explicit(&m_bottom, memory_order_acquire) 读取,再用 atomic_compare_exchange_weak 尝试把 m_bottom 减 1,成功则取走该下标对应的任务。

常见错误现象:

立即学习C++免费学习笔记(深入)”;

VidAU
VidAU

VidAU AI 是一款AI驱动的数字人视频创作平台,旨在简化视频内容创作流程

下载
  • 偷取后没做 memory_order_release 写屏障 → 本地线程看到过期的 m_bottom 值,重复偷取或漏任务
  • std::stack 的默认适配器(基于 std::deque)→ 偷取时需锁住整个结构,彻底失去 work-stealing 的并发优势
  • 偷取函数返回 bool 却忽略失败分支 → 线程空转耗 CPU,应立即 fallback 到 sleep_for(1ns) 或检查全局队列

主线程提交任务时,该放进哪里?

不能全塞进某个固定线程的本地队列——这会打破负载均衡。标准做法是:维护一个**全局的无锁 mpsc 队列**(multi-producer, single-consumer),所有提交(submit())都往这里 push;每个工作线程在本地队列空时,先尝试从全局队列批量 pop 若干任务(比如 4~8 个),再逐个执行。这样既减少争用,又保证新任务不会长期滞留。

参数差异与性能影响:

  • 批量大小设太小(如 1)→ 全局队列争用频繁,吞吐下降
  • 设太大(如 64)→ 任务分发延迟升高,短任务无法快速响应
  • 全局队列若用 std::queue + mutex → 完全退化为普通线程池,失去 stealing 意义;必须用 boost::lockfree::queue 或手写 Harris-Michael 无锁队列

线程休眠和唤醒策略怎么避免忙等或唤醒丢失?

当本地队列和全局队列都为空时,线程不能 while(true) { if (empty) this_thread::yield(); } ——这是 CPU 杀手。也不能直接 condition_variable::wait(),因为唤醒信号可能在线程进入 wait 前就已发出(丢失唤醒)。正确方式是用 std::atomic_flag + futex(Linux)或 SleepConditionVariableSRW(Windows),但跨平台简易方案是:引入一个 std::atomic m_has_work,提交任务时置 true 并调用 notify_one();线程在 wait 前先检查该 flag,仅当为 false 时才真正 wait。

容易踩的坑:

  • std::mutex + std::condition_variable 保护整个偷取逻辑 → 锁粒度太大,抵消 stealing 效益
  • 唤醒后不重试本地队列 → 可能刚唤醒就被别的线程偷走了任务,又立刻回去 sleep
  • 没有设置超时(如 wait_for(..., 100ms))→ 在低负载下线程永远无法退出,阻碍程序 shutdown
class work_stealing_pool {
    static constexpr size_t BATCH_SIZE = 4;
    std::vector m_workers;
    std::vector>> m_local_queues;
    boost::lockfree::queue> m_global_queue{1024};
    std::atomic m_stop{false};

    void worker_loop(size_t idx) {
        while (!m_stop) {
            std::function task;
            // 1. 先查本地
            if (try_pop_local(idx, task)) {
                task();
                continue;
            }
            // 2. 再批量取全局
            if (try_batch_pop_global(task)) {
                task();
                continue;
            }
            // 3. 最后尝试偷取(遍历其他线程,跳过自己)
            if (try_steal(task)) {
                task();
                continue;
            }
            // 4. 真的没任务了:短暂休眠 + 检查 stop
            std::this_thread::sleep_for(1ns);
        }
    }

    bool try_pop_local(size_t idx, std::function& out) {
        auto& q = m_local_queues[idx];
        if (q.empty()) return false;
        out = std::move(q.top());
        q.pop();
        return true;
    }

    bool try_steal(std::function& out) {
        for (size_t i = 0; i < m_local_queues.size(); ++i) {
            if (i == m_current_thread_idx) continue;
            // 实际需用原子 bottom/top 操作,此处简化
            auto& q = m_local_queues[i];
            if (!q.empty()) {
                // lock-free steal attempt here
                out = std::move(const_cast&>(q.top()));
                q.pop();
                return true;
            }
        }
        return false;
    }
};
真正难的不是实现 stealing 动作本身,而是**所有共享状态的内存序控制**和**偷取失败后的退避节奏**——这两点稍有不慎,吞吐就掉一半,甚至出现死锁或任务丢失。别迷信“只要用了 atomic 就线程安全”,要逐行核对 acquire/release 配对。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

785

2023.08.22

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

98

2023.09.25

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

98

2023.09.25

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

539

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

21

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

31

2026.01.06

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1180

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

235

2025.10.17

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.2万人学习

Git 教程
Git 教程

共21课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号