0

0

C++怎么实现一个水塘抽样算法_C++大数据流随机抽样问题

下次还敢

下次还敢

发布时间:2025-11-22 08:27:07

|

208人浏览过

|

来源于php中文网

原创

水塘抽样算法能从未知长度数据流中等概率抽取k个样本。初始化大小为k的数组存储前k个元素,第i个后续元素以k/i概率入池并随机替换旧元素,确保最终每个元素被选概率均为k/N。

c++怎么实现一个水塘抽样算法_c++大数据流随机抽样问题

水塘抽样(Reservoir Sampling)是一种用于从大量或未知长度的数据流中随机抽取样本的算法。特别适合处理无法一次性加载进内存的大数据流场景。C++实现时,核心是使用一个固定大小的“水塘”数组,并在遍历过程中动态维护样本的均匀性。

基本原理:如何保证等概率

假设要从数据流中随机选取 k 个元素,且每个元素被选中的概率相等。算法的关键在于:当读取到第 n 个元素时(n ≥ k),以 k/n 的概率决定是否将其放入水塘。若放入,则随机替换水塘中的一个已有元素。

这样能确保在整个流程结束后,每个元素出现在最终样本中的概率都是 k/N(N为总数量)。

单样本水塘抽样(k=1)

适用于只需抽取一个元素的场景,空间复杂度 O(1),时间复杂度 O(n)。

遍历时,对第 i 个元素,以 1/i 的概率保留它作为当前结果。

星辰Agent
星辰Agent

科大讯飞推出的智能体Agent开发平台,助力开发者快速搭建生产级智能体

下载

立即学习C++免费学习笔记(深入)”;

#include 
#include 

int reservoirSamplingSingle() {
    int reservoir = 0;
    int i = 1;
    int num;

    srand(time(nullptr));

    while (std::cin >> num) { // 假设输入是数据流
        if (rand() % i == 0) {
            reservoir = num;
        }
        ++i;
    }

    return reservoir;
}

多样本水塘抽样(k > 1)

抽取 k 个不同元素,需维护大小为 k 的数组。

前 k 个元素直接存入水塘;从第 k+1 个元素开始,对第 i 个元素,生成 [0, i) 范围内的随机数 j,如果 j

#include 
#include 
#include 
#include 

std::vector reservoirSamplingMultiple(int k) {
    std::vector reservoir(k);
    int num;
    int i = 0;

    srand(time(nullptr));

    // 前 k 个元素直接填入
    while (i < k && std::cin >> num) {
        reservoir[i++] = num;
    }

    // 处理后续元素
    int count = k;
    while (std::cin >> num) {
        ++count;
        int j = rand() % count;
        if (j < k) {
            reservoir[j] = num;
        }
    }

    return reservoir;
}

使用建议与注意事项

实际应用中注意以下几点:

  • 确保随机数生成器已正确初始化(如使用 srand 或 C++11 的 random 库更佳)
  • 对于重复调用场景,避免频繁重置随机种子
  • 若需更高精度随机性,推荐使用 头文件中的分布类
  • 数据流可以是文件、网络包、传感器输入等任意顺序源
  • 算法不要求知道总长度,适合实时处理
基本上就这些。水塘抽样结构简单但逻辑精巧,是处理大数据随机抽样的经典解法。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

404

2023.08.14

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

470

2024.06.04

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

56

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

50

2026.01.21

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

396

2026.01.21

妖精漫画入口地址合集
妖精漫画入口地址合集

本专题整合了妖精漫画入口地址合集,阅读专题下面的文章了解更多详细内容。

118

2026.01.21

java版本选择建议
java版本选择建议

本专题整合了java版本相关合集,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 7.3万人学习

C 教程
C 教程

共75课时 | 4.2万人学习

C++教程
C++教程

共115课时 | 13.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号