0

0

如何在集合中实现高效的随机采样_Collections.shuffle与随机索引选择

P粉602998670

P粉602998670

发布时间:2026-02-24 15:55:48

|

822人浏览过

|

来源于php中文网

原创

collections.shuffle() 不适合小样本采样,因其需 o(n) 时间打乱全部元素,而实际只需 o(k);推荐根据场景选用 threadlocalrandom.ints().distinct().limit(k) 或蓄水池算法。

如何在集合中实现高效的随机采样_collections.shuffle与随机索引选择

为什么 Collections.shuffle() 不适合小样本随机采样

它会完整打乱整个集合,哪怕你只要 3 个元素,也得对 10 万条数据做 O(n) 洗牌——时间和空间开销都浪费在多余操作上。

常见错误现象:shuffle(list); return list.subList(0, k); 在大数据量下明显卡顿,GC 压力大;并发环境下还可能因修改原集合引发意外副作用。

  • 适用场景:需要全部重排、或后续还要用完整乱序结果
  • 不适用场景:仅取 k 个不重复随机项(尤其 k ≪ n)
  • 性能影响:时间复杂度从 O(k) 恶化为 O(n),内存额外占用 O(n)

Random.nextInt() 配合 Set 去重的陷阱

很多人直接写循环 + nextInt(n) + Set.add(),看似简单,但当 k 接近 n 时,碰撞概率飙升,实际运行时间可能指数级增长。

比如从 1000 个元素里抽 990 个,后期每次生成新索引平均要试 10+ 次才能成功。

  • 容易踩的坑:没设最大重试次数,极端情况陷入长循环甚至死循环
  • 兼容性没问题,但不可控的延迟会让接口响应抖动
  • 正确做法是加一个 fallback:当重试超过 k * 2 次,自动切到 shuffle 路径

推荐方案:ReservoirSampling 适合流式或未知长度场景

如果你的数据来自数据库游标、文件逐行读取、或 API 分页流,根本不知道总长度,那就别硬算 size——蓄水池算法天然适配。

Img.Upscaler
Img.Upscaler

免费的AI图片放大工具

下载

它只需遍历一次,内存固定 O(k),且概率严格均匀。Java 里没有内置,但实现就 10 行左右:

Random r = new Random();
List<T> reservoir = new ArrayList<>(k);
for (int i = 0; i < k && it.hasNext(); i++) {
    reservoir.add(it.next());
}
for (int i = k; it.hasNext(); i++) {
    T item = it.next();
    int j = r.nextInt(i + 1);
    if (j < k) reservoir.set(j, item);
}
  • 使用场景:数据不可随机访问、长度未知、或内存受限
  • 注意点:i 必须从 0 开始计数,且 r.nextInt(i + 1) 不能写成 r.nextInt(i)
  • 性能稳定:O(n) 时间,O(k) 空间,无碰撞风险

已知长度时最简可靠的写法:ThreadLocalRandom.current().ints()

JDK 8+ 提供了真正为并发优化的随机源,配合 distinct()limit(),一行就能搞定小样本无放回采样:

List<String> sample = list.stream()
    .map((s, i) -> i)
    .collect(Collectors.toList())
    .stream()
    .mapToLong(i -> ThreadLocalRandom.current().nextLong(list.size()))
    .distinct()
    .limit(k)
    .mapToObj(list::get)
    .collect(Collectors.toList());

等等——上面那段其实不对,mapToLong 后没法再 distinct 索引再映射……真实可用的是这个:

int n = list.size();
List<Integer> indices = ThreadLocalRandom.current()
    .ints(0, n)
    .distinct()
    .limit(k)
    .boxed()
    .collect(Collectors.toList());
List<String> sample = indices.stream().map(list::get).collect(Collectors.toList());
  • 关键点:ints(0, n) 生成的是 [0, n) 区间整数,不是 nextLong(n)
  • 为什么用 ThreadLocalRandom:避免多线程争用 Random 全局锁
  • 限制:k 接近 n 时仍可能变慢,但 JDK 会自动优化 distinct() 的底层实现,比手写 while 循环更稳

实际用的时候,别光看“简洁”,先想清楚你的数据规模、是否复用、是否并发——k 小就用随机索引,k 大就 shuffle,流式就上蓄水池。边界条件比算法本身更容易出错。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

103

2023.09.25

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1630

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

485

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2304

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

40

2026.01.19

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

719

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

371

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

27

2026.01.21

Golang 性能优化专题:提升应用效率
Golang 性能优化专题:提升应用效率

《Golang 性能优化专题》聚焦 Go 应用在高并发与大规模服务中的性能问题,从 profiling、内存分配、Goroutine 调度、GC 机制到 I/O 与锁竞争逐层分析。结合真实案例讲解定位瓶颈的方法与优化策略,帮助开发者建立系统化性能调优思维,在保证代码可维护性的同时显著提升服务吞吐与稳定性。

0

2026.02.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号