0

0

Java如何实现多线程分批处理 Java大批量数据多线程处理【方案】

幻夢星雲

幻夢星雲

发布时间:2026-02-15 11:43:02

|

758人浏览过

|

来源于php中文网

原创

应按批次(如500条)而非单条提交任务,避免线程池队列堆积和oom;每批独立try-catch+completablefuture隔离异常;db写入时每批串行、禁用共享事务,配合连接池与数据库上限匹配。

java如何实现多线程分批处理 java大批量数据多线程处理【方案】

为什么不能直接用 ExecutorService 提交上万个小任务

直接把 10 万条数据拆成 10 万个 Runnable 丢给 Executors.newFixedThreadPool(10),看似合理,实则危险:线程池队列会堆积大量待执行任务,内存暴涨,GC 压力大,甚至 OutOfMemoryError: GC overhead limit exceeded。这不是并发问题,是资源误配。

真正可行的思路是「控制并发粒度」——不是每条记录一个任务,而是每批(如 500 条)为一个任务单元。

  • 批大小建议在 100–2000 之间,具体看单条处理耗时和内存占用;IO 密集型可稍大,CPU 密集型宜小
  • Lists.partition(list, batchSize)(来自 Guava)或手写循环切分,避免中间生成大量子列表对象
  • 提交的是 RunnableCallable<list>></list>,不是单个元素

如何安全地切分并提交批次任务(含异常隔离)

切分本身不难,但关键在于:某一批失败,不能导致整个流程中断;也不能让异常吞没,丢失上下文。

推荐用 CompletableFuture + 批次封装,每个批次独立 try-catch:

立即学习Java免费学习笔记(深入)”;

DeepL
DeepL

DeepL是一款强大的在线AI翻译工具,可以翻译31种不同语言的文本,并可以处理PDF、Word、PowerPoint等文档文件

下载
List<List<Data>> batches = Lists.partition(dataList, 500);
List<CompletableFuture<List<Result>>> futures = new ArrayList<>();
for (List<Data> batch : batches) {
    futures.add(CompletableFuture.supplyAsync(() -> {
        try {
            return processBatch(batch); // 自定义处理逻辑
        } catch (Exception e) {
            log.error("batch failed, size={}", batch.size(), e);
            throw new RuntimeException("batch execution failed", e); // 不吞异常
        }
    }, executor));
}
// 等待全部完成(或超时),聚合结果
List<Result> allResults = futures.stream()
    .map(CompletableFuture::join)
    .flatMap(List::stream)
    .collect(Collectors.toList());
  • 不要用 future.get(),它会阻塞并抛出 ExecutionException,包装层级深;join() 更简洁,异常原样抛出
  • 如果某批失败,join() 会直接抛异常,可在外层捕获并决定是否继续(比如跳过该批、记录失败 ID、重试等)
  • 务必传入自定义 executor,别用默认 ForkJoinPool,避免干扰主线程池

数据库写入场景下怎么避免连接/事务爆掉

多线程并发写 DB 是高频雷区:连接池耗尽、死锁、唯一约束冲突、事务过长回滚慢。

核心原则:每个批次内部串行执行 DB 操作,批次之间可并行;禁止单批次开多个事务。

  • 每个 processBatch() 方法内,复用同一个 ConnectionJdbcTemplate,用批量 API:jdbcTemplate.batchUpdate(sql, batchArgs)
  • Spring 环境下,确保该方法**不在 @Transactional 注解的方法内部被调用**,否则所有批次共享同一事务,极易超时或锁表
  • 若必须事务控制,改为每个批次单独声明事务:@Transactional(propagation = Propagation.REQUIRES_NEW),但注意传播行为对性能的影响
  • PostgreSQL/MySQL 要留意 max_connections 和连接池 maxActive,线程数 × 单批次最大连接数 ≤ 数据库允许上限

怎么监控进度和应对中途失败

跑 2 小时的大任务,没人想黑屏等结果。进度不可见 + 失败无恢复点 = 运维噩梦。

最轻量做法:用 AtomicInteger 记录已完成批次,配合日志输出:

AtomicInteger completed = new AtomicInteger(0);
for (List<Data> batch : batches) {
    futures.add(CompletableFuture.runAsync(() -> {
        processBatch(batch);
        int curr = completed.incrementAndGet();
        if (curr % 10 == 0) { // 每 10 批打一次日志
            log.info("Progress: {}/{}", curr, batches.size());
        }
    }, executor));
}
  • 别用 System.out.println,它不是线程安全的,且无法被日志系统捕获
  • 如果需要断点续跑,得把「已处理批次的起始索引」持久化到 DB 或文件,重启时跳过已成功部分;注意幂等性设计,避免重复写入
  • 慎用 CountDownLatch 做进度同步——它只适合等待结束,不反映中间状态;真要实时进度,考虑暴露一个 HTTP 接口返回 completed.get()

批次划分和异常边界对齐,比线程数调优重要得多;很多人卡在“为什么加了 20 个线程反而更慢”,其实问题从来不在并发数,而在任务粒度和资源争用没理清。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

963

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

334

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

375

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1676

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

370

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1232

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

583

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

434

2024.04.29

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

145

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 3.6万人学习

C# 教程
C# 教程

共94课时 | 9.5万人学习

Java 教程
Java 教程

共578课时 | 66.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号