0

0

使用 Java Stream 高效实现按属性分组并获取最大值映射

DDD

DDD

发布时间:2025-11-25 14:34:12

|

836人浏览过

|

来源于php中文网

原创

使用 java stream 高效实现按属性分组并获取最大值映射

本文深入探讨如何利用 Java Stream API 优雅地解决数据处理中常见的“按属性分组并获取最大值”问题。通过对比 groupingBy 与 toMap 的不同实现,重点介绍 Collectors.toMap 结合 BinaryOperator.maxBy 的高效与简洁方案,实现从列表到目标映射的直接转换,从而提升代码可读性和执行效率。

在日常的数据处理任务中,我们经常会遇到需要对一个对象集合进行分组,并从每个分组中选出满足特定条件的单个元素(例如最大值、最小值或最新记录)的需求。Java 8 引入的 Stream API 提供了一种声明式且高效的方式来处理这类场景,极大地简化了代码。

问题描述与数据模型

假设我们有一个 StudentGrade 类,它记录了学生的成绩信息,包含学生ID、成绩值和记录日期。我们的目标是从一个 StudentGrade 对象的列表中,为每个学生找出其最高成绩记录,并将结果以 Map<Integer, StudentGrade> 的形式返回,其中键是 studentId,值是该学生的最高成绩 StudentGrade 对象。

以下是 StudentGrade 类的定义:

立即学习Java免费学习笔记(深入)”;

import java.util.Date;
import java.util.Objects;

public class StudentGrade {
    private int studentId;
    private double value;
    private Date date; // 记录日期,本例中不用于比较,但可用于其他场景

    public StudentGrade(int studentId, double value, Date date) {
        this.studentId = studentId;
        this.value = value;
        this.date = date;
    }

    public int getStudentId() {
        return studentId;
    }

    public double getValue() {
        return value;
    }

    public Date getDate() {
        return date;
    }

    @Override
    public String toString() {
        return "StudentGrade{" +
               "studentId=" + studentId +
               ", value=" + value +
               ", date=" + date +
               '}';
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        StudentGrade that = (StudentGrade) o;
        return studentId == that.studentId &&
               Double.compare(that.value, value) == 0 &&
               Objects.equals(date, that.date);
    }

    @Override
    public int hashCode() {
        return Objects.hash(studentId, value, date);
    }
}

传统分组与聚合方案:groupingBy 结合 maxBy

一种直观的解决方案是首先使用 Collectors.groupingBy 按 studentId 进行分组,然后对每个分组应用 Collectors.maxBy 收集器来找出最大值。这种方法会产生一个 Map<Integer, Optional<StudentGrade>>,因为 maxBy 的结果是 Optional 类型(以防分组为空)。最后,我们需要遍历这个 Map 来提取 Optional 中的值并构建最终的 Map<Integer, StudentGrade>。

import java.util.*;
import java.util.stream.Collectors;

public class GradeProcessor {

    /**
     * 使用 Collectors.groupingBy 和 Collectors.maxBy 获取每个学生的最高成绩
     * @param grades 学生成绩列表
     * @return 包含每个学生最高成绩的映射
     */
    public Map<Integer, StudentGrade> getMaxGradeByStudentUsingGroupingBy(List<StudentGrade> grades) {
        // 1. 按 studentId 分组,并找出每个组中 value 最大的 StudentGrade,结果为 Optional
        Map<Integer, Optional<StudentGrade>> maxGradesOptional = grades.stream().collect(
            Collectors.groupingBy(
                StudentGrade::getStudentId, // 根据 studentId 分组
                Collectors.maxBy(Comparator.comparing(StudentGrade::getValue))) // 找出每个组中 value 最大的元素
        );

        // 2. 遍历 Optional 结果,将其转换为最终的 Map
        Map<Integer, StudentGrade> finalGrades = new HashMap<>();
        maxGradesOptional.forEach((studentId, optionalGrade) ->
            optionalGrade.ifPresent(grade -> finalGrades.put(studentId, grade))
        );
        return finalGrades;
    }
}

这种方法虽然可行,但存在以下几点不足:

PPT.AI
PPT.AI

AI PPT制作工具

下载
  1. 中间 Optional 类型:Collectors.maxBy 返回 Optional<T>,需要额外的处理来解包。
  2. 额外的 Map 转换:需要初始化一个新的 HashMap 并遍历中间结果来构建最终的 Map,不够简洁。
  3. 不够“流式”:希望能够一步到位地通过 Stream 操作直接得到目标 Map。

优化方案:利用 Collectors.toMap 的合并函数

Java Stream API 提供了 Collectors.toMap 的一个重载版本,它接受三个参数:keyMapper、valueMapper 和 mergeFunction。这个 mergeFunction 参数正是解决键冲突的关键,它允许我们在多个元素映射到同一个键时,自定义如何合并这些元素。

其签名如下: public static <T, K, U> Collector<T, ?, Map<K, U>> toMap(Function<? super T, ? extends K> keyMapper, Function<? super T, ? extends U> valueMapper, BinaryOperator<U> mergeFunction)

  • keyMapper:一个函数,用于从输入元素中提取 Map 的键。
  • valueMapper:一个函数,用于从输入元素中提取 Map 的值。
  • mergeFunction:一个 BinaryOperator,当两个或多个输入元素映射到同一个键时,它定义了如何合并它们的值。

我们可以利用 mergeFunction 来实现“在遇到重复键时选择值最大的元素”的逻辑。BinaryOperator.maxBy() 结合一个 Comparator 可以完美地实现这一点。

import java.util.*;
import java.util.function.BinaryOperator;
import java.util.function.Function;
import java.util.stream.Collectors;

public class GradeProcessor {

    /**
     * 使用 Collectors.toMap 和 BinaryOperator.maxBy 高效获取每个学生的最高成绩
     * @param grades 学生成绩列表
     * @return 包含每个学生最高成绩的映射
     */
    public Map<Integer, StudentGrade> getMaxGradeByStudentOptimized(List<StudentGrade> grades) {
        return grades.stream()
                .collect(Collectors.toMap(
                    StudentGrade::getStudentId, // keyMapper: 提取 studentId 作为 Map 的键
                    Function.identity(),        // valueMapper: 元素本身 (StudentGrade 对象) 作为 Map 的值
                    // mergeFunction: 当遇到重复的 studentId 时,选择 value 最大的 StudentGrade 对象
                    BinaryOperator.maxBy(Comparator.comparing(StudentGrade::getValue))
                ));
    }
}

代码解析:

  1. StudentGrade::getStudentId:这是 keyMapper,它告诉 toMap 使用 StudentGrade 对象的 studentId 属性作为 Map 的键。
  2. Function.identity():这是 valueMapper,它表示将 StudentGrade 对象本身作为 Map 的值。
  3. BinaryOperator.maxBy(Comparator.comparing(StudentGrade::getValue)):这是 mergeFunction,它是这个解决方案的核心。
    • Comparator.comparing(StudentGrade::getValue) 创建了一个比较器,用于比较两个 StudentGrade 对象的 value 属性。
    • BinaryOperator.maxBy() 基于这个比较器,返回一个 BinaryOperator,它会在两个元素发生冲突时,选择比较结果更大的那个元素。在这里,就是选择 value 更大的 StudentGrade 对象。

通过这种方式,Stream API 会自动处理分组和聚合逻辑,当多个 StudentGrade 对象拥有相同的 studentId 时,mergeFunction 会确保只有 value 最大的那个对象被保留在最终的 Map 中。

完整示例与测试

为了更好地理解和验证上述两种方法,我们提供一个完整的测试用例:

import java.util.*;
import java.util.function.BinaryOperator;
import java.util.function.Function;
import java.util.stream.Collectors;

public class GradeProcessor {

    // StudentGrade 类定义如上所示

    public Map<Integer, StudentGrade> getMaxGradeByStudentUsingGroupingBy(List<StudentGrade> grades) {
        Map<Integer, Optional<StudentGrade>> maxGradesOptional = grades.stream().collect(
            Collectors.groupingBy(
                StudentGrade::getStudentId,
                Collectors.maxBy(Comparator.comparing(StudentGrade::getValue)))
        );

        Map<Integer, StudentGrade> finalGrades = new HashMap<>();
        maxGradesOptional.forEach((studentId, optionalGrade) ->
            optionalGrade.ifPresent(grade -> finalGrades.put(studentId, grade))
        );
        return finalGrades;
    }

    public Map<Integer, StudentGrade> getMaxGradeByStudentOptimized(List<StudentGrade> grades) {
        return grades.stream()
                .collect(Collectors.toMap(
                    StudentGrade::getStudentId,
                    Function.identity(),
                    BinaryOperator.maxBy(Comparator.comparing(StudentGrade::getValue))
                ));
    }

    public static void main(String[] args) {
        List<StudentGrade> grades = Arrays.asList(
            new StudentGrade(101, 85.0, new Date(123, 0, 1)),
            new StudentGrade(102, 92.5, new Date(123, 0, 2)),
            new StudentGrade(101, 90.0, new Date(123, 0, 3)), // 学生101的更高成绩
            new StudentGrade(103, 78.0, new Date(123, 0, 4)),
            new StudentGrade(102, 88.0, new Date(123, 0, 5)), // 学生102的较低成绩
            new StudentGrade(101, 88.0, new Date(123, 0, 6)), // 学生101的次高成绩
            new StudentGrade(103, 95.0, new Date(123, 0, 7))  // 学生103的更高成绩
        );

        GradeProcessor processor = new GradeProcessor();

        System.out.println("--- 使用 groupingBy + maxBy ---");
        Map<Integer, StudentGrade> result1 = processor.getMaxGradeByStudentUsingGroupingBy(grades);
        result1.forEach((id, grade) -> System.out.println("Student ID: " + id + ", Max Grade: " + grade));
        // 预期输出:
        // Student ID: 101, Max Grade: StudentGrade{studentId=101, value=90.0, date=Wed Jan 03 00:00:00 CST 2023}
        // Student ID: 102, Max Grade: StudentGrade{studentId=102, value=92.5, date=Tue Jan 02 00:00:00 CST 2023}
        // Student ID: 103, Max Grade: StudentGrade{studentId=103, value=95.0, date=Sat Jan 07 00:00:00 CST 2023}

        System.out.println("\n--- 使用 toMap + BinaryOperator.maxBy (优化方案) ---");
        Map<Integer, StudentGrade> result2 = processor.getMaxGradeByStudentOptimized(grades);
        result2.forEach((id, grade) -> System.out.println("Student ID: " + id + ", Max Grade: " + grade));
        // 预期输出与方法一相同,但代码更简洁
    }
}

注意事项与最佳实践

  1. mergeFunction 的选择:BinaryOperator 接口提供了 maxBy 和 minBy 等静态工厂方法,它们在处理冲突时非常方便。如果需要更复杂的合并逻辑,可以自定义 BinaryOperator 的 Lambda 表达式。
  2. Function.identity():当 Map 的值就是 Stream 中的元素本身时,使用 Function.identity() 比 x -> x 更简洁且具有更好的可读性。
  3. 处理空列表:如果输入的 grades 列表为空,两种方法都会返回一个空的 Map,不会抛出异常。
  4. 性能考量:对于大规模数据集,Stream API 通常表现良好,其内部优化可以并行处理。toMap 的三参数版本通常比先 groupingBy 再转换更高效,因为它避免了创建中间的 Optional 集合和额外的 Map 迭代。
  5. 空值处理:如果 StudentGrade 的 value 字段可能为 null,并且 Comparator.comparing 可能会抛出 NullPointerException,你需要确保 value 不为 null,或者提供一个能够处理 null 值的自定义 Comparator。
  6. 确定性:如果存在多个学生成绩具有相同的最大值,BinaryOperator.maxBy 的行为是选择 Stream 中遇到的最后一个具有最大值的元素。如果需要特定规则(例如选择日期最新的那个),则需要调整 Comparator。

总结

通过本文的探讨,我们了解到在 Java Stream API 中,利用 Collectors.toMap 的三参数版本结合 BinaryOperator.maxBy(或 minBy)是实现“按属性分组并获取最大/最小值”这类需求的最佳实践。这种方法不仅代码简洁、可读性强,而且避免了中间 Optional 对象的处理和额外的 Map 转换步骤,从而提高了代码的优雅性和执行效率。在未来的 Java 数据处理任务中,强烈推荐优先考虑这种流式且高效的解决方案。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

215

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

192

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

61

2026.01.05

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1948

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

658

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2401

2025.12.29

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.4万人学习

C# 教程
C# 教程

共94课时 | 11.3万人学习

Java 教程
Java 教程

共578课时 | 81.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号