0

0

Java Stream API:高效处理列表数据,按组合键去重并选择最新记录

DDD

DDD

发布时间:2025-09-12 11:49:00

|

1006人浏览过

|

来源于php中文网

原创

Java Stream API:高效处理列表数据,按组合键去重并选择最新记录

本文详细介绍了如何利用Java Stream API,特别是Collectors.toMap,对包含重复条目的对象列表进行高级过滤。教程将演示如何根据对象的多个字段(如姓名组合)确定唯一性,并在出现重复时,根据特定字段(如日期)选择最新或最符合条件的记录,从而实现数据的高效聚合与筛选。

业务场景与问题描述

在日常的数据处理中,我们经常会遇到需要从一个对象列表中提取唯一记录的场景。然而,这里的“唯一”可能并非指所有字段都完全相同,而是基于某个或某几个特定字段的组合。更进一步,当这些组合字段出现重复时,我们可能需要根据另一个字段(例如时间戳或版本号)来决定保留哪一条记录。

以员工数据为例,假设我们有一个Employee对象列表,其定义如下:

import lombok.Data;
import lombok.AllArgsConstructor;
import java.time.LocalDateTime;

@Data
@AllArgsConstructor
public class Employee {
   private String firstName;
   private String lastName;
   private double salary;
   private LocalDateTime getSalaryDate; // 更改为更具描述性的字段名
}

该列表中可能存在多条记录拥有相同的firstName和lastName,但salary和getSalaryDate(获取薪资的日期)不同。例如:

List<Employee> employees = new ArrayList<>();
employees.add(new Employee("John", "Smith", 10, LocalDateTime.of(2022, 9, 1, 0, 0)));
employees.add(new Employee("John", "Smith", 20, LocalDateTime.of(2022, 10, 1, 0, 0)));
employees.add(new Employee("John", "Smith", 5, LocalDateTime.of(2022, 11, 1, 0, 0)));
employees.add(new Employee("Kelly", "Jones", 12, LocalDateTime.of(2022, 3, 1, 0, 0)));
employees.add(new Employee("Sara", "Kim", 21, LocalDateTime.of(2022, 3, 1, 0, 0)));
employees.add(new Employee("Sara", "Kim", 7, LocalDateTime.of(2022, 7, 1, 0, 0)));

我们的目标是:对于每对唯一的firstName和lastName组合,只保留一条记录,且这条记录必须是getSalaryDate最新的那一条。

期望的输出结果应为:

立即学习Java免费学习笔记(深入)”;

Nanonets
Nanonets

基于AI的自学习OCR文档处理,自动捕获文档数据

下载
  • "John", "Smith", 5, 2022-11-01
  • "Kelly", "Jones", 12, 2022-03-01
  • "Sara", "Kim", 7, 2022-07-01

使用Java Stream API进行高效过滤

Java 8引入的Stream API为处理集合数据提供了强大而灵活的工具。针对上述问题,我们可以利用Collectors.toMap结合自定义的合并函数(merge function)来实现。

核心思路

  1. 生成唯一键: 为了识别firstName和lastName的唯一组合,我们需要将这两个字段组合成一个唯一的键。最简单的方法是字符串拼接。
  2. 映射值: 将原始的Employee对象作为Map的值。
  3. 处理键冲突: 当不同的Employee对象生成了相同的键时(即firstName和lastName相同),Collectors.toMap允许我们提供一个合并函数来决定保留哪个值。在这个函数中,我们将比较两个Employee对象的getSalaryDate,保留日期最新的那个。
  4. 提取结果: 最终,从生成的Map中提取所有的值,即为我们所需的过滤后的Employee列表。

实现步骤与代码示例

import java.time.LocalDateTime;
import java.util.ArrayList;
import java.util.Collection;
import java.util.List;
import java.util.function.Function;
import java.util.stream.Collectors;

public class EmployeeFilterTutorial {

    // Employee 类定义(同上,为了完整性再次列出)
    @Data
    @AllArgsConstructor
    public static class Employee {
        private String firstName;
        private String lastName;
        private double salary;
        private LocalDateTime getSalaryDate;
    }

    public static void main(String[] args) {
        List<Employee> employees = new ArrayList<>();
        employees.add(new Employee("John", "Smith", 10, LocalDateTime.of(2022, 9, 1, 0, 0)));
        employees.add(new Employee("John", "Smith", 20, LocalDateTime.of(2022, 10, 1, 0, 0)));
        employees.add(new Employee("John", "Smith", 5, LocalDateTime.of(2022, 11, 1, 0, 0)));
        employees.add(new Employee("Kelly", "Jones", 12, LocalDateTime.of(2022, 3, 1, 0, 0)));
        employees.add(new Employee("Sara", "Kim", 21, LocalDateTime.of(2022, 3, 1, 0, 0)));
        employees.add(new Employee("Sara", "Kim", 7, LocalDateTime.of(2022, 7, 1, 0, 0)));

        Collection<Employee> filteredEmployees = employees.stream()
                .collect(Collectors.toMap(
                        // Key Mapper: 组合 firstName 和 lastName 作为唯一键
                        employee -> employee.getFirstName() + employee.getLastName(),
                        // Value Mapper: 将 Employee 对象本身作为值
                        Function.identity(),
                        // Merge Function: 处理键冲突,保留 getSalaryDate 最新的 Employee
                        (existingEmployee, newEmployee) -> 
                            existingEmployee.getSalaryDate().isAfter(newEmployee.getSalaryDate()) ? existingEmployee : newEmployee
                ))
                .values(); // 从 Map 中获取所有值,即为过滤后的 Employee 集合

        // 打印结果
        filteredEmployees.forEach(System.out::println);
    }
}

代码解析

  1. employees.stream(): 创建一个Employee对象的流。
  2. collect(Collectors.toMap(...)): 这是核心操作,用于将流中的元素收集到一个Map中。Collectors.toMap有三个参数:
    • keyMapper (employee -> employee.getFirstName() + employee.getLastName()): 这是一个Function,用于从流中的每个元素(Employee对象)中提取键。这里我们将firstName和lastName拼接起来,形成一个字符串作为Map的键。
    • valueMapper (Function.identity()): 这是一个Function,用于从流中的每个元素中提取值。Function.identity()是一个便捷方法,表示将元素本身作为值。
    • mergeFunction ((existingEmployee, newEmployee) -> existingEmployee.getSalaryDate().isAfter(newEmployee.getSalaryDate()) ? existingEmployee : newEmployee): 这是一个BinaryOperator,当keyMapper生成相同的键时(即发生键冲突时),它会被调用来决定保留哪个值。
      • existingEmployee:Map中已经存在的与当前键关联的Employee对象。
      • newEmployee:当前正在处理的、与当前键关联的Employee对象。
      • 我们通过比较它们的getSalaryDate,保留日期更晚(isAfter返回true)的那个Employee对象。
  3. .values(): Collectors.toMap操作完成后,返回的是一个Map<String, Employee>。我们只需要最终过滤后的Employee对象,因此调用.values()方法获取Map中所有值的集合。

运行结果

Employee(firstName=John, lastName=Smith, salary=5.0, getSalaryDate=2022-11-01T00:00)
Employee(firstName=Sara, lastName=Kim, salary=7.0, getSalaryDate=2022-07-01T00:00)
Employee(firstName=Kelly, lastName=Jones, salary=12.0, getSalaryDate=2022-03-01T00:00)

可以看到,输出结果与我们的预期完全一致,对于每个独特的姓名组合,都只保留了拥有最新薪资获取日期的员工记录。

注意事项与扩展

  1. 键的唯一性: 拼接字符串作为键是一种简单有效的方法。对于更复杂的场景,可以考虑自定义一个Pair类或record(Java 16+)来封装多个字段作为键,并确保正确实现其equals()和hashCode()方法。
  2. LocalDateTime的比较: LocalDateTime提供了isAfter()、isBefore()和isEqual()等方法,使得日期时间比较非常直观和安全。
  3. 空值处理: 如果getSalaryDate字段可能为null,则在合并函数中需要额外添加null值检查,以避免NullPointerException。例如:
    (e1, e2) -> {
        if (e1.getSalaryDate() == null) return e2;
        if (e2.getSalaryDate() == null) return e1;
        return e1.getSalaryDate().isAfter(e2.getSalaryDate()) ? e1 : e2;
    }
  4. 性能考量: 对于非常大的数据集,Collectors.toMap通常表现良好,因为它只进行一次遍历。然而,键的生成(尤其是字符串拼接)会产生额外的对象,这在极端性能敏感的场景下可能需要优化。
  5. 选择其他条件: 如果需要选择日期最旧的记录,只需将合并函数中的比较逻辑反转即可:e1.getSalaryDate().isBefore(e2.getSalaryDate()) ? e1 : e2。

总结

通过本教程,我们学习了如何巧妙地运用Java Stream API中的Collectors.toMap,结合自定义的键映射和合并函数,来解决复杂的数据过滤和聚合问题。这种方法不仅代码简洁、可读性强,而且在处理大量数据时表现出良好的性能。掌握这种模式,将大大提升在Java中进行数据处理的效率和灵活性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1031

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1567

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1228

2024.03.22

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.4万人学习

C# 教程
C# 教程

共94课时 | 11.3万人学习

Java 教程
Java 教程

共578课时 | 81.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号