0

0

如何在Java中使用集合实现去重

P粉602998670

P粉602998670

发布时间:2025-10-18 10:47:02

|

758人浏览过

|

来源于php中文网

原创

使用HashSet去重是Java中最高效的方式,其原理基于元素的hashCode()和equals()方法;对于自定义对象,必须正确重写这两个方法以确保去重成功,否则会因哈希冲突或比较失效导致重复元素存在。

如何在java中使用集合实现去重

在Java中,要实现集合的去重,最直接且高效的方式就是利用Set接口的实现类,尤其是HashSet。它天生就设计用来存储不重复的元素,其底层机制保证了元素的唯一性。

解决方案

利用HashSet进行去重是Java中最常见且性能优良的实践。其核心在于Set接口的特性:不允许包含重复元素。当你尝试向HashSet中添加一个已经存在的元素时,add()方法会返回false,且不会真的添加该元素。

import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

public class DeduplicationExample {

    public static void main(String[] args) {
        // 示例1: 去重字符串列表
        List stringList = new ArrayList<>();
        stringList.add("Apple");
        stringList.add("Banana");
        stringList.add("Apple"); // 重复
        stringList.add("Orange");
        stringList.add("Banana"); // 重复

        System.out.println("原始字符串列表: " + stringList); // 输出: [Apple, Banana, Apple, Orange, Banana]

        Set uniqueStrings = new HashSet<>(stringList);
        System.out.println("去重后的字符串集合: " + uniqueStrings); // 输出: [Apple, Orange, Banana] (顺序可能不同)

        // 如果需要返回List类型
        List distinctStringList = new ArrayList<>(uniqueStrings);
        System.out.println("去重后的字符串列表 (List): " + distinctStringList); // 输出: [Apple, Orange, Banana] (顺序可能不同)

        System.out.println("--------------------");

        // 示例2: 去重自定义对象列表
        List personList = new ArrayList<>();
        personList.add(new Person("Alice", 30));
        personList.add(new Person("Bob", 25));
        personList.add(new Person("Alice", 30)); // 逻辑上重复,但需要正确实现hashCode和equals
        personList.add(new Person("Charlie", 35));
        personList.add(new Person("Bob", 25)); // 逻辑上重复

        System.out.println("原始Person列表: " + personList);

        Set uniquePersons = new HashSet<>(personList);
        System.out.println("去重后的Person集合: " + uniquePersons);
        // 注意:如果Person类没有正确重写hashCode()和equals(),这里可能不会去重成功
        // 后面会详细讨论这一点
    }
}

class Person {
    String name;
    int age;

    public Person(String name, int age) {
        this.name = name;
        this.age = age;
    }

    // 为了演示去重,这里必须正确重写hashCode()和equals()
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        Person person = (Person) o;
        return age == person.age && name.equals(person.name);
    }

    @Override
    public int hashCode() {
        return name.hashCode() + age; // 简单的组合,实际应用中建议使用Objects.hash()
    }

    @Override
    public String toString() {
        return "Person{" +
               "name='" + name + '\'' +
               ", age=" + age +
               '}';
    }
}

这段代码展示了如何通过将一个包含重复元素的List直接传递给HashSet的构造器来快速完成去重。HashSet在内部会处理元素的唯一性,然后你可以选择将去重后的Set转换回List,如果你的业务逻辑需要。我个人在工作中,遇到大多数去重场景,HashSet几乎是首选,因为它在性能上表现均衡且API简洁。

为什么Set集合能天然实现去重?其底层原理是什么?

Set集合之所以能天然实现去重,其秘密在于它依赖于元素的hashCode()equals()方法。当我们将元素添加到HashSet中时,它会执行以下几个步骤来判断元素是否重复:

立即学习Java免费学习笔记(深入)”;

  1. 计算哈希码 (hashCode()): 首先,HashSet会调用待添加元素的hashCode()方法,计算出一个哈希码。这个哈希码决定了元素在底层哈希表中的存储位置(桶)。
  2. 查找桶位: 根据哈希码找到对应的桶。如果这个桶是空的,那么元素就可以直接放进去,认为是新元素。
  3. 比较 (equals()): 如果桶中已经有元素,HashSet不会直接认为它是重复的。它会遍历桶中的所有元素,并依次调用待添加元素的equals()方法与桶中已存在的每个元素进行比较。
    • 如果equals()方法返回true,则认为该元素已经存在,add()方法返回false,不会再添加。
    • 如果equals()方法对桶中所有元素都返回false,则认为该元素是新元素,将其添加到桶中。

所以,对于自定义对象,正确地重写hashCode()equals()方法至关重要。我见过太多新手开发者,只重写了equals(),而忽略了hashCode(),结果导致HashSet无法正确识别重复对象,这是个非常常见的陷阱。Java规范明确指出:如果两个对象equals()返回true,那么它们的hashCode()也必须返回相同的值。反之则不一定。

除了Set,还有哪些去重方法?各自的适用场景是什么?

当然,除了Set,Java中还有其他几种去重的方法,它们各有优劣,适用于不同的场景:

  1. Java 8 Stream API 的 distinct() 方法:

    • 特点: 这是处理集合去重最简洁、最现代的方式之一,尤其适用于链式操作。它也是基于hashCode()equals()来判断重复的。
    • 适用场景: 当你已经在使用Stream API进行数据处理,或者希望用更函数式、声明式的方式去重时,distinct()是理想选择。它代码量少,可读性高。
    • 示例:
      List names = Arrays.asList("Alice", "Bob", "Alice", "Charlie");
      List distinctNames = names.stream().distinct().collect(Collectors.toList());
      System.out.println("Stream distinct: " + distinctNames); // 输出: [Alice, Bob, Charlie]
    • 我的看法: 对于中小型数据集,或者说当你需要对数据进行一系列转换后再去重时,distinct()非常优雅。但如果仅仅是去重,且数据量极大,HashSet的直接构建可能在某些极端情况下略有优势,因为Stream的管道处理会有一些额外的开销。
  2. 手动遍历并检查 (contains()):

    • 特点: 这种方法通常效率最低,因为它在每次添加新元素时,都需要遍历已去重列表来检查是否存在。Listcontains()方法在底层是线性查找。
    • 适用场景: 极少推荐,除非你的数据量非常小,或者有非常特殊的业务逻辑,比如在添加前需要执行一些复杂的判断,而不仅仅是equals()
    • 示例:
      List original = Arrays.asList("A", "B", "A", "C");
      List unique = new ArrayList<>();
      for (String item : original) {
          if (!unique.contains(item)) { // 每次检查都是O(n)
              unique.add(item);
          }
      }
      System.out.println("手动contains去重: " + unique); // 输出: [A, B, C]
    • 我的看法: 这种方法我几乎不会在生产代码中使用,除非是面试题或者一些教学场景,它展示了去重最原始的逻辑,但性能瓶颈明显。
  3. TreeSet 去重并排序:

    • 特点: TreeSet也是Set接口的实现,它不仅能去重,还能保证元素的自然排序或者根据自定义的Comparator进行排序。
    • 适用场景: 当你需要去重的同时,也希望结果是排序的,TreeSet是最佳选择。
    • 示例:
      List numbers = Arrays.asList(3, 1, 4, 1, 5, 9, 2, 6);
      Set sortedUniqueNumbers = new TreeSet<>(numbers);
      System.out.println("TreeSet去重并排序: " + sortedUniqueNumbers); // 输出: [1, 2, 3, 4, 5, 6, 9]
    • 我的看法: TreeSet的性能开销通常比HashSet略高,因为它需要维护元素的排序。对于自定义对象,你需要确保它实现了Comparable接口,或者在构造TreeSet时提供一个Comparator

处理复杂对象去重时,有哪些潜在的陷阱和最佳实践?

处理自定义(复杂)对象的去重,远比处理基本类型或String要复杂,因为涉及到对象相等性的定义。这里有一些常见的陷阱和我的最佳实践建议:

  1. 未正确重写hashCode()equals():

    新快购物系统
    新快购物系统

    新快购物系统是集合目前网络所有购物系统为参考而开发,不管从速度还是安全我们都努力做到最好,此版虽为免费版但是功能齐全,无任何错误,特点有:专业的、全面的电子商务解决方案,使您可以轻松实现网上销售;自助式开放性的数据平台,为您提供充满个性化的设计空间;功能全面、操作简单的远程管理系统,让您在家中也可实现正常销售管理;严谨实用的全新商品数据库,便于查询搜索您的商品。

    下载
    • 陷阱: 这是最常见也是最致命的错误。如果你的自定义类没有正确重写这两个方法,HashSetStream.distinct()会默认使用Object类的实现,即比较对象的内存地址。这意味着即使两个对象在业务逻辑上是“相同”的(比如两个Person对象拥有相同的nameage),但只要它们是不同的实例,就会被认为是不同的元素。

    • 最佳实践:

      • 始终同时重写hashCode()equals(): 这是Java规范的强制要求。如果equals()返回truehashCode()必须返回相同的值。

      • 基于业务逻辑定义相等性: equals()方法应该根据你的业务需求来判断两个对象是否相等。例如,对于Person对象,可能nameage都相同才算相等。

      • hashCode()的实现要与equals()一致: hashCode()的计算应该基于equals()方法中用到的所有字段。Java 7及以后,可以使用Objects.hash()来简化hashCode()的实现,它能很好地处理null值。

      • 示例 (改进的Person类):

        import java.util.Objects; // 引入Objects类
        
        class Person {
            String name;
            int age;
            // ... (构造函数和toString不变)
        
            @Override
            public boolean equals(Object o) {
                if (this == o) return true;
                if (o == null || getClass() != o.getClass()) return false;
                Person person = (Person) o;
                // 使用Objects.equals处理可能为null的字段
                return age == person.age && Objects.equals(name, person.name);
            }
        
            @Override
            public int hashCode() {
                // 使用Objects.hash()生成哈希码,它会自动处理null字段
                return Objects.hash(name, age);
            }
        }
  2. 可变对象作为Set元素:

    • 陷阱: 如果将一个可变对象(其内部状态在添加到Set后可能会改变)添加到HashSet中,并且其改变影响了hashCode()equals()的结果,那么这个对象在Set中的行为会变得不可预测。你可能无法正确地删除它,或者Set会认为它不再存在,导致逻辑错误。
    • 最佳实践:
      • 优先使用不可变对象作为Set元素: 如果可能,确保作为Set元素的自定义对象是不可变的(所有字段都是final,并且没有提供修改这些字段的方法)。
      • 如果必须使用可变对象,请谨慎: 确保在对象添加到Set之后,任何影响hashCode()equals()结果的字段都不会被修改。如果必须修改,你可能需要先将对象从Set中移除,修改后再重新添加。
  3. 性能考量:hashCode()的分布性:

    • 陷阱: 一个设计糟糕的hashCode()方法可能会导致所有对象的哈希码都相同或非常相似。这会使得HashSet退化成一个链表,每次查找都需要遍历整个链表,导致时间复杂度从O(1)(平均)退化到O(n)(最坏),从而严重影响性能。
    • 最佳实践:
      • 设计一个分布均匀的hashCode(): 好的hashCode()应该让不同对象尽可能产生不同的哈希码,减少哈希冲突。Objects.hash()在这方面做得很好。
      • 避免使用不稳定的字段计算哈希码: 比如,不要用一个频繁变动的计数器字段来计算哈希码。
  4. 使用自定义Comparator进行去重 (与Set略有不同):

    • 陷阱: 有时我们可能希望基于某些特定规则去重,而这些规则并不完全等同于对象的equals()方法。例如,我们可能认为两个Person对象只要name相同就认为是重复的,而忽略ageHashSet无法直接通过Comparator去重。
    • 最佳实践:
      • 如果需要自定义去重逻辑,并且不想修改equals()/hashCode(): 可以考虑使用Stream.collectingAndThen结合Collectors.toCollectionTreeSet,并提供一个自定义的Comparator。但请注意,TreeSet的去重是基于compareTo()(或Comparator.compare())方法返回0来判断相等的。
      • 或者,创建一个包装类: 如果你的去重逻辑与原始对象的equals()/hashCode()不符,可以创建一个包装类,让这个包装类实现你想要的equals()/hashCode()逻辑,然后将包装类对象放入Set中去重。

总的来说,处理复杂对象的去重,核心在于对Java对象相等性契约(hashCode()equals())的深刻理解和正确实现。一旦这两个方法定义清晰且实现无误,那么Set集合和Stream API的distinct()方法就能非常可靠地完成去重任务。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

463

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

237

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

458

2024.03.01

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1155

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

213

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1913

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

22

2026.01.19

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

8

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

8

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 3万人学习

C# 教程
C# 教程

共94课时 | 8万人学习

Java 教程
Java 教程

共578课时 | 53.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号