0

0

高效合并两个超长有序列表(仅少数差异项)

心靈之曲

心靈之曲

发布时间:2026-02-08 16:25:45

|

715人浏览过

|

来源于php中文网

原创

高效合并两个超长有序列表(仅少数差异项)

本文介绍如何在python中高效合并两个各含2000万+元素、已排序且仅有少量差异的列表,避免o(n log n)排序开销,通过`heapq.merge`与`dict.fromkeys`实现近线性时间复杂度的去重合并。

当处理规模达千万级以上的有序列表时,常规的 sorted(set(list_1 + list_2)) 或 sorted(set(list_1) | set(list_2)) 方案会严重低效——根本原因在于:
✅ 你已拥有两个严格升序排列的输入列表;
❌ 却仍调用 sorted() 对总计约4000万个元素进行全量排序,时间复杂度为 O(N log N) ≈ O(4×10⁷ × log₂(4×10⁷)),实测耗时50分钟即源于此;
❌ 同时,set() 构造过程不仅丢失顺序,还需对全部元素哈希、判重、重新分配内存,进一步加剧开销。

真正高效的解法应尊重输入的有序性,采用归并(merge)思想:

✅ 推荐方案:heapq.merge + dict.fromkeys

import heapq

# 假设 list_1 和 list_2 均为升序、元素可哈希(如 str/int)
combined = list(dict.fromkeys(heapq.merge(list_1, list_2)))
  • heapq.merge(list_1, list_2):以 O(N) 时间复杂度流式归并两个有序序列(类似归并排序中的“合并”步骤),输出一个惰性迭代器,不一次性加载全部数据到内存;
  • dict.fromkeys(...):利用 Python 3.7+ 中 dict 保持插入顺序的特性,实现稳定去重(保留首次出现位置),时间复杂度 O(N),且比 set() + sorted() 更轻量;
  • list(...):最终转为列表(若后续需随机访问)。
? 示例验证:list_1 = ['a', 'b', 'c', 'x'] list_2 = ['a', 'b', 'd', 'y'] combined = list(dict.fromkeys(heapq.merge(list_1, list_2))) # → ['a', 'b', 'c', 'd', 'x', 'y']

⚠️ 关键注意事项

  • 输入必须严格有序:heapq.merge 不校验顺序,若输入乱序,结果将错误;
  • 元素需可哈希:dict.fromkeys 要求键值可哈希(常见类型如 str, int, tuple 等均满足);
  • 内存友好性:heapq.merge 返回迭代器,dict.fromkeys 逐个消费,整体内存占用远低于构造完整 set 或临时大列表;
  • 无需额外安装依赖:纯标准库方案,零第三方依赖。

? 性能对比(估算)

方法 时间复杂度 实测典型耗时(2000万级) 内存峰值
sorted(set(list_1 + list_2)) O(N log N) ~50 分钟 极高(临时列表 + set)
heapq.merge + dict.fromkeys O(N) 低(流式处理 + 单次遍历)

✅ 进阶建议(超大规模场景)

若列表过大导致单机内存仍紧张,可考虑:

Zeemo AI
Zeemo AI

一款专业的视频字幕制作和视频处理工具

下载
  • 使用生成器分块处理(如每次归并100万项后写入磁盘);
  • 利用 itertools.islice 流式截取结果前N项(如只需Top-K);
  • 对于不可哈希元素(如嵌套字典),改用 itertools.groupby 配合 sorted(..., key=...) 归并后去重(需自定义键函数)。

综上,善用输入的有序性是性能跃迁的关键。抛弃“先拼接、再去重、最后排序”的惯性思维,转向 merge → dedupe 的流式范式,即可将数十分钟任务压缩至秒级,同时显著降低资源消耗。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

708

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

561

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

193

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

206

2025.08.29

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

6

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法
雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式,涵盖账号登录流程、官方直连入口及平台访问方法说明,帮助师生用户快速进入雨课堂在线教学平台,实现便捷、高效的课程学习与教学管理体验。

4

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法
豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式,涵盖智能写作工具、图片生成体验入口和官网登录方法,帮助用户快速直达豆包AI平台,高效完成文本创作与AI生图任务,实现便捷智能创作体验。

74

2026.02.12

PostgreSQL性能优化与索引调优实战
PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师,深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析,帮助开发者提升数据库响应速度与系统稳定性。

9

2026.02.12

Next.js全栈开发与SSR服务端渲染实战
Next.js全栈开发与SSR服务端渲染实战

本专题系统讲解 Next.js 框架在现代全栈开发中的应用,重点解析 SSR、SSG 与 ISR 渲染模式的原理与差异。内容涵盖路由系统、API Routes、数据获取策略、性能优化以及部署实践。通过完整项目示例,帮助开发者掌握高性能 SEO 友好的 React 全栈开发方案。

3

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号