Python中基于相邻上下文的列表数据聚合技巧

DDD

发布时间：2025-10-12 09:07:12

580人浏览过

来源于php中文网

原创

Python中基于相邻上下文的列表数据聚合技巧

本文探讨了如何在处理嵌套列表数据时，根据相邻上下文条件进行数据聚合。针对传统方法将所有相同描述的数据合并的问题，我们提出了一种利用`defaultdict`和索引跟踪的策略，仅合并在相邻“井”（或上下文单元）中出现相同描述的数据。这种方法有效解决了需要区分连续性聚合与全局聚合的场景，生成更符合业务逻辑的分割结果。

在数据处理和分析中，我们经常需要对数据进行分组和聚合。然而，有时业务逻辑要求我们不仅仅是简单地按某个键值进行全局聚合，而是要考虑数据在序列中的“相邻”或“连续”性。例如，在一个包含多个“井”数据（每个井又包含多个地层描述及其深度范围）的场景中，我们可能需要将相同地层描述的深度范围合并起来，但前提是这些地层描述在“相邻”的井中也保持连续性，或者在同一个井内是连续的。

传统聚合方法的局限性

考虑以下数据结构，它表示了多个井的地层信息：

wells = [
    [
        [0, 4, 'earth'],
        [4, 8, 'suglinok'],
        [8, 20, 'gravel'],
    ],
    [
        [0, 4, 'earth'],
        [4, 8, 'suglinok'],
        [8, 20, 'sand'],
    ],
    [
        [0, 4, 'earth'],
        [4, 16, 'suglinok'],
        [16, 24, 'gravel'],
    ]
]

如果采用传统的全局聚合方法，例如遍历所有地层描述，然后将所有相同描述的深度范围（[start, end]）收集起来，我们会得到类似这样的结果：

earth: [0, 4], [0, 4], [0, 4]
suglinok: [4, 8], [4, 8], [4, 16]
gravel: [8, 20], [16, 24]
sand: [8, 20]

这种方法将所有earth的深度范围都聚合到一起，所有suglinok的深度范围也聚合到一起。然而，如果业务需求是只合并那些在“相邻”上下文中出现的相同描述，那么这种全局聚合方式就无法满足要求。例如，gravel在第一个井中是[8, 20]，在第三个井中是[16, 24]。虽然它们描述相同，但它们分别属于不同的井，且中间隔了一个井（第二个井没有gravel），因此它们不应被视为一个连续的聚合块。我们期望的输出应能区分这些非连续的块。

立即学习“Python免费学习笔记（深入）”；

核心思路：基于上下文的连续性判断

为了实现基于相邻上下文的聚合，我们需要引入一个机制来判断当前处理的地层描述是否与前一个上下文单元（即前一个井）中的相同描述是连续的。如果不是连续的，那么就应该为当前的地层描述开启一个新的聚合段。

具体到wells这个例子，我们的“上下文单元”就是单个的“井”。因此，我们需要：

Programming Helper

AI代码自动生成器，在AI的帮助下更快地编程

下载

记录每个地层描述在哪些井中出现过。
当处理某个井中的地层描述时，检查该描述是否在“前一个井”中也出现过。
如果该描述没有在“前一个井”中出现，则认为这是一个新的连续块的开始。

解决方案实现

我们可以使用collections.defaultdict来高效地实现这个逻辑。defaultdict在访问不存在的键时会自动创建一个默认值，这在收集数据时非常方便。

from collections import defaultdict

# 用于存储最终按描述和连续性分组的深度范围
points_by_description = defaultdict(list)
# 用于跟踪每个描述在哪些井中出现过，以判断连续性
descriptionInWell = defaultdict(set)

# 遍历每个井及其索引
for wellIdx, well in enumerate(wells):
    # 遍历当前井中的每个地层点
    for start, end, description in well:
        # 记录当前描述出现在当前井中
        descriptionInWell[description].add(wellIdx)

        # 判断当前描述是否与前一个井中的相同描述连续
        # 如果 wellIdx-1 不在 descriptionInWell[description] 中，
        # 意味着当前描述在紧邻的前一个井中没有出现，因此这是一个新的连续段。
        # 对于第一个井 (wellIdx=0)，wellIdx-1 = -1，-1 不可能在任何 wellIdx 集合中，
        # 所以第一个井的每个描述都会自然地开始一个新的段。
        if not (wellIdx - 1 in descriptionInWell[description]):
            points_by_description[description].append([]) # 开启一个新的列表来存储这个连续段的深度范围

        # 将当前的 [start, end] 深度范围添加到当前描述的最后一个（即最新开启的）连续段中
        points_by_description[description][-1].extend([start, end])

# 输出结果
for description, pointLists in points_by_description.items():
    print(f"Description: {description}")
    for points in pointLists:
        # 遍历每个连续段中的深度范围，并按 [start, end] 格式打印
        for i in range(0, len(points), 2):
            print([points[i], points[i + 1]], end=" ")
        print()

代码解析：

points_by_description = defaultdict(list): 这是一个字典，键是地层描述（如'earth'），值是一个列表。这个列表的每个元素又是一个列表，代表一个连续的深度范围聚合段。例如，points_by_description['gravel'] 可能像 [[8, 20], [16, 24]] 这样，其中 [8, 20] 是第一个连续段，[16, 24] 是第二个。
descriptionInWell = defaultdict(set): 这是一个字典，键是地层描述，值是一个集合。这个集合存储了该描述出现过的所有井的索引（wellIdx）。例如，descriptionInWell['earth'] 会是 {0, 1, 2}，表示'earth'在所有三个井中都出现了。
for wellIdx, well in enumerate(wells):: 使用enumerate可以同时获取井的索引和井的数据，这对于判断相邻性至关重要。
descriptionInWell[description].add(wellIdx): 每次遇到一个描述，就将其所在的井的索引添加到对应的集合中。
if not (wellIdx - 1 in descriptionInWell[description]):: 这是核心的连续性判断逻辑。
- wellIdx - 1 代表前一个井的索引。
- descriptionInWell[description] 包含了所有出现过当前description的井的索引。
- 如果wellIdx - 1不在这个集合中，说明当前description并没有在紧邻的前一个井中出现。这意味着当前的description开始了新的一个连续块。
- 对于第一个井（wellIdx = 0），wellIdx - 1 是 -1。由于-1永远不会是有效的井索引，所以(-1 in descriptionInWell[description]) 永远为 False，这使得第一个井中的所有描述都会自然地开启一个新的聚合段，符合逻辑。
points_by_description[description].append([]): 当检测到新的连续块时，就在points_by_description中为该描述添加一个新的空列表，作为新的聚合段。
points_by_description[description][-1].extend([start, end]): 将当前的[start, end]添加到该描述的最后一个（即最新开启的）聚合段中。[-1] 语法可以方便地访问列表中的最后一个元素。

期望输出：

运行上述代码，将得到以下输出，这符合了基于相邻上下文的聚合要求：

Description: earth
[0, 4] [0, 4] [0, 4] 
Description: suglinok
[4, 8] [4, 8] [4, 16] 
Description: gravel
[8, 20] 
[16, 24] 
Description: sand
[8, 20]

我们可以看到，gravel被分成了两个独立的连续段：[8, 20]（来自第一个井）和[16, 24]（来自第三个井），因为第二个井中没有gravel，从而打破了其连续性。

注意事项

通用性： 这种基于索引和前一个上下文单元状态判断的模式可以推广到其他需要“连续性”或“相邻性”聚合的场景。只需将“井”替换为您的上下文单元，并调整判断条件。
数据结构选择： defaultdict(list) 和 defaultdict(set) 的组合非常适合这种动态收集和判断的场景。set用于快速判断元素是否存在，list用于有序地存储聚合结果。
边界条件： 对于序列的第一个元素（wellIdx=0），wellIdx-1会是负数。由于负数索引不会出现在descriptionInWell的集合中，因此第一个元素总会被视为一个新连续段的开始，这正是我们期望的行为。

总结

在处理复杂的数据聚合需求时，仅仅依靠简单的分组往往不够。通过引入对数据序列中“相邻上下文”的判断，我们可以实现更精细、更符合业务逻辑的数据聚合。本文展示了一种利用defaultdict和索引跟踪的有效方法，它能够识别并分离非连续的聚合块，从而提供更准确的数据洞察。这种模式在处理时间序列、日志分析或任何需要考虑元素之间连续性的场景中都具有广泛的应用价值。

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

Python多数元素怎么找_摩尔投票法O(1)空间寻找众数

Python爬虫重试机制怎么写_Tenacity库装饰器实现网络异常自动重试与退避策略

Python异步上下文管理器_async with使用与__aenter__及__aexit__魔法方法实现资源管理

Python断言怎么写_assert语句在代码调试与校验中的作用

相关专题

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

append用法

append是一个常用的命令行工具，用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容，可以阅读本专题下面的文章。

349

2023.10.25

python中append的用法

在Python中，append()是列表对象的一个方法，用于向列表末尾添加一个元素。想了解更多append的更多内容，可以阅读本专题下面的文章。

1080

2023.11.14

python中append的含义

本专题整合了python中append的相关内容，阅读专题下面的文章了解更多详细内容。

186

2025.09.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板