Python中基于相似度对字典条目进行分组：图论与最大团算法

霞舞

发布时间：2025-09-21 12:57:35

554人浏览过

来源于php中文网

原创

Python中基于相似度对字典条目进行分组：图论与最大团算法

针对字典条目间的冗余相似性比较问题，本教程介绍了一种基于图论和最大团算法的优雅解决方案。通过为每个独特的相似度值构建一个图，并将字典键作为节点，相似条目间的边作为连接，我们可以利用networkx库高效地识别出具有相同相似度的最大分组（即最大团），从而将具有相同相似性分数的条目进行有效聚合，避免重复计算并简化数据结构。

引言：处理字典条目相似性分组的挑战

在数据处理和分析中，我们经常需要计算不同数据点之间的相似度。当数据点以字典的形式存在时，例如：

my_dict = {
    'A': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'D': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'T': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'O': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    # ... 更多条目
}

我们可能会计算所有条目间的成对相似度。然而，这种计算方式常常导致结果中出现大量冗余，例如 ('A', 'D'): 1.0 和 ('D', 'A'): 1.0。更进一步的需求是，我们希望将所有相互之间具有相同相似度分数的条目聚合到一个组中，形成如 ('A', 'D', 'C'): 1.0 这样的更简洁、有意义的结构，而不是零散的成对关系。

传统的迭代和缓冲方法，如尝试使用多层嵌套循环和条件判断来构建这些分组，往往会导致代码逻辑复杂、难以维护且效率低下。为了解决这个问题，我们可以引入图论中的最大团（Maximal Clique）概念，提供一个更为优雅和高效的解决方案。

核心概念：将问题转化为图论中的最大团问题

图论为解决复杂的分组和连接问题提供了强大的抽象工具。我们可以将字典条目相似性分组问题巧妙地转化为一个图论问题：

构建图 (Graph)：

立即学习“Python免费学习笔记（深入）”；
- 节点 (Vertices)： 原始字典中的每个键（例如 'A', 'D', 'T', 'O'）都代表图中的一个节点。
- 边 (Edges)： 如果两个节点（即两个字典键）之间的相似度达到某个特定的值，那么它们之间就存在一条边。
最大团 (Maximal Clique)：

GentleAI
GentleAI是一个高效的AI工作平台，为普通人提供智能计算、简单易用的界面和专业技术支持。让人工智能服务每一个人。

下载
- 定义： 在一个无向图中，一个团是一个子图，其中任意两个节点之间都存在一条边。最大团是指一个团，它不能通过添加任何其他节点而变得更大。换句话说，它是图中一个完全连接的子图，且不是任何更大完全连接子图的真子集。
- 问题映射： 为什么找到最大团能够解决我们的分组问题？设想我们为每一个独特的相似度值构建一个独立的图。在这个图中，如果 'A' 和 'D' 之间有边，'D' 和 'C' 之间有边，'A' 和 'C' 之间也有边，并且它们都对应着相同的相似度分数（例如 1.0），那么 'A', 'D', 'C' 就形成了一个团。这个团正是我们所寻求的、相互之间具有相同相似度的分组。通过寻找这些团，我们就能有效地聚合具有相同相似性的条目。

使用 networkx 库实现相似性分组

networkx 是一个强大的 Python 库，用于创建、操作和研究图结构。它提供了高效的算法来实现图论中的各种操作，包括查找最大团。

步骤一：计算所有条目间的成对相似度

首先，我们需要一个函数来计算任意两个字典条目之间的相似度。这里使用余弦相似度作为示例，但此方法适用于任何自定义的相似度计算函数。

from math import sqrt
from itertools import combinations
import networkx as nx
from collections import defaultdict

# 原始字典数据
my_dict = {
    'A': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'D': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'T': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'O': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'L': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'S': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'N': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'P': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'C': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
}

def square_root(x):
    """计算向量的欧几里得范数（平方和的平方根）。"""
    return round(sqrt(sum([a * a for a in x])), 3)

def cosine_similarity(a, b):
    """
    计算两个字典（表示向量）之间的余弦相似度。
    假设字典键是特征，值是特征值。
    """
    all_keys = sorted(list(set(a.keys()) | set(b.keys())))

    vector1 = [a.get(k, 0) for k in all_keys]
    vector2 = [b.get(k, 0) for k in all_keys]

    numerator = sum(v1 * v2 for v1, v2 in zip(vector1, vector2))
    denominator = square_root(vector1) * square_root(vector2)

    if denominator == 0:
        return 0.0 # 避免除以零
    return round(numerator / float(denominator), 3)

# 计算所有不重复的成对相似度
pairwise_similarities = {}
keys = list(my_dict.keys())
for k1, k2 in combinations(keys, 2): # 使用combinations避免冗余和自比较
    pairwise_similarities[(k1, k2)] = cosine_similarity(my_dict[k1], my_dict[k2])

# 打印一些示例相似度结果
# print("成对相似度示例:")
# for (k1, k2), sim in pairwise_similarities.items():
#     print(f"  ('{k1}', '{k2}'): {sim}")

步骤二：为每个独特的相似度值构建独立的图

我们将使用 collections.defaultdict 来存储多个 networkx.Graph 对象，每个图对应一个独特的相似度值。

# 为每个独特的相似度值构建图
graphs_by_similarity = defaultdict(nx.Graph)

# 注意：浮点数比较可能存在精度问题。
# 可以选择对相似度值进行四舍五入或乘以一个大整数后再取整，
# 以确保相近的浮点数被视为相同的值。
# 例如：sim_key = int(sim_value * 1000)
for (p, q), s in pairwise_similarities.items():
    # 示例中，相似度已经四舍五入到小数点后三位，可以直接使用
    graphs_by_similarity[s].add_edge(p, q)

# print("\n构建的图数量:", len(graphs_by_similarity))
# for s, G in graphs_by_similarity.items():
#     print(f"  相似度 {s} 对应的图有 {G.number_of_nodes()} 个节点, {G.number_of_edges()} 条边")

步骤三：在每个图中寻找最大团

最后，遍历所有构建的图，并使用 nx.find_cliques(G) 函数来查找每个图中的所有最大团。nx.find_cliques 返回一个生成器，生成图中的所有最大团。

# 存储最终的分组结果
grouped_entries = {}

for s, G in graphs_by_similarity.items():
    for clique in nx.find_cliques(G):
        # 将团（列表）转换为元组作为字典键，并关联其相似度值
        # 确保团内的元素按字母顺序排序，以保证结果的确定性
        grouped_entries[tuple(sorted(clique))] = s

# 打印最终分组结果，按相似度降序排列
print("\n最终分组结果:")
sorted_grouped_entries = sorted(grouped_entries.items(), key=lambda item: item[1], reverse=True)
for group, sim_score in sorted_grouped_entries:
    print(f"  {group}: {sim_score}")

完整示例代码

from math import sqrt
from itertools import combinations
import networkx as nx
from collections import defaultdict

# 原始字典数据
my_dict = {
    'A': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'D': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'T': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
    'O': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'L': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'S': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'N': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'P': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
    'C': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
}

def square_root(x):
    """计算向量的欧几里得范数（平方和的平方根）。"""
    return round(sqrt(sum([a * a for a in x])), 3)

def cosine_similarity(a, b):
    """
    计算两个字典（表示向量）之间的余弦相似度。
    假设字典键是特征，值是特征值。
    """
    all_keys = sorted(list(set(a.keys()) | set(b.keys())))

    vector1 = [a.get(k, 0) for k in all_keys]
    vector2 = [b.get(k, 0) for k in all_keys]

    numerator = sum(v1 * v2 for v1, v2 in zip(vector1, vector2))
    denominator = square_root(vector1) * square_root(vector2)

    if denominator == 0:
        return 0.0 # 避免除以零
    return round(numerator / float(denominator), 3)

def group_similar_entries(data_dict):
    """
    根据相似度对字典条目进行分组。

    Args:
        data_dict (dict): 待分组的字典，键是条目名称，值是特征字典。

    Returns:
        dict: 分组后的字典，键是条目名称的元组（代表一个组），值是该组的相似度分数。
    """

    # 1. 计算所有条目间的成对相似度
    pairwise_similarities = {}
    keys = list(data_dict.keys())
    for k1, k2 in combinations(keys, 2):
        pairwise_similarities[(k1, k2)] = cosine_similarity(data_dict[k1], data_dict[k2])

    # 2. 为每个独特的相似度值构建独立的图
    graphs_by_similarity = defaultdict(nx.Graph)
    for (p, q), s in pairwise_similarities.items():
        graphs_by_similarity[s].add_edge(p, q)

    # 3. 在每个图中寻找最大团
    grouped_entries = {}
    for s, G in graphs_by_similarity.items():
        for clique in nx.find_cliques(G):
            # 将团（列表）转换为元组作为字典键，并关联其相似度值
            # 确保团内的元素按字母顺序排序，以保证结果的确定性
            grouped_entries[tuple(sorted(clique))] = s

    return grouped_entries

# 执行分组
final_grouped_results = group_similar_entries(my_dict)

# 打印最终分组结果，按相似度降序排列
print("最终分组结果:")
sorted_final_results = sorted(final_grouped_results.items(), key=lambda item: item[

如何在Python中正确加载并显示Kaggle图像数据集中的图片

SHA1 实现与标准库结果不一致的常见原因及修复方案

如何在Python中正确加载并显示Kaggle数据集中的图像

Python 的 copyreg 模块完全适用于自定义类的序列化定制

Python 的 copyreg 模块完全适用于用户自定义类的序列化定制

相关专题

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

500

2023.08.14

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板