构建霍夫曼树：无需优先队列的巧妙算法

霞舞

发布时间：2025-10-05 10:58:36

370人浏览过

来源于php中文网

原创

构建霍夫曼树：无需优先队列的巧妙算法

本文介绍了一种在不使用优先队列的情况下构建霍夫曼树的高效算法。该方法通过维护两个已排序的节点列表，巧妙地避免了传统优先队列的复杂性，实现了快速查找并合并频率最低的两个节点，最终构建出完整的霍夫曼编码树，其时间复杂度与使用优先队列的方案相当。

1. 霍夫曼树及其传统构建方法

霍夫曼树（huffman tree），又称最优二叉树，是一种带权路径长度最短的二叉树。它在数据压缩领域有着广泛应用，通过为出现频率高的字符分配较短的编码，频率低的字符分配较长的编码，从而实现对数据的有效压缩。

传统上，构建霍夫曼树的核心在于每次从所有可用节点中选出频率最小的两个节点进行合并。为了高效地完成这一操作，通常会使用优先队列（Priority Queue），特别是最小堆（Min-Heap）。优先队列能够以 O(log N) 的时间复杂度插入和提取最小元素，使得整个霍夫曼树的构建过程时间复杂度为 O(N log N)，其中 N 是字符的数量。

然而，在某些特定场景或教学要求下，可能被限制不能使用优先队列。这就提出了一个挑战：如何在没有优先队列的帮助下，依然高效地找到并合并频率最低的两个节点？

2. 核心算法：双列表合并策略

为了在不使用优先队列的情况下构建霍夫曼树，我们可以采用一种巧妙的双列表合并策略。这种方法通过维护两个已排序的列表，模拟了优先队列的功能，同时保持了较高的效率。

2.1 算法原理

该策略的核心思想是：

初始排序： 将所有原始字符节点按频率升序排列。
分而治之： 使用两个列表。一个列表（list1）专门存放原始的叶子节点（即未合并的字符节点），另一个列表（list2）专门存放已经合并生成的内部节点。
有序合并： 每次合并操作时，从 list1 和 list2 的头部（因为它们都保持升序）中选择频率最小的两个节点。将这两个节点合并成一个新节点，并将新节点添加到 list2 的末尾。

2.2 详细步骤

初始化：
- 为每个待编码的字符及其频率创建一个 HuffmanNode 对象（包含字符、频率、左右子节点）。
- 将所有这些初始的叶子节点放入一个列表 list1 中。
- 对 list1 进行升序排序，排序依据是节点的频率。
- 创建一个空的列表 list2，用于存放后续合并产生的内部节点。
迭代合并：
- 当 list1 和 list2 中节点的总数大于1时，重复以下操作：
  - 选择第一个最小节点： 比较 list1 的第一个节点（如果 list1 非空）和 list2 的第一个节点（如果 list2 非空）。从两者中选出频率最小的节点，并将其从对应的列表中移除。
  - 选择第二个最小节点： 重复上一步骤，选出当前剩余节点中频率最小的节点，并将其从对应的列表中移除。
  - 创建新父节点： 将这两个选出的节点合并，创建一个新的 HuffmanNode 作为它们的父节点。新节点的频率是两个子节点频率之和，并将这两个子节点分别设置为新父节点的左子节点和右子节点。
  - 添加到 list2： 将新创建的父节点添加到 list2 的末尾。
结束条件：
- 当 list1 和 list2 中只剩下一个节点时，该节点即为霍夫曼树的根节点，算法结束。

2.3 为什么 list2 始终保持有序？

这是该算法的巧妙之处。当两个节点合并成一个新节点时，新节点的频率是其子节点频率之和，因此新节点的频率必然大于或等于其任何一个子节点的频率。更重要的是，由于我们总是从当前所有可用节点中选择频率最小的两个进行合并，所以新生成的父节点的频率会大于或等于之前已经合并到 list2 中的任何节点（因为那些节点都是由更小的频率组合而成的）。因此，将新节点直接添加到 list2 的末尾，可以保证 list2 始终保持升序排列。

Pixso AI

Pixso AI是一款智能生成设计稿工具，通过AI一键实现文本输入到设计稿生成。

下载

3. 示例与伪代码实现

为了更好地理解上述算法，我们定义一个 HuffmanNode 类，并给出构建霍夫曼树的伪代码。

# 定义霍夫曼树节点结构
class HuffmanNode:
    def __init__(self, char=None, freq=0, left=None, right=None):
        self.char = char  # 字符，叶子节点有值，内部节点为None
        self.freq = freq  # 频率
        self.left = left  # 左子节点
        self.right = right # 右子节点

    # 用于节点之间的比较，以便排序
    def __lt__(self, other):
        return self.freq < other.freq

    # 可选：用于打印节点信息
    def __repr__(self):
        return f"Node(char={self.char}, freq={self.freq})"

def build_huffman_tree_without_pq(frequencies):
    """
    使用双列表合并策略构建霍夫曼树。

    Args:
        frequencies (dict): 字典，键为字符，值为其频率。
                            示例: {'a': 5, 'b': 9, 'c': 12, 'd': 13, 'e': 16, 'f': 45}

    Returns:
        HuffmanNode: 霍夫曼树的根节点。
    """
    if not frequencies:
        return None
    if len(frequencies) == 1:
        char, freq = list(frequencies.items())[0]
        return HuffmanNode(char=char, freq=freq)

    # list1 存储原始叶子节点，按频率升序排列
    list1 = []
    for char, freq in frequencies.items():
        list1.append(HuffmanNode(char=char, freq=freq))
    list1.sort() # 初始排序

    # list2 存储合并后的内部节点，也按频率升序排列
    list2 = []

    # 辅助函数：从 list1 和 list2 头部选择频率最小的节点
    def get_min_node(l1, l2):
        node1 = l1[0] if l1 else None
        node2 = l2[0] if l2 else None

        if node1 and node2:
            # 比较两个列表的头部，选择频率更小的
            if node1.freq < node2.freq:
                return l1.pop(0) # 移除并返回 list1 的第一个节点
            else:
                return l2.pop(0) # 移除并返回 list2 的第一个节点
        elif node1: # 只有 list1 有节点
            return l1.pop(0)
        elif node2: # 只有 list2 有节点
            return l2.pop(0)
        return None # 两个列表都为空

    # 当总节点数大于1时，持续合并
    while len(list1) + len(list2) > 1:
        # 选取第一个最小频率节点
        node1 = get_min_node(list1, list2)
        # 选取第二个最小频率节点
        node2 = get_min_node(list1, list2)

        # 合并这两个节点
        if node1 and node2:
            new_freq = node1.freq + node2.freq
            new_node = HuffmanNode(freq=new_freq, left=node1, right=node2)
            list2.append(new_node) # 将新节点添加到 list2 的末尾
        else:
            # 理论上不会发生，除非循环条件判断有误或输入异常
            break

    # 循环结束后，总会有一个根节点留在其中一个列表中
    if list1:
        return list1[0]
    elif list2:
        return list2[0]
    return None # 异常情况，不应发生

# 示例用法
if __name__ == "__main__":
    frequencies = {'a': 5, 'b': 9, 'c': 12, 'd': 13, 'e': 16, 'f': 45}

    # 构建霍夫曼树
    huffman_root = build_huffman_tree_without_pq(frequencies)

    # 打印霍夫曼树（简单遍历，用于验证）
    def print_huffman_codes(node, current_code="", codes={}):
        if node is None:
            return
        if node.char is not None: # 叶子节点
            codes[node.char] = current_code
        print_huffman_codes(node.left, current_code + "0", codes)
        print_huffman_codes(node.right, current_code + "1", codes)
        return codes

    if huffman_root:
        print("霍夫曼树构建成功！")
        huffman_codes = print_huffman_codes(huffman_root)
        print("霍夫曼编码:")
        for char, code in sorted(huffman_codes.items()):
            print(f"  '{char}': {code}")
    else:
        print("霍夫曼树构建失败。")

4. 注意事项与性能分析

时间复杂度：
- 初始排序： 对 list1 进行初始排序的时间复杂度是 O(N log N)，其中 N 是字符的数量。
- 迭代合并： 每次从两个列表中取出最小元素并合并是 O(1) 操作（因为列表头部访问和 pop(0) 操作）。总共有 N-1 次合并操作。因此，这部分的复杂度是 O(N)。
- 总时间复杂度： 整体时间复杂度为 O(N log N) + O(N) = O(N log N)，与使用优先队列的霍夫曼树构建方法相同。
空间复杂度：
- 需要存储所有节点，以及两个列表。在最坏情况下，两个列表的总长度约为 2N-1 个节点。因此，空间复杂度为 O(N)。
优点：
- 在不允许使用优先队列的情况下，提供了一种高效且逻辑清晰的替代方案。
- 实现相对直观，不需要复杂的堆数据结构操作。
缺点：
- list.pop(0) 操作在某些语言（如 Python）中，对于列表而言，如果列表内部不是双向链表实现，可能会导致 O(N) 的移动操作，从而影响实际性能。然而，在大多数现代解释器和编译器的优化下，对于小到中等规模的数据，其性能影响可能不明显。对于更严格的 O(1) 头部移除需求，可以使用双端队列（deque）或手动实现链表。

5. 总结

本文介绍了一种在没有优先队列限制下构建霍夫曼树的有效算法。通过巧妙地利用两个有序列表，一个存储原始叶子节点，另一个存储合并后的内部节点，我们能够以与传统优先队列方法相同的时间复杂度 O(N log N) 完成霍夫曼树的构建。这种方法不仅解决了特定约束下的问题，也展示了数据结构和算法设计中的灵活性与创造性。在实际应用中，当优先队列不可用或被禁止时，此双列表合并策略是一个值得考虑的优秀替代方案。

正则表达式删除重复标题_用正则表达式去除重复标题行

如何在Java应用中嵌入并运行Python3脚本（无需系统预装Python）

如何使用正则表达式精准删除文件_用正则批量删除匹配文件名

正则表达式适用于哪些语言_支持正则表达式的编程语言列表

如何用栈求解逆波兰表达式（RPN）的最终值