SHA1 实现中常见的填充长度计算错误及修复指南

心靈之曲

发布时间：2026-03-13 15:49:12

639人浏览过

来源于php中文网

原创

SHA1 实现中常见的填充长度计算错误及修复指南

本文详解 python 手动实现 sha-1 算法时因消息填充长度计算偏差导致哈希结果与标准库不一致的根本原因，并提供可验证的修正方案与完整实现。

本文详解 python 手动实现 sha-1 算法时因消息填充长度计算偏差导致哈希结果与标准库不一致的根本原因，并提供可验证的修正方案与完整实现。

SHA-1 是一种广泛应用的密码学哈希函数，其规范要求对输入消息进行严格的消息填充（padding），以确保输入长度满足 len ≡ 448 (mod 512) 比特（即 len ≡ 56 (mod 64) 字节），随后追加 64 位原始消息长度（以比特为单位）。许多手动实现失败的关键，并非逻辑或轮函数错误，而是在计算零填充字节数时忽略了已添加的 0x80 字节对当前长度的影响。

在原始代码中，填充零字节的计算为：

data += b"\x80"
data += b"\x00" * ((56 - msg_len % 64) % 64)  # ❌ 错误：未计入刚添加的 0x80

此时 msg_len 是原始数据长度，但 b"\x80" 已使实际长度变为 msg_len + 1。因此，后续模运算应基于 msg_len + 1 计算剩余空间。正确公式为：

data += b"\x80"
# 正确：考虑 0x80 占用 1 字节后，距离 56 字节边界还需补多少 0x00
pad_len = (56 - (msg_len + 1) % 64) % 64
data += b"\x00" * pad_len

✅ 关键理解：SHA-1 填充规则是 —— 在消息末尾追加单个 0x80 字节，再追加若干 0x00 字节，使得 len(original_msg) + 1 + pad_len ≡ 56 (mod 64)，即 (msg_len + 1 + pad_len) % 64 == 56。解得 pad_len = (56 - (msg_len + 1) % 64) % 64。

此外，还需确认另一处易错点：长度字段必须是原始消息的比特长度（而非字节长度），且以 64 位大端序（big-endian）编码。原始代码中 (msg_len * 8).to_bytes(8, "big") 是正确的，无需修改。

PPT.AI

AI PPT制作工具

下载

以下是修复后的完整、可运行 SHA-1 实现（已通过 b"hello"、空字符串、长文本等多组测试用例验证，与 hashlib.sha1().digest() 完全一致）：

from hashlib import sha1 as builtin_sha1

def rotl32(value: int, count: int) -> int:
    return ((value << count) | (value >> (32 - count))) & 0xffffffff

def sha1(data: bytes) -> bytes:
    # 初始化哈希值（RFC 3174）
    h0, h1, h2, h3, h4 = 0x67452301, 0xefcdab89, 0x98badcfe, 0x10325476, 0xc3d2e1f0

    msg_len = len(data)

    # Step 1: Append '1' bit (0x80 byte)
    data = data + b"\x80"

    # Step 2: Append '0' bits until length ≡ 56 (mod 64)
    # Note: we've already added 1 byte → use (msg_len + 1) in modulo
    pad_len = (56 - (msg_len + 1) % 64) % 64
    data = data + b"\x00" * pad_len

    # Step 3: Append original message length in BITS, as 64-bit big-endian integer
    bit_length = msg_len * 8
    data = data + bit_length.to_bytes(8, "big")

    # Process each 64-byte chunk
    for i in range(0, len(data), 64):
        # Parse 16 words (32-bit each, big-endian)
        words = [
            int.from_bytes(data[i + j:i + j + 4], "big")
            for j in range(0, 64, 4)
        ]

        # Extend to 80 words
        for j in range(16, 80):
            w = rotl32(
                words[j - 3] ^ words[j - 8] ^ words[j - 14] ^ words[j - 16],
                1
            )
            words.append(w & 0xffffffff)

        # Initialize working variables
        a, b, c, d, e = h0, h1, h2, h3, h4

        # Main loop (80 rounds)
        for j in range(80):
            if 0 <= j <= 19:
                f = (b & c) | (~b & d) & 0xffffffff
                k = 0x5a827999
            elif 20 <= j <= 39:
                f = b ^ c ^ d
                k = 0x6ed9eba1
            elif 40 <= j <= 59:
                f = (b & c) | (b & d) | (c & d)
                k = 0x8f1bbcdc
            else:  # 60–79
                f = b ^ c ^ d
                k = 0xca62c1d6

            temp = (rotl32(a, 5) + f + e + k + words[j]) & 0xffffffff
            e = d
            d = c
            c = rotl32(b, 30)
            b = a
            a = temp

        # Update hash state
        h0 = (h0 + a) & 0xffffffff
        h1 = (h1 + b) & 0xffffffff
        h2 = (h2 + c) & 0xffffffff
        h3 = (h3 + d) & 0xffffffff
        h4 = (h4 + e) & 0xffffffff

    # Output: 20-byte big-endian digest
    return (
        (h0 << 128) | (h1 << 96) | (h2 << 64) | (h3 << 32) | h4
    ).to_bytes(20, "big")

# ✅ 验证示例
if __name__ == "__main__":
    test_data = b"hello"
    assert sha1(test_data) == builtin_sha1(test_data).digest()
    print("✅ SHA-1 implementation matches hashlib.sha1")

注意事项与最佳实践：

始终使用 & 0xffffffff 截断中间结果：Python 整数无符号溢出，需显式模拟 32 位整数行为；
~b 在 Python 中是带符号取反，应配合 & 0xffffffff 使用（如 (~b & 0xffffffff)），原代码中 (~b) & d 写法在 b 为正时虽暂可工作，但语义不严谨；推荐统一改写为 (b & c) | ((~b) & d & 0xffffffff) 或更清晰的 (b & c) | ((0xffffffff ^ b) & d)；
避免复用变量名 msg_len：填充前/后长度不同，建议分别命名为 orig_len 和 padded_len 提升可读性；
单元测试不可省略：除 "hello" 外，务必覆盖边界用例：空字节串 b""、64 字节消息（触发一次完整块）、55/56 字节消息（测试 padding 长度临界值）。

掌握这一填充细节，不仅解决 SHA-1 实现一致性问题，更是深入理解所有 Merkle–Damgård 结构哈希算法（如 MD5、SHA-256）填充机制的基石。

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1567

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

650

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22