SHA1 实现与标准库结果不一致的常见原因及修复方案

花韻仙語

发布时间：2026-03-13 20:43:03

702人浏览过

来源于php中文网

原创

本文详解 Python 手动实现 SHA-1 算法时因消息填充逻辑错误（特别是长度计算未包含已添加的 0x80 字节）导致哈希值与 hashlib.sha1 不一致的问题，并提供可验证的修正代码与关键注意事项。

本文详解 python 手动实现 sha-1 算法时因消息填充逻辑错误（特别是长度计算未包含已添加的 `0x80` 字节）导致哈希值与 `hashlib.sha1` 不一致的问题，并提供可验证的修正代码与关键注意事项。

在实现 SHA-1 算法时，即使核心轮函数、逻辑运算和循环移位（rotl32）完全正确，消息预处理阶段的填充（padding）错误仍会导致最终哈希值与标准库 hashlib.sha1 严重偏离。本教程聚焦一个典型且隐蔽的错误：在计算零填充字节数时，忽略了已追加的 0x80 字节对当前消息长度的影响。

? 问题定位：填充长度计算偏差

SHA-1 要求输入消息按如下规则填充至 64 字节（512 位）块的整数倍：

追加单字节 0x80；
追加若干 0x00 字节，使填充后总长度（含 0x80）模 64 等于 56（即预留最后 8 字节存放原始消息比特长度）；
追加原始消息长度（单位：bit）的 64 位大端表示。

关键陷阱在于：步骤 2 中的“当前长度”必须是 len(data) + 1（即已含 0x80 的长度），而非原始 msg_len。原代码中：

data += b"\x80"
data += b"\x00" * ((56 - msg_len % 64) % 64)  # ❌ 错误：未考虑刚添加的 1 字节

这会导致零填充数量少算或多算，进而使后续的长度字段位置偏移、数据分块错乱，最终轮函数输入错误。

一点PPT

一句话生成专业PPT，AI自动排版配图

下载

✅ 正确填充逻辑（修复版）

将填充计算修正为：

# 正确：msg_len 是原始长度，+1 表示已添加 0x80 后的当前长度
pad_len = (56 - (msg_len + 1) % 64) % 64
data += b"\x00" * pad_len

完整修复后的 sha1() 函数如下（仅展示关键修正部分，其余逻辑保持不变）：

def sha1(data: bytes) -> bytes:
    h0 = 0x67452301
    h1 = 0xefcdab89
    h2 = 0x98badcfe
    h3 = 0x10325476
    h4 = 0xc3d2e1f0

    msg_len = len(data)  # 原始字节长度

    # Step 1: append 0x80
    data += b"\x80"

    # Step 2: append 0x00 until (len + 1) % 64 == 56
    pad_len = (56 - (msg_len + 1) % 64) % 64
    data += b"\x00" * pad_len

    # Step 3: append bit length as 64-bit big-endian
    bit_length = msg_len * 8
    data += bit_length.to_bytes(8, "big")

    # Now process blocks...
    msg_len = len(data)  # 更新为填充后总长度
    for i in range(0, msg_len, 64):
        words = [int.from_bytes(data[i + j:i + j + 4], "big") for j in range(0, 64, 4)]
        for j in range(16, 80):
            words.append(rotl32(words[j-3] ^ words[j-8] ^ words[j-14] ^ words[j-16], 1))

        a, b, c, d, e = h0, h1, h2, h3, h4
        for j in range(80):
            if 0 <= j <= 19:
                f = (b & c) | ((~b) & d)
                k = 0x5a827999
            elif 20 <= j <= 39:
                f = b ^ c ^ d
                k = 0x6ed9eba1
            elif 40 <= j <= 59:
                f = (b & c) | (b & d) | (c & d)
                k = 0x8f1bbcdc
            else:  # 60 <= j <= 79
                f = b ^ c ^ d
                k = 0xca62c1d6

            temp = (rotl32(a, 5) + f + e + k + words[j]) & 0xffffffff
            e, d, c, b, a = d, c, rotl32(b, 30), a, temp

        h0 = (h0 + a) & 0xffffffff
        h1 = (h1 + b) & 0xffffffff
        h2 = (h2 + c) & 0xffffffff
        h3 = (h3 + d) & 0xffffffff
        h4 = (h4 + e) & 0xffffffff

    return ((h0 << 128) | (h1 << 96) | (h2 << 64) | (h3 << 32) | h4).to_bytes(20, "big")

✅ 验证与使用

from hashlib import sha1 as builtin_sha1

if __name__ == "__main__":
    test_data = b"hello"
    assert sha1(test_data) == builtin_sha1(test_data).digest()
    print("✅ SHA-1 implementation matches hashlib!")
    print(f"Hash of 'hello': {sha1(test_data).hex()}")

⚠️ 关键注意事项

字节序一致性：所有 int.from_bytes(..., "big") 和 .to_bytes(..., "big") 必须统一为大端，SHA-1 规范严格依赖此约定；
32 位截断：每轮运算后需用 & 0xffffffff 强制 32 位无符号整数行为（Python int 无限精度，不截断会导致高位溢出干扰）；
负数取反：~b 在 Python 中产生负数，应先转为 32 位无符号（如 ~b & 0xffffffff），但本例中 f = (b & c) | ((~b) & d) 在 b 为 32 位非负时 ~b 等价于 0xffffffff ^ b，实际可安全使用；若追求绝对严谨，建议显式写为 (b & c) | ((~b & 0xffffffff) & d)；
长度字段单位：务必使用比特长度（msg_len * 8），而非字节长度——这是初学者高频错误点。

通过精准修正填充逻辑，你的手写 SHA-1 实现即可与 hashlib 完全兼容，成为理解密码学哈希底层机制的可靠实践范例。

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1051

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

614

2024.08.29

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

335

2025.08.29

C++中int的含义

本专题整合了C++中int相关内容，阅读专题下面的文章了解更多详细内容。

235

2025.08.29

css中的padding属性作用

在CSS中，padding属性用于设置元素的内边距。想了解更多padding的相关内容，可以阅读本专题下面的文章。

176

2023.12.07

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

500

2023.08.14

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板