0

0

Python 日志脱敏的正则与性能平衡

冰川箭仙

冰川箭仙

发布时间:2026-02-24 21:13:03

|

499人浏览过

|

来源于php中文网

原创

必须脱敏密码、身份证号、手机号、银行卡号、邮箱地址、jwt token 等强敏感字段;应优先在结构化日志中对明确字段精准脱敏,避免全文正则扫描,推荐使用预编译正则与 logging.filter 实现高效、可控的字段级脱敏。

python 日志脱敏的正则与性能平衡

日志中哪些字段必须脱敏

密码、身份证号、手机号、银行卡号、邮箱地址、JWT token 这几类是强敏感字段,不脱敏就上生产等于裸奔。但别一上来就写个巨长正则匹配所有——比如用 .*?(\d{17}[\dXx]|\d{11}|[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}).* 这种“万能”模式,它会吃掉大量 CPU,尤其在高并发日志写入时,logging 线程可能被卡住。

实际做法是:只对明确知道会含敏感信息的字段做精准匹配。比如你记录的是 user_info 字典,那就只对 user_info['id_card']user_info['phone'] 这些键值脱敏,而不是对整条日志文本扫一遍。

  • 优先在结构化日志(如 JSON 格式)中做字段级脱敏,而非对 %(message)s 做全文正则
  • 避免在 Formatter.format() 里调用 re.sub() 处理整条日志字符串
  • 如果必须全文扫描,用预编译的 re.compile() 对象,且正则尽量窄(比如手机号限定为 r'1[3-9]\d{9}',而非 r'\d{11}'

用 Filter 还是 Processor 脱敏更稳

Python 的 logging.Filter 是最轻量、最可控的方式;而像 structlog 的 processor 或 logurupatch() 属于更高层封装,容易掩盖脱敏时机问题。

Filter 在日志 record 创建后、格式化前介入,能直接修改 record.__dict__,不影响性能,也绕过字符串拼接阶段。但注意:它不能改 record.msg 里的占位符参数(比如 logger.info("user=%s", user_dict) 中的 user_dict),只能处理已展开的 record.message 或你手动塞进 record 的自定义字段。

立即学习Python免费学习笔记(深入)”;

Peppertype.ai
Peppertype.ai

高质量AI内容生成软件,它通过使用机器学习来理解用户的需求。

下载
  • 适合场景:结构化字段已存在 record.extra 或你通过 LoggerAdapter 注入的字段
  • 不适用场景:想动态脱敏 logger.info("token: %s", raw_token) 中的 raw_token ——这时得提前处理变量,或换用 logurupatch() 拦截
  • 别在 filter() 里做耗时操作(如查数据库、调 API),它运行在日志主线程里

正则写太宽会拖慢整个 logging 流程

一个典型错误是写 re.sub(r'.*password\s*[:=]\s*(\S+)', r'password=***', msg) ——这会导致回溯爆炸,尤其当 msg 含大量空格或特殊符号时,PCRE 引擎可能卡住几十毫秒。实测在 QPS 500+ 的服务里,这种正则会让日志延迟从 0.2ms 涨到 15ms+。

真正高效的写法是:锚定边界 + 限定长度 + 禁用贪婪。比如脱敏 JSON 日志中的 password 字段,用 r'"password"\s*:\s*"[^"]{8,64}"',配合 re.IGNORECASE 和预编译。

  • 永远用 re.compile(..., re.DOTALL | re.IGNORECASE) 预编译,不要每次 format 都 re.sub()
  • 避免 .* 开头,改用 [^"]*\w+ 等有界表达式
  • 对超长字段(如 base64 token)加长度限制,比如 r'[A-Za-z0-9+/]{20,500}={0,2}',防止误匹配整个 HTML 响应体

JSON 日志里嵌套字段怎么安全脱敏

结构化日志里常见 {"user": {"profile": {"phone": "138****1234"}}} 这种嵌套,用正则硬扫 JSON 字符串风险极高——一旦 JSON 格式稍有变动(比如 key 加了空格、value 是 null),正则就失效或错脱敏。正确方式是解析后遍历字段。

但别真在每条日志里 json.loads() ——那比正则还慢。折中方案:只对已知路径做浅层提取。比如用 record.json_data.get('user', {}).get('profile', {}).get('phone'),再替换。前提是你的日志框架支持把结构体存进 record 属性(logurustructlog 原生支持,原生 logging 需要自定义 LoggerAdapter)。

  • 如果必须用原生 logging,建议在业务代码里提前脱敏字段,再传给 logger,而不是指望日志层兜底
  • 别对整个 JSON 字符串做 re.sub(),哪怕用了 re.escape() 包裹 key 名,JSON 的转义和嵌套仍会导致漏匹配
  • 注意 Noneintbool 类型字段不会被字符串正则捕获,脱敏逻辑要单独判空或类型

脱敏不是加一层正则就完事,关键是控制作用域——越早、越窄、越结构化,越不容易翻车。线上日志管道里混着调试信息、用户输入、第三方响应,一个没压住的 re.sub() 就能让吞吐掉一半。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

448

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

323

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

246

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

866

2024.03.01

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

866

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

452

2024.06.27

Golang 生态工具与框架:扩展开发能力
Golang 生态工具与框架:扩展开发能力

《Golang 生态工具与框架》系统梳理 Go 语言在实际工程中的主流工具链与框架选型思路,涵盖 Web 框架、RPC 通信、依赖管理、测试工具、代码生成与项目结构设计等内容。通过真实项目场景解析不同工具的适用边界与组合方式,帮助开发者构建高效、可维护的 Go 工程体系,并提升团队协作与交付效率。

1

2026.02.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号