0

0

使用 jq 高效递归处理 JSON 数据:去除空值、类型转换与字符串清理

花韻仙語

花韻仙語

发布时间:2025-10-14 12:57:13

|

827人浏览过

|

来源于php中文网

原创

使用 jq 高效递归处理 json 数据:去除空值、类型转换与字符串清理

本文深入探讨如何利用 `jq` 工具高效地递归处理 JSON 数据,实现空值(包括空字符串、空数组、空对象及仅含空白的字符串)的移除、字符串布尔值的类型转换以及所有字符串(包括键)的首尾空白字符清理。文章将分析常见实现方式的性能瓶颈,并提供一个优化的自定义 `walk` 函数,以提升处理复杂嵌套 JSON 结构时的 CPU 效率。

在数据预处理过程中,面对复杂且嵌套的 JSON 数据,我们经常需要执行一系列清理和标准化操作。例如,移除各种形式的“空”值、将特定字符串转换为其对应的布尔类型,以及统一清理字符串中的多余空白。jq 作为一款强大的命令行 JSON 处理器,是完成此类任务的理想工具。然而,对于大规模或深度嵌套的 JSON 数据,如何编写高效的 jq 查询以避免不必要的 CPU 消耗,则成为一个关键挑战。

核心数据处理需求

我们的目标是递归地对 JSON 数据执行以下操作:

  1. 移除空值
    • 空数组 []
    • 空对象 {}
    • 空字符串 ""
    • 仅包含空白字符的字符串(如 " "、"\t")
    • 值为上述空值的键值对
    • 键本身为空字符串或仅含空白字符的对象成员
  2. 字符串清理
    • 对所有字符串值(包括对象键)去除首尾空白字符。
  3. 类型转换
    • 将字符串 "true" 转换为布尔值 true。
    • 将字符串 "false" 转换为布尔值 false。

初始 jq 解决方案分析

一个常见的 jq 实现思路是利用其 walk 函数进行递归遍历,并在不同数据类型上应用相应的转换逻辑。以下是一个初步的 jq 脚本示例,它尝试满足上述所有需求:

jq 'walk(
  if type == "string" then
    (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
  elif type == "object" then
    with_entries(select(.value | IN("",null, [], {}) | not) | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") |select(.key | IN("") | not ))
  elif type == "array" then
      map(select(. | IN("",null, [], {}) | not))
  else . end)'

脚本逻辑解析:

  • walk(...): 这是 jq 的一个内置函数(或自定义实现),用于递归地遍历 JSON 结构。它将一个过滤器 f 应用于每个节点及其子节点,从叶子节点向上。
  • if type == "string" then ...:
    • sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; ""): 使用正则表达式去除字符串的首尾空白。
    • if . == "true" then . |= true else . end | if . == "false" then . |= false else . end: 将字符串 "true" 和 "false" 转换为对应的布尔值。
  • elif type == "object" then ...:
    • with_entries(...): 遍历对象的键值对。
    • select(.value | IN("",null, [], {}) | not): 过滤掉值为 ""、null、[] 或 {} 的键值对。
    • .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; ""): 清理对象键的首尾空白。
    • select(.key | IN("") | not): 过滤掉清理后键为空字符串的键值对。
  • elif type == "array" then ...:
    • map(select(. | IN("",null, [], {}) | not)): 遍历数组元素,过滤掉值为 ""、null、[] 或 {} 的元素。

尽管此脚本功能完整,但在处理大型数据集时,其 CPU 占用可能较高。这通常是由于 walk 函数的内部实现效率,或者在每个节点上重复执行复杂逻辑所致。

jq 性能优化策略:自定义 walk 函数

为了提升性能,特别是降低 CPU 消耗,我们可以采用一个更为高效的自定义 walk 函数。jq 的内置 walk 在某些情况下可能不是最优的,尤其是在处理对象时。以下是一个经过优化的 walk 函数定义:

def walk(f):
  def w:
    if type == "object"
    then . as $in
    | reduce keys_unsorted[] as $key
        ( {}; . + { ($key):  ($in[$key] | w) } ) | f
    elif type == "array" then map( w ) | f
    else f
    end;
  w;

优化点解析:

甲骨文AI协同平台
甲骨文AI协同平台

专门用于甲骨文研究的革命性平台

下载
  • def walk(f): def w: ... w;: 定义了一个外部的 walk 函数,它接受一个过滤器 f,并在内部定义了一个递归的辅助函数 w。
  • keys_unsorted[]: 相较于 keys[],keys_unsorted[] 在不需要键序保证的情况下通常会更快,因为它避免了排序操作。
  • reduce keys_unsorted[] as $key ( {}; . + { ($key): ($in[$key] | w) } ): 这是对象处理的关键优化。它使用 reduce 迭代对象的键,并逐步构建一个新的对象。这种模式在某些 jq 版本和特定场景下,可能比在 with_entries 中进行大量修改和过滤更高效,因为它避免了中间对象或数组的创建和销毁开销。
  • map( w ): 对于数组,使用 map 函数递归处理每个元素。
  • | f: 无论是对象、数组还是其他基本类型,在子节点递归处理完成后,最终都会将过滤器 f 应用于当前节点。这意味着 f 作用于已经处理过的子树上。

整合优化方案

将上述优化的 walk 函数与我们之前的数据处理逻辑结合,构成一个完整的、高效的 jq 脚本。首先定义 walk 函数,然后调用它并传入我们的清理和转换逻辑。

def walk(f):
  def w:
    if type == "object"
    then . as $in
    | reduce keys_unsorted[] as $key
        ( {}; . + { ($key):  ($in[$key] | w) } ) | f
    elif type == "array" then map( w ) | f
    else f
    end;
  w;

walk(
  if type == "string" then
    (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
  elif type == "object" then
    with_entries(select(.value | IN("",null, [], {}) | not) | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") |select(.key | IN("") | not ))
  elif type == "array" then
      map(select(. | IN("",null, [], {}) | not))
  else . end)

示例演示:

假设我们有以下输入 JSON 数据:

{
  "key1": "  value1  ",
  "key2": "",
  "key3": "true",
  "key4": "false",
  "key5": [],
  "key6": {},
  "key7": null,
  "key8": {
    "nested_key": "   nested_value   ",
    "empty_object_key": {}
  },
  "key9": [
    "array_item_1",
    "",
    "   array_item_2   ",
    []
  ],
  "  empty_key  ": 123
}

运行上述 jq 脚本后,将得到以下输出:

{
  "key1": "value1",
  "key3": true,
  "key4": false,
  "key8": {
    "nested_key": "nested_value"
  },
  "key9": [
    "array_item_1",
    "array_item_2"
  ]
}

可以看到,所有空值(包括空字符串、空数组、空对象、null)、仅含空白的字符串以及空键都被移除。字符串值和键的首尾空白已被清理,并且 "true" 和 "false" 字符串已成功转换为布尔类型。

注意事项与最佳实践

  1. 性能测试与基准: 尽管提供了优化的 walk 函数,但实际性能提升仍需在您的具体数据和环境中进行基准测试。不同 jq 版本和操作系统可能会有差异。
  2. jq 版本: 本文中的 jq 语法兼容 jq 1.6 及更高版本。
  3. 内存与 CPU: 本文主要关注 CPU 优化。如果遇到内存瓶颈,jq --stream 模式是一个值得探索的替代方案,尽管它会改变处理逻辑。
  4. 可读性: 对于非常复杂的处理逻辑,可以考虑将部分逻辑抽象为独立的 def 函数,以提高脚本的可读性和维护性。例如,可以定义 def trim: sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "");。
  5. 错误处理: 在生产环境中,应考虑输入数据可能不符合预期的情况,并加入适当的错误处理或默认值。

总结

jq 是处理 JSON 数据的强大工具,通过灵活运用其内置函数和自定义过滤器,可以实现复杂的转换逻辑。对于性能敏感的应用场景,理解 jq 内部机制并优化核心递归函数(如 walk)至关重要。本文提供的优化 walk 函数和整合方案,旨在帮助您更高效地清理、转换和标准化 JSON 数据,从而降低 CPU 消耗,提升数据预处理的效率。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

413

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

533

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

310

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

75

2025.09.10

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

249

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

742

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8.4万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号