使用 jq 高效递归处理 JSON 数据：去除空值、类型转换与字符串清理

花韻仙語

发布时间：2025-10-14 12:57:13

827人浏览过

来源于php中文网

原创

使用 jq 高效递归处理 json 数据：去除空值、类型转换与字符串清理

本文深入探讨如何利用 `jq` 工具高效地递归处理 JSON 数据，实现空值（包括空字符串、空数组、空对象及仅含空白的字符串）的移除、字符串布尔值的类型转换以及所有字符串（包括键）的首尾空白字符清理。文章将分析常见实现方式的性能瓶颈，并提供一个优化的自定义 `walk` 函数，以提升处理复杂嵌套 JSON 结构时的 CPU 效率。

在数据预处理过程中，面对复杂且嵌套的 JSON 数据，我们经常需要执行一系列清理和标准化操作。例如，移除各种形式的“空”值、将特定字符串转换为其对应的布尔类型，以及统一清理字符串中的多余空白。jq 作为一款强大的命令行 JSON 处理器，是完成此类任务的理想工具。然而，对于大规模或深度嵌套的 JSON 数据，如何编写高效的 jq 查询以避免不必要的 CPU 消耗，则成为一个关键挑战。

核心数据处理需求

我们的目标是递归地对 JSON 数据执行以下操作：

移除空值：
- 空数组 []
- 空对象 {}
- 空字符串 ""
- 仅包含空白字符的字符串（如 " "、"\t"）
- 值为上述空值的键值对
- 键本身为空字符串或仅含空白字符的对象成员
字符串清理：
- 对所有字符串值（包括对象键）去除首尾空白字符。
类型转换：
- 将字符串 "true" 转换为布尔值 true。
- 将字符串 "false" 转换为布尔值 false。

初始 jq 解决方案分析

一个常见的 jq 实现思路是利用其 walk 函数进行递归遍历，并在不同数据类型上应用相应的转换逻辑。以下是一个初步的 jq 脚本示例，它尝试满足上述所有需求：

jq 'walk(
  if type == "string" then
    (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
  elif type == "object" then
    with_entries(select(.value | IN("",null, [], {}) | not) | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") |select(.key | IN("") | not ))
  elif type == "array" then
      map(select(. | IN("",null, [], {}) | not))
  else . end)'

脚本逻辑解析：

walk(...): 这是 jq 的一个内置函数（或自定义实现），用于递归地遍历 JSON 结构。它将一个过滤器 f 应用于每个节点及其子节点，从叶子节点向上。
if type == "string" then ...:
- sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; ""): 使用正则表达式去除字符串的首尾空白。
- if . == "true" then . |= true else . end | if . == "false" then . |= false else . end: 将字符串 "true" 和 "false" 转换为对应的布尔值。
elif type == "object" then ...:
- with_entries(...): 遍历对象的键值对。
- select(.value | IN("",null, [], {}) | not): 过滤掉值为 ""、null、[] 或 {} 的键值对。
- .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; ""): 清理对象键的首尾空白。
- select(.key | IN("") | not): 过滤掉清理后键为空字符串的键值对。
elif type == "array" then ...:
- map(select(. | IN("",null, [], {}) | not)): 遍历数组元素，过滤掉值为 ""、null、[] 或 {} 的元素。

尽管此脚本功能完整，但在处理大型数据集时，其 CPU 占用可能较高。这通常是由于 walk 函数的内部实现效率，或者在每个节点上重复执行复杂逻辑所致。

jq 性能优化策略：自定义 walk 函数

为了提升性能，特别是降低 CPU 消耗，我们可以采用一个更为高效的自定义 walk 函数。jq 的内置 walk 在某些情况下可能不是最优的，尤其是在处理对象时。以下是一个经过优化的 walk 函数定义：

def walk(f):
  def w:
    if type == "object"
    then . as $in
    | reduce keys_unsorted[] as $key
        ( {}; . + { ($key):  ($in[$key] | w) } ) | f
    elif type == "array" then map( w ) | f
    else f
    end;
  w;

优化点解析：

GentleAI

GentleAI是一个高效的AI工作平台，为普通人提供智能计算、简单易用的界面和专业技术支持。让人工智能服务每一个人。

下载

def walk(f): def w: ... w;: 定义了一个外部的 walk 函数，它接受一个过滤器 f，并在内部定义了一个递归的辅助函数 w。
keys_unsorted[]: 相较于 keys[]，keys_unsorted[] 在不需要键序保证的情况下通常会更快，因为它避免了排序操作。
reduce keys_unsorted[] as $key ( {}; . + { ($key): ($in[$key] | w) } ): 这是对象处理的关键优化。它使用 reduce 迭代对象的键，并逐步构建一个新的对象。这种模式在某些 jq 版本和特定场景下，可能比在 with_entries 中进行大量修改和过滤更高效，因为它避免了中间对象或数组的创建和销毁开销。
map( w ): 对于数组，使用 map 函数递归处理每个元素。
| f: 无论是对象、数组还是其他基本类型，在子节点递归处理完成后，最终都会将过滤器 f 应用于当前节点。这意味着 f 作用于已经处理过的子树上。

整合优化方案

将上述优化的 walk 函数与我们之前的数据处理逻辑结合，构成一个完整的、高效的 jq 脚本。首先定义 walk 函数，然后调用它并传入我们的清理和转换逻辑。

def walk(f):
  def w:
    if type == "object"
    then . as $in
    | reduce keys_unsorted[] as $key
        ( {}; . + { ($key):  ($in[$key] | w) } ) | f
    elif type == "array" then map( w ) | f
    else f
    end;
  w;

walk(
  if type == "string" then
    (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
  elif type == "object" then
    with_entries(select(.value | IN("",null, [], {}) | not) | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") |select(.key | IN("") | not ))
  elif type == "array" then
      map(select(. | IN("",null, [], {}) | not))
  else . end)

示例演示：

假设我们有以下输入 JSON 数据：

{
  "key1": "  value1  ",
  "key2": "",
  "key3": "true",
  "key4": "false",
  "key5": [],
  "key6": {},
  "key7": null,
  "key8": {
    "nested_key": "   nested_value   ",
    "empty_object_key": {}
  },
  "key9": [
    "array_item_1",
    "",
    "   array_item_2   ",
    []
  ],
  "  empty_key  ": 123
}

运行上述 jq 脚本后，将得到以下输出：

{
  "key1": "value1",
  "key3": true,
  "key4": false,
  "key8": {
    "nested_key": "nested_value"
  },
  "key9": [
    "array_item_1",
    "array_item_2"
  ]
}

可以看到，所有空值（包括空字符串、空数组、空对象、null）、仅含空白的字符串以及空键都被移除。字符串值和键的首尾空白已被清理，并且 "true" 和 "false" 字符串已成功转换为布尔类型。

注意事项与最佳实践

性能测试与基准: 尽管提供了优化的 walk 函数，但实际性能提升仍需在您的具体数据和环境中进行基准测试。不同 jq 版本和操作系统可能会有差异。
jq 版本: 本文中的 jq 语法兼容 jq 1.6 及更高版本。
内存与 CPU: 本文主要关注 CPU 优化。如果遇到内存瓶颈，jq --stream 模式是一个值得探索的替代方案，尽管它会改变处理逻辑。
可读性: 对于非常复杂的处理逻辑，可以考虑将部分逻辑抽象为独立的 def 函数，以提高脚本的可读性和维护性。例如，可以定义 def trim: sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "");。
错误处理: 在生产环境中，应考虑输入数据可能不符合预期的情况，并加入适当的错误处理或默认值。

总结

jq 是处理 JSON 数据的强大工具，通过灵活运用其内置函数和自定义过滤器，可以实现复杂的转换逻辑。对于性能敏感的应用场景，理解 jq 内部机制并优化核心递归函数（如 walk）至关重要。本文提供的优化 walk 函数和整合方案，旨在帮助您更高效地清理、转换和标准化 JSON 数据，从而降低 CPU 消耗，提升数据预处理的效率。

如何在 Barba.js 页面过渡后重新初始化 JavaScript 功能

使用 D3.js 构建数据驱动的响应式侧边栏导航

使用 D3.js 构建数据驱动的侧边栏导航（支持多级嵌套）

构建基于 D3.js 的数据驱动侧边导航栏（支持多级嵌套）

XSS攻击中JavaScript字符串的非法减法运算利用原理详解